- 1 : 2024/02/29(木) 08:34:52.48 ID:PRp2fWw60
-
Microsoftの中国チームがとてつもないLLMをリリースした。それが「BitNet 1.58Bits」だ。
もともとMicrosoftはかねてから「1ビット量子化」の研究を続けて来た。しかし、32ビット浮動小数点での計算が主流な時代にはあまりに野心的で荒唐無稽なプロジェクトに見えていたのは否めない。しかし、現在、大規模言語モデル(LLM;Large Language Model)は8ビット、4ビットで量子化されるのが当たり前になり、量子化しても性能劣化はある程度まで抑えられることも知られるようになった。
昨年10月に発表した「BitNet」は、多くの人々が他のことに気を取られていてほとんど話題にならなかった。
そんな中、満を持して発表された1ビットLLMの性能に関するレポートは、衝撃的と言っていい内容だ。論文のタイトルも堂々と「The Era of 1-bit LLM(1ビットLLMの時代)」としている。彼らが発表したグラフを引用しよう。
- 2 : 2024/02/29(木) 08:35:29.27 ID:PRp2fWw60
-
まず、最近主流になっている70B(700億)パラメータモデルでの比較である。Llamaの70BとBitNetの70Bモデルを比較すると、BitNetは8.9倍のスループットを誇るという。
「速いだけで回答が微妙なのでは」と心配するのが普通だろう。
そこでLlamaモデルとの比較が載っている。この表によると、BitNetはLlamaよりも3倍高速でしかも高精度ということになる。
PPLは「困惑」の度合いを意味する数値で、低いほど「困惑してない」ことになる。Llamaよりも性能劣化してないどころか性能は上がっている。また、各種ベンチマークにおいても平均点は同規模のBitNetがLlamaを上回っている。しかもBitNetは規模が大きくなるほどLlamaに対して優位に立つようになっている。
この圧倒的なスピードの秘密は、BitNetが文字通り「1ビットで処理している」からだ。
- 3 : 2024/02/29(木) 08:36:02.05 ID:PRp2fWw60
-
通常、LLMをふくむディープラーニングされたニューラルネットは巨大な行列の積和演算(掛け算と足し算)を必要とする。
推論時も学習時もそうだ。しかし、1ビット、つまり、行列の中身が0か1しかないのであれば、全ての計算を加算演算のみにできる。
加算と乗算では計算速度も負荷も段違いに異なるため、これだけのスピードの差が出ている。また、当然ながらメモリ効率も高い。このため、この論文では「積和演算に最適化されたGPUではなく、加算処理のみに特化した新しいハードウェアの出現」までもが予言されている。
今現在、世界各国が血眼になってGPUを確保し、囲い込んでいることを考えると、実に痛快な論文だ。 - 4 : 2024/02/29(木) 08:36:44.19 ID:PRp2fWw60
-
非常に驚異的なことが書いてあるのだが、残念ながらBitNetによるLLMの実装とモデルはまだ公開されていない。
だから彼らの主張が本当かどうかはまだ誰にもわからないのだが、BitNetTransformerの実装だけは公開されているため、腕に覚えがあるエンジニアなら自分でトレーニングコードを書いて確かめることができる。いずれにせよ、 この論文が本当だとしたら、とんでもないことが起きることになる。
この業界に居て長いが、本当にいつもいつも、こんなニュースに触れて興奮できるこの時代を生きる我々は幸運としか言えない。
もちろん筆者もBitNetを試してみるつもりだ。 - 5 : 2024/02/29(木) 08:36:54.21 ID:PRp2fWw60
-
(抜粋)
- 6 : 2024/02/29(木) 08:38:05.01 ID:+QXeJQmg0
-
ちょっと何言ってるか分からない
- 7 : 2024/02/29(木) 08:40:11.33 ID:24+aBEzS0
-
分かったから早く売れ
- 8 : 2024/02/29(木) 08:40:18.22 ID:MqqcpH+U0
-
わからんからガンダムで例えて
- 10 : 2024/02/29(木) 08:41:47.51 ID:9wxKAOcD0
-
>>8
スレッガーさんかい?早い、早いよ! - 15 : 2024/02/29(木) 08:46:59.48 ID:+KAFAX/Z0
-
>>8
エルメスのビット1つからなぜかコロニーレーザー並みのビームが出て連邦全滅 - 16 : 2024/02/29(木) 08:47:42.64 ID:UV+VMIZb0
-
>>8
ゆっくり僧正実現化の目処が立ったんじゃねぇの? - 30 : 2024/02/29(木) 08:59:40.43 ID:CyVXQWql0
-
>>8
アッザムリーダー回のガンダムコンピューター - 32 : 2024/02/29(木) 09:03:41.56 ID:uMLqZByV0
-
>>8
ガンダム1機で頑張るより
ジムを1,000機並べる方が強い - 34 : 2024/02/29(木) 09:04:45.70 ID:uMLqZByV0
-
>>32
あ、逆だ - 9 : 2024/02/29(木) 08:41:23.87 ID:H4OhH7Gz0
-
なんか悪口に聞こえる
- 11 : 2024/02/29(木) 08:43:45.49 ID:7qTEDirm0
-
長文は大方詐欺
- 12 : 2024/02/29(木) 08:45:10.61 ID:Ap9DOS+P0
-
でも爆発するんでしょ
- 13 : 2024/02/29(木) 08:46:05.33 ID:bX4ATEcq0
-
GPUとの関係は?
- 14 : 2024/02/29(木) 08:46:37.52 ID:CVb0xasj0
-
俺の頭脳は128bitだがね
- 17 : 2024/02/29(木) 08:47:58.63 ID:1fu0qmjZ0
-
やーいやーい1ビット脳
- 18 : 2024/02/29(木) 08:49:05.45 ID:NlVGsk5X0
-
このいちびりやろう
- 20 : 2024/02/29(木) 08:49:46.00 ID:0z3qgT1E0
-
何言ってるのか全然わかんねんだよカスぅ!!!(ꐦಠہಠ)
- 21 : 2024/02/29(木) 08:50:45.43 ID:8lKGlzKv0
-
もちろん試してみるつもりだって、試してから記事書けよw
- 22 : 2024/02/29(木) 08:52:15.44 ID:Jt/CO9gH0
-
スレタイだけ見て「ギャッハー中国ダッセー!!」となっちゃうのが世間一般にいわれる1ビット脳
ってことだな - 23 : 2024/02/29(木) 08:52:34.93 ID:PRAZtJCm0
-
乗算得意なGPUで無理矢理計算する vs デカイモデル格納して計算単純化
ファイッ!
うーん、デカイモデルと複雑な計算の併用になりそうな気がする - 24 : 2024/02/29(木) 08:53:23.94 ID:DaXlaEnT0
-
誰も真実はわからんということか
実用化したらまた教えてくれ - 25 : 2024/02/29(木) 08:53:39.39 ID:Jt/CO9gH0
-
加算だけで推論、って要はすごくポジティブシンキングってことでしょ?
なんかよさそうなきがする!!! - 26 : 2024/02/29(木) 08:57:08.08 ID:jH8g4U+z0
-
このMS中国の成果ってアメリカと中国どっちの利になるの?
- 36 : 2024/02/29(木) 09:04:50.65 ID:WIv+pynP0
-
>>26
当然偉大な習近平同志の功績に - 27 : 2024/02/29(木) 08:58:23.82 ID:Zuogb+5y0
-
ちい
- 28 : 2024/02/29(木) 08:58:26.25 ID:yQ3doh5f0
-
おい!その脳は、ここにも無数に存在しているぞ!!
どうだ怖いか!? - 29 : 2024/02/29(木) 08:59:30.82 ID:Czw9syAi0
-
1ビット脳って敵か味方かでしか判断できないおまいらのことじゃないのか
- 35 : 2024/02/29(木) 09:04:46.01 ID:lp1faQPT0
-
>>29
正義と悪しかいないと思ってる朝鮮人のこと - 31 : 2024/02/29(木) 09:01:56.27 ID:lp1faQPT0
-
1ビット脳ならパヨクが搭載済みじゃん
- 33 : 2024/02/29(木) 09:04:14.77 ID:1B/oIVt/0
-
ガンダムよりもJOJOで例えてよ
- 37 : 2024/02/29(木) 09:05:57.33 ID:DnFimByM0
-
>今現在、世界各国が血眼になってGPUを確保し、囲い込んでいることを考えると、実に痛快な論文だ。
MSとNVIDIAの喧嘩っすかね
どっちが勝つか知らんけど - 38 : 2024/02/29(木) 09:06:29.31 ID:rW9KTuZy0
-
良子コンピューターのことか
CPUが1ビットになるのかとおもた - 39 : 2024/02/29(木) 09:06:53.36 ID:FVM8Ad/r0
-
要は「自民党」か「その他」の2択で回答を導き出す手法が
「自民党」「民主党」「その他」「無回答」の4択で回答を導き出す現在主流の手法よりも効率が良く回答精度も高いと言う事だろ
そしてその回答が本当に正確で理論的な物なのかの検証が出来てないので評価が難しいと
コメント