Stability.ai/REUTERS/Dado Ruvic/Illustration/File Photo
2022年に画像生成AIで一大ムーブメントを巻き起こしたStableDiffusion(ステーブル・ディフュージョン)が4月19日、再びAIの世界を興奮の渦に巻き込んだ。
2022年末から爆発的に話題になり、岸田首相までが言及し、先進国首脳会議G7広島サミットの議題にも上がるという、OpenAIの「ChatGPT」に対抗する、完全にオープンでフリーな大規模言語モデル(LLM)「StableLM」を発表したからだ。
StableLMの登場は、LLM(大規模言語モデル)をめぐるこの半年の激変のなかで、象徴的な出来事だ。
勢力争いは、OpenAIとグーグル、メタ(Facebook)など「巨大ITの対立軸」で語られがちだが、今、LLMの世界で起きている勢力争いはそこではない。
「StableLM」とは何か? 「オープンソース、自由」という破壊力
StableLMは、現在のところ3B(30億パラメータ)と7B(70億パラメータ)モデルのみが公開されているため、その実力は未知数だ。パラメータというのは、ごく簡単に言えばLLMが学習しているデータの大きさだ。
GPT3が175B(1750億パラメータ)なので、それに比べるとかなり小さいように思えるが、大規模言語モデルはパラメータが多ければいいというものではない。
実際、メタ(旧Facebook)の研究チームが公開した「LLaMA(ラマ)」は、13B(130億パラメータ)でありながら、いくつかのベンチマークでGPT3を上回った。また、スタンフォード大学の研究チームがGPT3によって生成した会話データを使ってLLaMAを微調整(ファインチューニング)した「Alpaca(アルパカ)」は、会話の確からしさについてはGPT3に匹敵するか、上回るとも言われている。
さらに、ShareGPTと言われる、GPTとの会話をオープンデータ化するプロジェクトによって得られたデータセットを元にAlpacaを再度微調整した「Vicuna(ビクーニャ)」は、Alpacaをも上回るとも。
2022年、MidjourneyとDALL-E2という、2つの非公開の「画像生成AI」が話題になった。
そこに、いきなりオープンソースでフリー(自由)という看板を掲げてStableDiffusionをぶつけてきたのが、今回のStability.aiだった。StableLMの登場によって、Stability.aiが起こしたAIの真の「民主化」は、第二段階に入ったと言える。
StableLMは今後15B(150億パラメータ)、そして65B(650億パラメータ)のモデルも公開予定としており、LLaMAやAlpacaに匹敵する自由な大規模言語モデルの登場に世界中のAI開発者たちが熱狂している。なお、現時点で日本語には公式対応していない。
急速に民主化する大規模言語モデル
実は大規模言語モデルについては、これまでStableLMが登場する以前にも、Databricks社による「Dolly-v2」や、BigScienceによる「Bloom」、Transformerモデル※ではないため高速かつVRAMが少量でも動作する「RWKV」(ルワクフと読むらしい)、RWKVをAlpacaデータセットで微調整した「Raven」といったフリーのものが多く存在していた。中国もいくつかフリーで、しばしばGPTを上回ると評価される大規模言語モデルを発表している。
Transformerは深層学習のモデルの1つ。並列化処理できることが特徴で、非常に巨大なデータセットの学習に向いている。
筆者作成
しかしそれでもStability.aiの影響力は圧倒的で、多くの大規模言語モデルファンからは、「ついに真打登場」という喝采が送られている。
マイクロソフトは巨額出資をしたOpenAIの価値を高くするためなのか、ことあるごとに「大規模言語モデルには数百億円規模の投資が必要」とアピールしている。が、Stability.aiは非営利の国際AI研究組織であるEleutherAIと強力することで、そこまでの投資がいらないことを再び証明してみせた。
StableLMが登場したことで、やはり大規模言語モデル業界にゲームチェンジが起きることは間違いないだろう。
2022年8月にStableDiffusionが公開されて以後は、瞬く間に世界中のAI好きのホビイストが彼らの言語モデルを改善したり、カスタマイズしたりするための手法が研究され、公開され、共有され、GUIが作られ、Webサービス化されていった。
大規模言語モデルにも、画像生成AIの時に有効と思われた改良手法が使えることはだいたいわかっており、ファインチューニングやLoRA(少ないデータ量で微調整を適用する手法)が使えている。
大規模言語モデル活用の鍵は「独自データセット」の開発
まさに時代の寵児となったOpenAIのサム・アルトマンCEO。
REUTERS/Lucy Nicholson/File Photo
なぜこれほど急速に大規模言語モデルがあちこちから発表されているのか?
実は「大規模言語モデルの内部構造自体には特筆すべき要素がない」からだ。
基本的にGPT3の(おそらくはGPT4も)内部構造そのものはGPT2をただ大規模化しただけだ。GPT2のソースコードは公開されているし、そもそものキーテクノロジーである「自己注意」を使ったTransformerというアルゴリズムは、グーグルが2017年に論文として発表したものが元になっている。
つまり、例えばGPT3のように1750億パラメータという、恐ろしく巨大な規模では確かにマイクロソフトが主張するように数百億円規模の設備が必要だが、LLaMAが13B(130億パラメータ)でもGPT3に匹敵する性能が出せているところを見ると、大規模化はそこまで必要ではないらしいことがわかる。
これはコロンブスの卵だった。つまり、「1750億はとても無理だが、650億なら数千万から数億円規模の投資でなんとかなる」と考えて、各社が参入してきた……ということだ。
架空の生物、ユニコーン。
Business Insider Japan作成
また、StableDiffusionの時もそうだったが、大規模なAIを少しずつ規模が小さいAIに性能を落とさずに「蒸留(ディスティレーションという手法)」していったり、精度を少し落として計算速度を上げたり小規模化したりする「量子化」という手法と組み合わせることで、一気に民主化が加速している。
ここでいう「民主化」とは、「巨大で高価、かつ非公開のクラウドの計算資源を使わなくとも、数十万円〜数百万円レベルのパソコンで動作できる」ことを指している。
ただ、RWKV以外は、内部構造がすべて同じ原理に基づいている以上、同規模で同じようなデータを学習すると、AIの性能はそれほど差別化できるわけではない。
そこで、各社がしのぎを削っているのが、「独自のデータセット」だ。基本的にオープンソース陣営のモデルは全てPileという巨大な文書データセットを使っている。
逆に言えば、Pileを使っている限り性能差はそこまで出ないということになる。
今回、StableLMの学習には、PileをベースとしながらもPileの3倍のデータ量を用いているという。
ちなみに、GPT3、GPT4はともにデータセットは非公開だ。
ここからは筆者の予想だが、Kindle化されている電子書籍は世界中のものをほぼ読んでいるのではないかと考えている。というのも、Pileはネットに公開されているデータだけを学習しているが、GPT3、GPT4は、本来は知らないはずの日本の作家の文体の細かなところも再現を試みるケースが散見されるからだ。
マルチモーダル学習※したことを売りにしているGPT4はおそらく、ただ「画像を見た」のではなく、世界中のあらゆる映画やテレビ番組、配信で見られるものは全て学習に使っている可能性がある。
※マルチモーダル学習とは:テキストのほか、画像や動画など複数の要素(マルチモーダル)で学習させることを指す。
「公開データ」だけでは答えられないことをGPT4はなぜ回答できるのか
マックス・ヘッドルームのDVDなどの売り切りパッケージ。
Amazonをキャプチャ
例えば、1980年代のドラマ『マックス・ヘッドルーム』について聞くと、登場人物の詳細まで説明してくる。
シオラ・ジョーンズは重要な人物です。女優のアマンダ ペイズが演じるシオラは、ネットワーク 23 で働く熟練したコンピューター オペレーター兼ハッカーです。彼女は、調査報道記者のエジソン カーター (マット フリューワー) を支援し、ディストピアのネットワーク テレビの世界におけるさまざまな悪質な活動や腐敗を明らかにします。
シオラ・ジョーンズは、エジソン・カーターの主要な連絡先であり味方であり、ハッキングのスキルと専門知識を使用して、メディア操作、企業の陰謀、監視の危険な世界をナビゲートするのに役立ちます. Edison と Max Headroom と共に、Theora は抑圧的なメディア環境と戦い、シリーズの強力なテレビ ネットワークの背後にある真実を明らかにする上で重要な役割を果たします。
(GPT4の出力をGoogle翻訳で和訳)
これはネット上の情報から断定するには、やや難しいタスクに思える。
もちろんマックス・ヘッドルームはファンの多い作品ではあるが、英語版Wikipediaであっても、「シオラがハッカーである」という直接的な言及はない。
実際、Google検索を「Theora Jones Hacking」で検索しても、シオラが直接ハッキングしている描写はない。ほぼ唯一あるのが、ブライス・リンチとのハッキング対決をしたという描写だ。一方、GPT4の説明はシオラの主な業務をハッキングと認識しており、それは視聴者としての感想とも符合する。ただ、シオラは常に仕事中は「コントロール(管制)」と呼ばれており、彼女がハッキングしていることはセリフだけではわからない。
つまり、筆者からするとGPT4は『マックス・ヘッドルーム』というTVシリーズを「見た」としか思えないのだが、もちろんこれだけではなんとも言えない。
けれども、古い映画やテレビドラマの内容について、GPT4は詳しすぎるというほどに詳しい。
ちなみに比較のため、GPT3.5に同じ質問をぶつけてみるとこうなった。
Theora Jones は、SF テレビ シリーズ「Max Headroom」の架空の人物です。彼女は女優のアマンダ・ペイズによって描かれました。
このシリーズでは、Theora は、Max Headroom がトークショーのホストとして働いているネットワークのテレビ ジャーナリスト兼プロデューサーです。彼女はマックスのプロデューサーであり親友であり、さまざまな陰謀や隠蔽の背後にある真実を明らかにしようとする彼の努力をしばしば助けます.
テオラは、ジャーナリストとしての仕事に専念する、知的で機知に富み、独立した女性として描かれています。彼女はまた、マックスの忠実な友人であり同盟者であることが示されており、彼の調査を支援するためにしばしば自分自身を危険にさらしています.
シリーズ全体を通して、テオラは、危険な企業の陰謀を暴こうとする彼の努力や、人々に解き放たれた致命的なウイルスの背後にある真実を明らかにしようとする試みなど、マックスの冒険の多くに関与しています.
全体として、Theora Jones は Max Headroom の世界で重要な役割を果たす複雑でダイナミックなキャラクターです。彼女は強く有能な女性であり、自分の信念のために立ち上がることを恐れず、世界を脅かす腐敗した抑圧的な勢力と戦うマックスのチームの重要な一員です.
(GPT3.5の出力をGoogle翻訳で和訳)
Pileのようにインターネットから学習しただけなら、この解釈になってもおかしくない。
GPT3.5とGPT4の違いが、実はほとんど、学習したデータの質と量によるものではないか……という仮説を筆者は立てている。
また、GPT4の遅さを考えると、内部的には強化学習の「推論」も処理しているように見える。その意味ではGPT3.5とGPT4は動作方式が違うだけでニューラルネットの規模や構造そのものに大きな違いはないのかもしれない。
AI研究者から見る「GPT4の秘密」
もう少し踏み込んだ想像をしてみよう。
GPT4はパラメータ数もデータセットも「非公開」としている。これはいくらなんでも怪しすぎる。
逆に言えば、それほどまでにデータセットは重要なのだ。
GPT3、そしてGPT4を開発したOpenAIのサム・アルトマンが「ニューラルネットの規模の大きさを追うのはもう終わりだ」という趣旨の発言をしているのは、行間を読めば要するにそういうことだと解釈するほかない。
インターネット上にあるテキストだけを読んでいるなら、検索と同じなので(学習手法として)グレーゾーンと言えなくもない。が、テレビや映画、本や小説を読んでいるとなれば批判したくなる人たちも出てくるだろう。真相は、外部からはうかがい知れない。
Databricks社もDolly-v2を開発するために5000人の社員たちによって1万5000回の会話データセットを作ったり、やはりStability.aiと関係の深い非営利の国際的AI研究組織LAIONも、OpenAssistantという14万回でしかも多言語の会話データセットを公開した。
もはや競争は、「いかに自分たちにとって必要な大規模言語モデルを作り、使いこなすか、そのためにはどんなデータセットを自分たちが持っているか」ということに移りつつある。
筆者の目には、グーグルやマイクロソフトが描いたような、「全ての知識が一つのサービスに集約される」という一神教的な世界ではなく、むしろ「いろんな組織がいろんな独自の大規模言語モデルを持つ」という八百万(やおよろず)の神の世界が出現しようとしているように見える。
これは検索広告に収入を頼っている会社にとっては悪夢だが、そんな会社は世界に一つくらいしかなく、ほとんどの人は困らない。
ChatGPTで頭をいっぱいにしてる暇はないのだ。もう戦いは次の次元へ移っている。