LLM モデル
まとめ
FLAN
2023-03-04 Google の FLAN-20B with UL2 を動かしてChatGPT APIのように使ってみる!
デカ言語モデルが手元で動く。A100を使う必要がある。
日本語対応していないため、FuguMTで翻訳している。
Koala
2023-04-05 LLaMAをWeb対話データでチューニングしたKoala-13B
Alpacaとかとの差が良く分からん…
LLaMA系なので商用利用はできない
Vicuna
2023-04-18 VicunaがGPT-4のように画像を入力として処理できるように
MiniGPT-4とうたっており、Gradioを使ったデモも公開されている
2023-04-24 vicuna-13bは日本語でも結構性能いいらしい
一般のご家庭のGPUマシンでも動作する
2023-04-26 vicuna-13bで embedding vectorの計算 (& GPT・RWKVとの比較)|Kan Hatakeyama|note
埋め込みを別ライブラリで実施する記事としては参考となる
比較結果自体は、評価が主観であり、モデル規模もアンフェアな条件なので参考程度
2023-04-27 vicuna-13bのデータセットについて
CarperAI/vicuna-13b-fine-tuned-rlhfや報酬モデルで使われるデータセットが整理されている
Cerebras-GPT
2023-04-12 ColabでCerebras-GPTを試す
日本語はダメそう
Dolly 2.0
2023-04-14 Databricks社のプラットフォームで学習した12Bの言語モデルを使ってみた
dolly-v2-12bという名前でHugging Faceに公開。
日本語はNGっぽい。
RedPajama
2023-04-17 OSS版LLaMAみたいなRedPajamaプロジェクトが発表
LLaMAトレーニングデータセット再現
今のところデータセットのみの話っぽい
2023-05-06 RedPajama-INCITEの発表
LLaMAのレシピを可能な限り再現するモデルとインストラクトチューニング版とチャット版を公開
npakaさんの記事でも
2023-06-06 RedPajama-INCITEのInstructとChat版が公開
7Bモデルでは最高の性能を出したとのこと
GPT4All
2023-04-19 GPT4All-JがGPTであるLLaMaを除去しApacheとなった
オープン化は急速に進んでいる
StableLM
2023-04-20 Stability AIがLLMとなるStableLMを発表
AWSとの連携は期待が持てる。日本語対応が期待されるところ。
OpenAssistantはさっそくStableLMに対応
ファインチューニング済みモデルもいくつか公開されている
日本語も頑張ってくれるつもりみたい
2023-04-28 Stability.aiがStableVicunaを発表
Vicuna系ということはLLaMA系なので商用利用不可
RWKV
いままではOtherという形だったので、日本語に特化している点は期待できる
2023-04-23 次世代のRWKVモデルに使用する想定のマルチ言語トークナイザーが公開
日本語の例でも示されており今後に期待できる。
これが商用利用可能なOSSの頼みの綱やで。ホンマに。
2023-05-15 RWKVの紹介 - Transformerの長所を生かしたRNN
仕組みや強みなどが詳しく書いてある。Transformersライブラリとの統合も正式にサポート(
pip install rwkv
が不要)ネイティブで非常に長いコンテキスト長をサポートするなど
新しい多言語トークナイザーがリリースされ、今後は多言語対応を進める
2023-06-28 Google Colab で RWKV-4-World を試す - RWKVパッケージ版|npaka
「RWKV-4-World」は、「Pile」と「RedPajama」で学習した多言語用のベースモデル
多言語用の新トークナイザーが使われている
SpikeGPT
OpenLLaMA
MPT (Mosaic.ML)
6万5000トークン使用可能(GPT-4の2倍)
7Bと比較的小さいモデルながら、かなり高性能
日本語を扱える
npakaさんの記事でも
2023-05-06 MosaicMLのLLMホスティング推論が安価かもという話 (mah_labさん)
いま話題のMPT-7B-Instructの場合は$0.0005/1k tokens
OpenAIのgpt-3.5-turboは$0.002/1k tokensなので1/4になる
MPT-30B-chatというモデルもあるが商用利用できないためこちらは注意
HyperCLOVA (LINE)
2023-05-10 ソフトバンク、LINEと和製GPT立ち上げへ
LINEが開発してきた独自の大規模言語モデルHyperCLOVAがキーか。
OpenCALM (CyberAgent)
2023-05-11 サイバーエージェント、独自の日本語LLM(大規模言語モデル)を開発
すでに13Bまでの開発が完了しており、当社が提供する「極予測AI」「極予測TD」「極予測LP」などAIを活用した広告クリエイティブ制作領域のサービスにおいて活用を始めている
まあ言ってるだけなので確認するすべがないが、リソースは本気度が高いので、そうなのかもしれん。
NVIDIAと協業してたのか、知らんかった。
2023-05-17 CA-OpenCALM サイバーエージェント、日本語の大規模言語モデルを一般公開
CC BY-SA 4.0で商用利用も可能。サイズは7B。
モデルはOpenCALMというやつでなじみないがGPT-NeoXベースで独自の様子?Hugging Faceで公開されている
13Bパラメータまで開発が完了しているらしい。公開されるかな。
そのままではチャット用途では微妙か…?
株式会社レトリバ
2023-05-12 日本語T5モデルの公開|株式会社レトリバ
3Bパラメータ(xl)まで対応
cc-by-sa-4.0なので商用利用もOK。クレジット表示と改変した場合のライセンス継承が必要。
11Bとなるxxlも公開しそうな雰囲気がある
2023-05-18に再度公開された
Claude
2023-05-12 Anthropicのテキスト生成AI「Claude」が100kトークンに対応
平均的な人物は約5時間で10万トークン分の文章を読むことが可能だが、Claudeであれば1分以内にこれらの処理を行える
実際に小説全体をClaudeに読み込ませ、一文を書き換えたうえでClaudeに対して「元の文章と何が違いますか」と尋ねたところ、わずか22秒で正解が出せる
rinna
2023-05-17 rinnaさんも日本語に特化した36億パラメータのGPT言語モデルを公開
同じくGPT-NeoXベースで、MITライセンス
Gorilla
2023-05-26 ハルシネーションを大幅に減らす言語モデル「Gorilla」が公開
「API呼び出しの記述においてGPT-4の性能を上回るように調整された」なので何かに特化した話らしい
Falcon
2023-05-27 オープンLLMリーダーボードで上位を占めるLLM、Falcon-40B & 7Bをリリース
リリース当初は商用利用には報酬が必要であったが、Apache 2.0化された
LLaMAの代替なるかといったところ(LLaMAは7B~65B)
Aurora genAI (Intel)
Orca (Microsoft)
2023-06-13 Microsoft AIが「Orca」を発表、GPT-4から複雑な説明のトレースと段階的な思考プロセスを学習する130億パラメータのモデル
あれGPT-4に乗っかり学習している…?
phi-1 (Microsoft)
2023-06-22 Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6%をたたき出す「phi-1」を発表
プログラミング能力を評価するためのデータセットであるHumanEvalで50.6%、MBPPで55.5%と、高い精度
GPT-4の67%には及ばないが、パラメーター数が1750億のGPT-3.5を上回る
Ernie 3.5 (Baidu)
2023-06-28 Baiduが「GPT-3.5を上回る」AIモデル「Ernie 3.5」を発表 - GIGAZINE
中国の検索大手Baiduが、自社のAIモデル「Ernie」の最新版である「Ernie 3.5」を発表
Ernie 3.5はOpenAIのGPT-3.5を上回り、中国語能力ではGPT-4を上回ったと主張
NICT-40b
2023-07-04 日本語に特化した大規模言語モデル(生成AI)を試作|2023年|NICT-情報通信研究機構
現在は、更に大規模な1,790億パラメータにも取り組んでいる
非公開かぁ
NEC
Salesforce
2023-07-02 Google Colab で xGen を試す|npaka
「xGen」は、「Salesforce」が開発した、8Kの文脈をあつかえる7BのローカルLLM
長い文脈をあつかう対話、質問応答、要約が同サイズのモデルと比べ大きく改善されている
日本語も少しできますが、英語の方が精度が高い
Llama 2
2023-08-01 Llama 2 の日本語出力性能を評価してみた
日本語でチューニングされたLlama 2の情報がまとまっている
Last updated