2023-05-11 サイバーエージェント、独自の日本語LLM（大規模言語モデル）を開発
- すでに13Bまでの開発が完了しており、当社が提供する「極予測AI」「極予測TD」「極予測LP」などAIを活用した広告クリエイティブ制作領域のサービスにおいて活用を始めている
- まあ言ってるだけなので確認するすべがないが、リソースは本気度が高いので、そうなのかもしれん。
  - 80基の「NVIDIA H100 Tensor コア GPU」※2を活用したAI開発環境
- NVIDIAと協業してたのか、知らんかった。
2023-05-17 CA-OpenCALM サイバーエージェント、日本語の大規模言語モデルを一般公開
- CC BY-SA 4.0で商用利用も可能。サイズは7B。
- モデルはOpenCALMというやつでなじみないがGPT-NeoXベースで独自の様子？Hugging Faceで公開されている
- 13Bパラメータまで開発が完了しているらしい。公開されるかな。
- そのままではチャット用途では微妙か…？
  - オープンなLLMをDockerで動かす
- npakaさんが試している
  - Google Colab で OpenCALM-7B を試す｜npaka
  - Google Colab で OpenCALM-7B のLoRAファインチューニングを試す｜npaka

2023-05-18 OpenCALM-7Bをdolly-15k-jaでLoRAした例

2023-06-06 Google Colab + trlx で OpenCALM のRLHFファインチューニングを練習する｜npaka

株式会社レトリバ

2023-05-12 日本語T5モデルの公開｜株式会社レトリバ
- 3Bパラメータ(xl)まで対応
- cc-by-sa-4.0なので商用利用もOK。クレジット表示と改変した場合のライセンス継承が必要。
- 11Bとなるxxlも公開しそうな雰囲気がある
- 2023-05-18に再度公開された
  - https://twitter.com/jnishi/status/1659084719651160066

Claude

2023-05-12 Anthropicのテキスト生成AI「Claude」が100kトークンに対応
- 平均的な人物は約5時間で10万トークン分の文章を読むことが可能だが、Claudeであれば1分以内にこれらの処理を行える
- 実際に小説全体をClaudeに読み込ませ、一文を書き換えたうえでClaudeに対して「元の文章と何が違いますか」と尋ねたところ、わずか22秒で正解が出せる
2023-07-11 Claude2の発表

rinna

2023-05-17 rinnaさんも日本語に特化した36億パラメータのGPT言語モデルを公開
- 同じくGPT-NeoXベースで、MITライセンス
- npakaさんが試している
  - Google Colab で Rinna-3.6B を試す｜npaka
  - Google Colab で Rinna-3.6B のLoRAファインチューニングを試す｜npaka
2023-07-02 ローカルでも動く！？日本語に特化した強化学習済み対話GPT言語モデルを検証してみる - Qiita

Gorilla

2023-05-26 ハルシネーションを大幅に減らす言語モデル「Gorilla」が公開
- 「API呼び出しの記述においてGPT-4の性能を上回るように調整された」なので何かに特化した話らしい

Falcon

2023-05-27 オープンLLMリーダーボードで上位を占めるLLM、Falcon-40B & 7Bをリリース
- リリース当初は商用利用には報酬が必要であったが、Apache 2.0化された
- LLaMAの代替なるかといったところ（LLaMAは7B～65B）
- 関連
  - オープンソースで商用利用可能な大規模言語モデル「Falcon」が登場、オープンソースモデルの中では最高の性能に - GIGAZINE
  - The Falcon has landed in the Hugging Face ecosystem

Aurora genAI (Intel)

2023-05-30 Intel、1兆パラメータの科学向けAI「Aurora genAI」を発表

Orca (Microsoft)

2023-06-13 Microsoft AIが「Orca」を発表、GPT-4から複雑な説明のトレースと段階的な思考プロセスを学習する130億パラメータのモデル
- あれGPT-4に乗っかり学習している…？

phi-1 (Microsoft)

2023-06-22 Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6％をたたき出す「phi-1」を発表
- プログラミング能力を評価するためのデータセットであるHumanEvalで50.6％、MBPPで55.5％と、高い精度
- GPT-4の67％には及ばないが、パラメーター数が1750億のGPT-3.5を上回る

Ernie 3.5 (Baidu)

2023-06-28 Baiduが「GPT-3.5を上回る」AIモデル「Ernie 3.5」を発表 - GIGAZINE
- 中国の検索大手Baiduが、自社のAIモデル「Ernie」の最新版である「Ernie 3.5」を発表
- Ernie 3.5はOpenAIのGPT-3.5を上回り、中国語能力ではGPT-4を上回ったと主張

NICT-40b

2023-07-04 日本語に特化した大規模言語モデル（生成AI）を試作｜2023年｜NICT-情報通信研究機構
- 現在は、更に大規模な1,790億パラメータにも取り組んでいる
- 非公開かぁ

NEC

2023-07-06 NECが国産LLM 日本語“トップクラス” - Impress Watch
- 非公開

Salesforce

2023-06-29 xGenの理論的な話
2023-07-02 Google Colab で xGen を試す｜npaka
- 「xGen」は、「Salesforce」が開発した、8Kの文脈をあつかえる7BのローカルLLM
- 長い文脈をあつかう対話、質問応答、要約が同サイズのモデルと比べ大きく改善されている
- 日本語も少しできますが、英語の方が精度が高い

Llama 2

2023-07-19 商用可能な Llama-2 がリリース
2023-07-19 ggml版が早速でている
2023-07-19 llama2のセットアップメモ (ダウンロードと推論)｜Kan Hatakeyama
2023-07-19 Llama.cpp で Llama 2 を試す｜npaka
2023-08-01 Llama 2 の日本語出力性能を評価してみた
- 日本語でチューニングされたLlama 2の情報がまとまっている

PreviousLLM 開発 NextLLM OpenAI社動向

Last updated 2 years ago

hashtagまとめ

hashtagFLAN

hashtagKoala

hashtagVicuna

hashtagCerebras-GPT

hashtagDolly 2.0

hashtagRedPajama

hashtagGPT4All

hashtagStableLM

hashtagRWKV

hashtagSpikeGPT

hashtagOpenLLaMA

hashtagMPT (Mosaic.ML)

hashtagHyperCLOVA (LINE)

hashtagOpenCALM (CyberAgent)

hashtag2023-05-18 OpenCALM-7Bをdolly-15k-jaでLoRAした例arrow-up-right

hashtag2023-06-06 Google Colab + trlx で OpenCALM のRLHFファインチューニングを練習する｜npakaarrow-up-right

hashtag株式会社レトリバ

hashtagClaude

hashtagrinna

hashtagGorilla

hashtagFalcon

hashtagAurora genAI (Intel)

hashtagOrca (Microsoft)

hashtagphi-1 (Microsoft)

hashtagErnie 3.5 (Baidu)

hashtagNICT-40b

hashtagNEC

hashtagSalesforce

hashtagLlama 2

まとめ

FLAN

Koala

Vicuna

Cerebras-GPT

Dolly 2.0

RedPajama

GPT4All

StableLM

RWKV

SpikeGPT

OpenLLaMA

MPT (Mosaic.ML)

HyperCLOVA (LINE)

OpenCALM (CyberAgent)

2023-05-18 OpenCALM-7Bをdolly-15k-jaでLoRAした例

2023-06-06 Google Colab + trlx で OpenCALM のRLHFファインチューニングを練習する｜npaka

株式会社レトリバ

Claude

rinna

Gorilla

Falcon

Aurora genAI (Intel)

Orca (Microsoft)

phi-1 (Microsoft)

Ernie 3.5 (Baidu)

NICT-40b

NEC

Salesforce

Llama 2