LLM データセット
商用利用も可能なAlpacaのデータセット
これを元にしたLLMが今後活発になるのでは
みんなで作るInstructGPTという位置づけ
リリースにはモデル、データセット、チャットインターフェイスが含まれている
データセットOASST1をApache 2.0で公開している
自動翻訳なので元言語がマイナーな言語は除外することを推奨されている
hh-rlhf-49k-ja
Anthropicのデータセット hh-rlhfのうち、Mosaic MLのMPT-7B-Instructの学習に使われているものを抜粋して翻訳したもの。
日本語DollyデータとマージすればMPT-7Bの学習データセットに
cnn_dailymail_27k_ja
CNNとDailymailが公開しているニュース要約コーパスで30万レコードのうちの一部を抜粋して翻訳
6つの軸に沿った評価済み要約96k個のデータセットで、「要約システム」や「要約そのもの」を評価する技術に貢献する
要約を評価する軸は以下の6つ。
理解がしやすい、繰り返しになっていない、文法が正しい、正確、重要なポイントを抽出している、簡潔である
日本語訳して流用すると良いかも
RedPajama-1Tのオープンソース、クリーニング、重複排除バージョンが公開
Last updated