LLM データセット

  • 商用利用も可能なAlpacaのデータセット

  • これを元にしたLLMが今後活発になるのでは

  • 自動翻訳なので元言語がマイナーな言語は除外することを推奨されている

  • hh-rlhf-49k-ja

    • Anthropicのデータセット hh-rlhfのうち、Mosaic MLのMPT-7B-Instructの学習に使われているものを抜粋して翻訳したもの。

    • 日本語DollyデータとマージすればMPT-7Bの学習データセットに

  • cnn_dailymail_27k_ja

    • CNNとDailymailが公開しているニュース要約コーパスで30万レコードのうちの一部を抜粋して翻訳

  • 6つの軸に沿った評価済み要約96k個のデータセットで、「要約システム」や「要約そのもの」を評価する技術に貢献する

  • 要約を評価する軸は以下の6つ。

    • 理解がしやすい、繰り返しになっていない、文法が正しい、正確、重要なポイントを抽出している、簡潔である

  • 日本語訳して流用すると良いかも

  • RedPajama-1Tのオープンソース、クリーニング、重複排除バージョンが公開

Last updated