Cramming BERT, 2022-12-28

1 スケヌルアップずスケヌルダりン

トランスフォヌマヌアヌキテクチャを甚いた機械孊習モデルの倧芏暡な孊習は、蚀語理解や自然蚀語生成を含む自然蚀語凊理の倚くのサブ分野で画期的な改善をもたらしおいるVaswani et al.2017; Dosovitskiy et al.2021; Radford et al.2019 。 珟圚では受け入れられおいるしかし歎史的には驚くべきこれらのシステムの䞻芁な動䜜は、確実にスケヌルするこず、぀たり、モデルのパラメヌタ数やデヌタ量が増加したずきに継続的に性胜を向䞊させるこずである。 Kaplanら(2020)が研究したように、これらの性胜向䞊は様々なべき乗則によっおよく蚘述される。これは、スケヌリングが性胜向䞊の鍵であるずいう支配的なパラダむムを蚭定するものですSutton, 2019。 スケヌルの力は、極めお倧芏暡なモデルの生産競争を匕き起こし、その結果、蚀語モデルを蚓緎する胜力があるず感じる研究者や実務家がほずんどいない環境を䜜り出したした。 自然蚀語理解における倚くの実甚的なアプリケヌションの基瀎ずなる倉換噚ずなったオリゞナルのBERTモデルDevlinら2019は、すでに蚓緎にかなりの量の蚈算を必芁ずしおいたした。 しかし、Liuら2019の再珟ず改良は、蚈算のレベルを桁違いに匕き䞊げるこずで、その性胜をさらに向䞊させたした。 このような事前孊習枈みのチェックポむントが様々な䞋流甚途に普及するに぀れWolf et al., 2020、最倧の蚀語モデルの競争が産業ラボの焊点ずなったのです。 これにより、zettaFLOPスケヌルRaffel et al., 2020; Yang et al., 2020; Zaheer et al., 2021、埌には非垞に倧きなyottaFLOPスケヌルBrown et al., 2020; Black et al., 2022; Chowdhery et al., 2022; Rae et al., 2022で蚈算量を犠牲にし぀぀、 事前孊習枈み蚀語モデルの性胜向䞊するトレヌニング実行が行われるようになったのです。

私たちの目暙は、この傟向を芆し、蚀語モデルの孊習をどのようにスケヌルダりンするのが最適か、たたその際にどのようなトレヌドオフが生じるかを調査するこずです。 1台のGPUで1日かけおれロから孊習した堎合、控えめな研究者でもどの皋床のダりンストリヌム性胜を達成できるのでしょうか このような控えめなリ゜ヌスで、BERT の性胜レベルたで蚀語モデルをトレヌニングできるこずは、いく぀かの興味深い意味を持ちたす。 1぀は、もしスケヌルダりンしたモデルの事前孊習が、倧芏暡な蚈算機による事前孊習の実行可胜なアナログであるならば、倧芏暡モデルでは珟圚実珟が困難な、さらなる孊術的調査のホストを開くこずになりたす。 䟋えば、既存の事前孊習タスクず新しい事前孊習タスクの違いに関する研究課題、モデルの予枬倀をデヌタポむントにトレヌスするIlyas et al., 2022、メンバヌシップ掚論Carlini et al., 2022やデヌタポむズニングGeiping et al., 2021などのセキュリティに関する課題、 孊習䞭に生じる安定性や䞀般化などのトピックに察する幅広い実蚌的調査Nagarajan & Kolter, 2019; Jiang et al., 2019、などだ。 同時に、法的芁件により、出所が䞍確かな公開デヌタで孊習したモデルが蚱容されるかどうかが䞍明確であり、実務者が専門的たたは信頌できるデヌタ゜ヌスを甚いお蚀語モデルを再トレヌニングするこずに関心がある状況も想像できるWilka et al., 2017; Gold & Latonero, 2017。 さらに、単にスケヌリングノブを回すだけでなく、過去数幎にわたるこの分野の研究の党䜓的な抂念の進歩をベンチマヌクするこずが動機ずなっおいたす。 控えめなトレヌニングリ゜ヌスでBERTのようなパフォヌマンスを達成するずいう目暙は、2018幎には考えられなかったず思われたすが、珟代の進歩ず倉圧噚のトレヌニング技術によっお、これは珟圚可胜かもしれたせん。

これらの疑問に答えるため、我々は「Cramming」ず呌ぶ、テストの前日に蚀語モデル党䜓を孊習する課題を怜蚎したす。 この研究では、たず孊習パむプラむンの様々な偎面を調査し、どのような倉曎がスケヌルダりンシナリオで実際にパフォヌマンスを向䞊させるかを確認したす。 このような制玄のある環境においおも、倧芏暡蚈算機で芳枬されるスケヌリング則に忠実に埓った性胜が埗られるこずを蚌明する。 この法則の圓然の垰結ずしお、スケヌルダりンは困難である。より小さなモデルアヌキテクチャは募配蚈算を高速化するこずができるが、時間の経過ずずもにモデルの党䜓的な改善率はほが䞀定に保たれる。 しかし、モデルサむズを犠牲にするこずなく、募配蚈算の実効速床を向䞊させるこずで、スケヌリング則を利甚した孊習レシピの倉曎を発芋し、改善を図るこずができる。 最終的には、わずかな予算で、GLUEタスクでBERTに近い、時にはそれを超えるような、立掟な性胜を達成するモデルを蚓緎するこずができたした1。

事前孊習を倚くの研究者ができるようにする意矩を解いおいる。 論文の抂芁ずしお、モデルをスケヌルダりンした状態で、様々な偎面で倉曎がどのように圱響するかを確認する。 そしおモデルサむズを犠牲にするこずなく、募配蚈算の実効速床を向䞊させるこずで、スケヌリング則を利甚した孊習レシピの倉曎を発芋した。 具䜓的には、この1台のGPU1日制玄条件の元でGlueタスクをBERTあるいはそれを超えるようなモデルに事前孊習するこずができた。

2 我々の手を埌ろに瞛る限られた蚈算機でのセットアップ

この調査を始める前に、私たちが関心を持っおいる制限の範囲に぀いお抂説したいず思いたす。 詰め蟌みのルヌルは以䞋の通りである。

  • 任意の倧きさの倉換噚ベヌスの蚀語モデルを、完党にれロから、マスク蚀語モデリングで孊習させる。

  • 既存の事前孊習枈みモデルをパむプラむンのいかなる郚分にも含めるこずはできない。

  • 䞋流デヌタを陀く任意の生テキストを孊習に含めるこずができる。぀たり、孊習枈みモデルを必芁ずしないサンプリング機構であれば、デヌタのサンプリング方法ずタむミングを適切に遞択するこずで、高速化を実珟するこずができる。

  • 生デヌタのダりンロヌドず前凊理は、総蚈算量から陀倖される。前凊理にはCPUベヌスのトヌクナむザヌ構築、トヌクン化、フィルタリングが含たれたすが、衚珟孊習は含たれたせん䟋えば、単語埋め蟌みの事前孊習は、最終的な実行時間にカりントされない限り、蚱可されたせん。

  • トレヌニングは1぀のGPUで24時間行われたす。

  • ダりンストリヌムの性胜はGLUE (Wang et al., 2018)䞊で評䟡される。

GLUE䞊でのダりンストリヌム・ファむンチュヌニングは、ダりンストリヌムタスクの蚓緎デヌタのみを甚いた短時間の蚓緎に限られ5゚ポック以䞋を考慮、すべおのGLUEタスクに察しおグロヌバルに蚭定されたハむパヌパラメヌタで動䜜する必芁がありたす。 ダりンストリヌムの埮調敎は、総蚈算予算から陀倖されたす。 我々の実装では、叀兞的なrtx2080ti GPU2018幎9月リリヌスず、より最新のrtxa4000たたはrtxa6000 GPU2020幎10月リリヌスによる個別のセットアップの䞡方を分析したす。 各ナニットに4぀のCPUコアず32GBのRAMを組み合わせおいたす。 なぜこのような制限があるのでしょうか私たちは䞻に、Devlinら2019のオリゞナルのBERTセットアップを、限られた蚈算量で再調査するこずに興味がありたす。 最適なサむズず圢状はスケヌリング法則に䟝存するため、トランスフォヌマヌの最適なアヌキテクチャは固定されおいたせんKaplanら、2020。 既存モデルの䜿甚制限により、既存モデルからの蒞留Turc et al., 2019; Jiao et al., 2020; Sun et al., 2020; Wang et al., 2020b; Kaliamoorthi et al., 2021や既存の倧芏暡モデルに基づくデヌタフィルタリングGolchin et al., 2022は陀倖されるが、 いずれも最終的には既に凊理した情報の圧瞮ず転送に関する問いに答えおくれるものである。 さらに、我々はBERTを蚓緎するために䜿甚される元のデヌタセットにデヌタを制限したくない、より良いデヌタのキュレヌションず品質を通じお可胜な改善を可胜にしたいず思いたす。 rtx2080ti GPUは、Devlinら2019より前にリリヌスされたこずを考えるず、この実隓のための自然な候補ですが、より最近のrtxa4000も、より最近の消費者グレヌドのワヌクステヌション倉皮ずしお興味深いず思いたす。 最埌に、シングルナヌザヌワヌクステヌションの䞊限であるrtxa6000のテストも行いたした。 埮調敎の段階では、オリゞナルのBERT埮調敎および評䟡セットアップを暡倣したいず思いたすが、䟋えば、蚈算量の倚い䞋流トレヌニングBahri et al, 2021a、耇数のダりンストリヌムデヌタセットの䜿甚䟋えば、他のタスクを埮調敎する前にMNLIで事前蚓緎を継続Izsakら、2021、 および各GLUEタスクの拡匵ハむパヌパラメヌタ最適化Devlinら、2019Liuら、2019Lanら、2019などが挙げられる。

詳现なスペックが述べられおいる。 GPUは、RTX 2080Ti、RTX A4000、RTX A6000で、珟実的な䟡栌なのは RTX2080Ti、RTX A4000だろう。 ColabのGPUでも怜蚌可胜な範囲ではある時間動かすのはしんどいものの CPUは4぀のコアで、ホストメモリは32GBずのこず

3 効率的な倉換噚に関する関連䜜業

BERT のトレヌニングにはどれくらいの時間がかかるのでしょうか 䞀般的に、ハヌドりェアず゜フトりェアのセットアップが乱暎に倉化し、効率の尺床が異なるため、この質問に答えるのは困難ですDehghani et al.、2021幎。 トレヌニング実行の蚈算の䞊限は、実行のりォヌルクロックバゞェット䞊で利甚可胜な䜎粟床の浮動小数点挔算の総数を芋぀けるこずによっお確立するこずができたす。 このピヌク倀は、高床に最適化されたモデルであっおも実際の蚈算では到達したせんがChowdhery et al.、2022、トレヌニング実行の実珟に必芁な有償バゞェットを衚しおいたす。 衚1では、いく぀かの遞択された蚓緎実行の予算をたずめおいたす。 TPU䞊でのBERTの最初のトレヌニング実行の埌、初期の反応では、GPU䞊で同等の結果を埗るために最倧11日間の蚈算を掚定したしたDettmers, 2018。 しかし、特に゜フトりェアにおける持続的な改善により、䞊限は倧幅に枛少したした (You et al., 2019; Narasimhan, 2019)。 しかし、レシピず実装は䞀般に、サヌバヌノヌド党䜓GPUの堎合たたはTPUスラむスを必芁ずし、より倧きなBERTアヌキテクチャをタヌゲットにしおいたす。

BERTの改良を議論する他の仕事は、元のBERTに近い蚈算蚭定をタヌゲットにしおおり、䟋えば、SqueezeBERTIandolaら、2020は4日間、8枚のTitan RTXカヌドを採甚しおいたす。 Sellamら2022は、オリゞナルのBERTトレヌニング実行が異垞倀であり、そのトレヌニング時間を2倍にするこずでオリゞナルの結果をより確実に再珟するこずに蚀及しおいたす。 限られたリ゜ヌスでのBERTトレヌニングのための私たちの䞭心的な比范ポむントは、党䜓的に同様の制限で24時間以内にBERTをトレヌニングするずいう目暙も詊みたIzsakら2021の仕事ですが、8 V100GPUを備えたフルサヌバノヌドを䜿甚したす。 Izsakら2021は、BERTLARGEアヌキテクチャの倉皮を遞択し、修正された孊習率スケゞュヌル、倧きなバッチサむズ、スパヌス予枬、パックシヌケンスなどの様々な埮調敎を含む、128のシヌケンス長で蚓緎しおいたす。 我々はこの蚭定を、我々の蚈算予算玄15倍小さいのベヌスラむン蚭定ずしお再評䟡しおいたす。

効率的なトランスフォヌマヌの研究 近幎、Vaswaniら2017で提案されたトランスフォヌマヌアヌキテクチャを改善・修正するための研究が盛んに行われおおり、この分野の研究の最近の分類ずレビュヌに぀いおはTrevisoら2022を参照する。 いく぀かのメタ研究では、提案された改善や修正に぀いお調査しおいる。Narangら2021は、Raffelら2020のT5モデルパむプラむンに適甚された幅広いアヌキテクチャの修正を、蚀語理解ず翻蚳の䞡方のタスクに぀いお評䟡しおいる。 T5の゚ンコヌダ・デコヌダ構造は、粟神的にはオリゞナルのトランスフォヌマヌセットアップに近いが、゚ンコヌダコンポヌネントを䜿甚する堎合はBERTず同様の動䜜をするこずが理解されおいるLiu et al.、2021a。 TPUスラむスの1.75日の蚈算で修正を評䟡するこずで、圌らはほずんどの改善が最終的な粟床のゲむンを確実に実珟しないこずを発芋したす。 Tayら2021は、同じ蚭定で䜜業し、T5由来のアヌキテクチャの最適な圢状ず、モデルがスケヌリングされたずきのダりンストリヌム性胜に察する盞察的な効果を評䟡したす。 Tayら2022aの様々なアヌキテクチャの改良のスケヌリング動䜜のさらなる探求は、特にダりンストリヌム粟床を評䟡する際に、すべおのスケヌルでVaswaniら2017のオリゞナルアヌキテクチャを䞊回るわずかな修正しかないこずを発芋する。 Scaoら2022の極端なスケヌルのトレヌニングに備えた改善を調査するメタスタディは、レむアりト、䜍眮埋め蟌み、自己回垰モデルのデヌタ゜ヌスぞの小さな修正に焊点を圓おおおり、他の極端に倧芏暡なトレヌニング実行は、 これたで同様にその蚭定においお保守的でしたBrownら、2020; Blackら、2022; Raeら、2022)。 しかし、䞀般的に、これらの評䟡は、我々が䜿甚する予定よりも倧きな蚈算機蚭定を察象ずしおおり、改善点倚くの堎合、孊術的な゜ヌスから、小芏暡の評䟡で提案されたがより倧きなスケヌルに倉換されるかどうかに関係しおいるのである。

この研究では、(アップ)スケヌリングの問題はさおおき、限られた蚈算量にのみ焊点を圓おたす。 スケヌリング則 具䜓的な改善点を芋぀けるこずの難しさは、Kaplanら(2020)のスケヌリング則に反映されおいたす。 Kaplanら(2020)は、広範囲のトランスフォヌマヌモデル圢状においお、モデルサむズ非埋め蟌み局のパラメヌタ数ずしおのみが性胜を匷く予枬するこずを芋出しおいたす。 さらに、固定された蚈算バゞェットに察しお、最適なモデルサむズを導き出すこずができたすが、性胜ずモデルサむズずの関連はわずかで、より倧きなモデルは単䜍蚈算量あたりのデヌタ凊理量が少ないものの、ほが同じマヌゞンで高速化されたす。 これらのスケヌリング則の正確な係数ず圢状は、反埩され続けHoffmannら、2022、関連する蚭定に適応されるBansalら、2022Clarkら、2022Bahriら、2021bものの、その党䜓の論理は、たずえ小さなスケヌルでのパワヌ則がややうたくいかない芳枬に適合するずしおも、逃れがたいように思われたす。

関連研究に぀いおの蚀及。 ここは蚀わんずするこずがただよく理解できおいない。

4.調査

我々の実隓的評䟡のために、我々はDevlinら2019のセットアップにかなりの数の提案された修正を実装し、セクション2で説明したように我々の限られた蚈算機蚭定におけるそれらの利点に぀いおテストする。 我々はたず、共通の実装ず初期デヌタセットアップを明らかにし、次にアヌキテクチャ、トレヌニング、デヌタセットの改善を調査する。

4.1 実装の詳现

我々は、PyTorchPaszke et al., 2017ですべおを実装し、「゜フトりェアくじ」Hooker, 2021からの利益を制限するために、確立されたコンポヌネントにさらに結果を偏らせるであろう、特殊な実装を䜿甚しない。 我々は、PyTorchフレヌムワヌクの実装レベルですべおを維持し、すべおのコンポヌネントに適甚可胜な自動挔算子融合Sarofeen et al.、2022のみを蚱可したす。 最終的なアヌキテクチャの倉皮を遞択した埌にのみ、我々は次にDaoら2022に蚘茉された効率的な泚意カヌネルを再有効化する。 我々は、暙準的な16ビットおよび32ビット浮動小数点粟床完党な32ビットフロヌト、スケヌリングされた16ビットRasleyら、2020および玔粋なbfloat16Wang & Kanwar、2019以䞊の自動混合粟床Micikeviciusら、2018の同じ蚭定を甚いおすべおの実隓ずアブレヌション研究を実行する。 我々の蚭定においお、オフロヌド(Ren et al., 2021; Rasley et al., 2020)の利点は芋いだせたせん)。 初期デヌタ蚭定 私たちは、Devlinら(2019)のオリゞナルの生テキスト゜ヌスに近いアナログで調査を開始し、英語のWikipedia (20220301.en)ず英語のブックコヌパスの最近のダンプを䜿い、Tan (2019); Bandy & Vincent (2021) の解説を参照した。 党おのテキストを匷制的に小文字にし、アクセントず非アスキヌ文字を取り陀き、このデヌタのみに基づいお英語のトヌクナむザヌをれロから䜜成したす。 語圙サむズ2 15 = 32768 (Wu et al., 2016)のWordPieceを遞択した。 BPE (Sennrich et al., 2016) や SentencePiece with Unigrams (Kudo, 2018; Kudo & Richardson, 2019) では性胜に倧きな倉化がないこずを確認した。 小さい語圙サむズ(2 12 , 2 13 , 2 14)はパフォヌマンスが䜎䞋し、倧きい語圙サむズ(2 16)は信頌できるほど良くはならなかった。 トヌクン化されたデヌタを長さ128のランダムなシヌケンスにパックし、無関係なフラグメントをで分離する。このセパレヌタを削陀したこずによる性胜ぞの圱響は最小限であった。 たた、事前孊習でトヌクンを入れおも圱響は芋られなかった。 短い配列長は、我々がタヌゲットずしおいるダりンストリヌムアプリケヌションにずっお十分であり、泚意の蚈算を簡玠化するこずができたす。 デヌタを完党なシヌケンスにパックするず、より単玔なシヌケンスロスに制限されるが、利甚可胜な蚈算機を最適に䜿甚するLiuら2019Izsakら2021。 察象ずなる蚈算機蚭定の堎合、このシヌケンス長は、gtx2080ti䞊のベヌスBERTアヌキテクチャのほずんどのバリ゚ヌションで64から96のマむクロバッチサむズになり、これをより倧きなバッチサむズに蓄積したす。 私たちの限られた蚈算予算で、これは、デヌタポむントが再蚪されないシングル゚ポックトレヌニングKomatsuzaki, 2019; Hernandez et al.

auto operator fusionのみ蚱可ずあるが、䜕かはわからない。 Daoら2022に蚘茉された効率的な泚意カヌネルを再有効化しおいる。 挔算粟床に぀いおは倚くの研究を螏襲しおいる。 語圙サむズは2^15のWordPieceを遞択、語圙サむズの倉化で良い結果は埗られなかった。 系列長を短くするこずは、埌段の凊理にずっお十分であれば簡玠化するこずが可胜。

4.2 アヌキテクチャの倉曎

効率的に孊習をスケヌルダりンする最も明癜な方法は、モデルアヌキテクチャを修正するこずである。 盎感的に、詰め蟌み䜓制ではより小さいより䜎い容量のモデルが最適である可胜性が高いず思われる。 このセクションでは、モデルの皮類ず孊習効率の関係に぀いお研究しおいたす。

スケヌリング則はスケヌルダりンの匷い障壁ずなるこずがわかりたす。 トヌクンごずの孊習効率はモデルサむズに匷く䟝存するが、トランスフォヌマヌのタむプには䟝存しない。 さらに、小さいモデルは孊習効率が悪く、スルヌプットの向䞊はほずんど芋蟌めたせん。 幞いなこずに、同じサむズのモデルであれば孊習効率はほが䞀定であるため、パラメヌタ数をほが䞀定に保ちながら募配蚈算を高速化するアヌキテクチャの改良によっお、性胜を向䞊させるこずができたす。 このため、単䞀の募配ステップの蚈算時間にどのような圱響を䞎えるかを䞻な基準ずしお蚭蚈を遞択するこずができ、アヌキテクチャの遞択が非垞に容易になりたす。

䜎リ゜ヌス領域でもスケヌリング則は成立する

近幎、倚くの研究がオリゞナルの倉換噚を高速化するためのアヌキテクチャの改良を開発しおいたす。 これらの方法の倚くは、倧芏暡なT5アヌキテクチャの孊習を改善するこずは発芋されおいたせん Narangら (2021); Tayら (2022a). しかし、デヌタスルヌプットが最重芁芖される䜎コンピュヌト環境では、もしかしたらこの方法が有効なのかもKaplanら(2020)は、高リ゜ヌス領域でスケヌリング則を芳枬しおおり、リ゜ヌスが倧きくなっおも限界たで匷く保持するようです。 驚くべきこずに、これらの法則は極端な蚈算量のダりンスケヌルにおいおも成立し、䜎コストのトレヌニングに察する障壁ずなるのです。 図1では、文献にある倚くの倉換噚のバリ゚ヌションに぀いお、スケヌリング則の効果を䟋瀺しおいたす。ここでは、セクション4.3で埌述するように最適化された孊習ハむパヌパラメヌタを甚いお各アヌキテクチャバリ゚ヌションを孊習しおいたす。 これらのアヌキテクチャ倉皮を、前正芏化ず回転埋め蟌みを組み蟌んだ共有ベヌスラむンモデルに適甚する。 図1は、すべおのアヌキテクチャを同じ時間予算で実行し、トヌクンの総数に察するMLM損倱の進捗を芖芚化したものです。 トランスフォヌマヌの皮類ずサむズを倉えおも、24時間埌の最終的な損倱にはほずんど圱響がないこずがわかりたす。 より倚くのパラメヌタを持぀モデルは、MLMの損倱が募配ごずに速く枛少するため、より効率的に孊習するこずができたす。 しかし、小さいアヌキテクチャは、遅い孊習効率を高いスルヌプットで補うため、限られた予算でより倚くのトヌクンを凊理するこずができたす。 図1は、孊習の初期段階最初の1Bトヌクンにおいお、アヌキテクチャの違いが予枬できないこずを瀺しおいたす。 その埌、トヌクンごずの効率は乗法定数察数軞による氎平方向のシフトのみで異なっおいたす。 この定数はモデルの皮類ではなく、ほが完党にモデルサむズに䟝存するため、孊習終了時には党おの遞択肢が1.9前埌のMLMロスに到達したす。

スケヌリング則を利甚する

トヌクン単䜍の性胜はモデルサむズず密接に関係しおいるため、スケヌリング則は倉換噚のサむズずタむプを倧きく倉曎するこずで倧きな利益を埗るこずを阻んでいるように芋えたす。 その結果、Schwarzschild2021のようにBPTTで蚓緎しおも、挏斗型倉換噚アヌキテクチャを甚いた堎合Daiら、2020Nawrotら、2022、FFN局を萜ずした堎合Sridharら、2022、リカレント局を甚いた堎合Lanら、2019、䜕の改善も芋られたせん。 アヌキテクチャをディヌプナロヌにリスケヌリングしおもTay et al., 2021; Wies et al., 2021、䜕の利埗も埗られない。 この原理は、効率的にスケヌルダりンするための1぀の扉を閉ざす䞀方で、別の扉を開きたす。 募配効率は同じサむズのすべおのモデルに察しおほが䞀定であるため、モデルサむズをほが䞀定に保ちながら蚈算を高速化するアヌキテクチャの遞択を迅速に怜玢するこずによっお、スケヌリング則を利甚するこずができたす。 このカテゎリには、明らかな最適化が倚数含たれおおり、以䞋では、それらに加えお、わずかではあるが䟡倀ある/無料の利点をもたらす他のいく぀かの調敎に぀いお説明したす。

アテンションブロック

我々はすべおのQKVバむアスを無効にしたす(Dayma et al., 2021)。 これは、蚈算の局を取り陀くこずによっおスケヌリング則を利甚し、モデルサむズをほが䞀定に保ちながら、前方および埌方通過をいくらか速くするものです。 我々は、これがGPU䞊でより良く䞊列化し、若干の性胜向䞊をもたらすため、泚目ヘッドの数を枛らすこずで募配コストを枛らせるこずを発芋したMerity, 2019; Araabi & Monz, 2020; Liu et al., 2021b; Javaheripi et al., 2022。 しかし、ヘッドの量を枛らすず埮調敎の性胜も䜎䞋するため、最終的には12ヘッドすべおを維持する。 ゜フトマックス挔算ぞの眮き換えによるメリットは芋いだせない(Richter & Wattenhofer, 2020)。 さらに、オリゞナルの倚頭自己アテンション機構を維持する。 効率的な泚意Sukhbaatar et al., 2019; Beltagy et al., 2020; Wang et al., 2020a; Liu et al., 2021c、効率的泚意の研究Tay et al., 2020abは倧量に行われおいる。 しかし、最倧配列長を128に蚭定したため、我々の蚭定においお泚意の耇雑さはあたり気にならない。 これを怜蚌するために、最近提案されたFLASH機構(Hua et al., 2022)を実装したが、利点は芋いだせなかった。 我々はさらに、Lee-Thorpら2021で提案されたFourier attentionを実隓するが、䜕の改善も芋出せない。 ロヌタリヌ埋め蟌みSu et al., 2021; Black et al., 2022は小さな利点をもたらすが、速床の䜎䞋によっお盞殺されるため、最終的にこれらを採甚しないこずにした。

ここでようやく系列長が通垞512であるが128に萜ずされおいるこずが分かった。これは効果は倧きそう。 たた、QKVの重みのバむアスは無効化されおいるもずもずどうだっけ

フィヌドフォワヌドブロック

我々は、すべおの線圢局のバむアスを無効にするこずから経隓的な利埗を芋぀けるDaymaら、2021。 泚意局ず同様に、これはモデルサむズに顕著な圱響を䞎えるこずなく、募配蚈算を加速するこずによっおスケヌリング則を掻甚する。 その結果、モデルの改善速床を損なうこずなく、より高いスルヌプットを埗るこずができる。 元のフィヌドフォワヌドブロックはほずんど倉曎せず、GELU以倖の掻性化に倉曎しおも䜕のメリットも芋いだせなかった。 我々は、ブロックをゲヌト線圢ナニットに再順序付けするこずから小さな改善を芋出すDauphin et al.、2017。 他の仕事、䟋えばBlack et al., 2022ずは察照的に、我々はゲヌティングによる隠れ次元の半枛を補償するために、FFNブロックのパラメヌタ数を増加させない。 ゚ンベッディングを行う。我々は、Huaら(2022)に蚘茉されおいるように、鱗状正匊波䜍眮埋め蟌みを実装し、孊習されたたたは鱗状正匊波埋め蟌みに察する挞進的な利点を芋出した。 入力ず出力の埋め蟌みを切り離すこずによる改善は芋られないChung et al.、2020。 Lanら(2019)からの入力゚ンベッディングを因数分解する提案は、我々の蚭定においお利埗を提䟛しない。 我々は、埋め蟌みブロックの最埌にレむダヌの正芏化を含める。

線圢局のバむアスも無効化する。 「鱗状正匊波䜍眮埋め蟌みを実装し、孊習されたたたは鱗状正匊波埋め蟌みに察する挞進的な利点を芋出した。」はポむントかも。

レむダヌ構造

倚くの研究で芳察されるように、我々は、レむダヌノヌムによる事前正芏化がポストレむダヌノヌムよりも有益であるこずを芋出すBaevski & Auli, 2018; Xiong et al.、2020。 Liu et al., 2020b; Shleifer et al., 2021のような、この修正の他のバリ゚ヌションから远加の利益を芋いだすこずはできない。 さらに、Layer NormalizationをRMS Normalizationに眮き換えおも利埗は埗られない(Zhang & Sennrich, 2019)。 我々は、事前正芏化の重芁な効果は、孊習を安定させ、より倧きな孊習率ずりォヌムアップの削枛を可胜にするこずであり、それ自䜓を含むこずによる利点は限られおいるず考えおいるこずに留意する。 たた、(Zhang & He, 2020)で説明されおいるように、局党䜓を確率的に削陀するこずによる利点はない。

「レむダヌノヌムによる事前正芏化がポストレむダヌノヌムよりも有益である」もポむントか

ヘッドブロック

我々は、非線圢ヘッドを削陀しおも悪圱響がないこずを発芋した。 我々はさらにデコヌダバむアス(Radford et al., 2019)を萜ずし、スパヌストヌクン予枬(Liu et al., 2019; Izsak et al., 2021)を甚いおメモリを獲埗するこずができる。 さらに孊習を安定させるために、最埌のLayer Normを远加する。

ここは様々なポむントがある。

4.3 蚓緎蚭定の倉曎

我々は、BERT-base アヌキテクチャに察するトレヌニングハむパヌパラメヌタの圱響を研究しおいる。 オリゞナルの BERT トレヌニングレシピは、圓然のこずながら、詰め蟌み蚭定におけるモデル性胜が䜎い結果ずなるため、倚くの暙準的な遞択を再怜蚎する。

目的

我々は、15のマスキング率でトヌクンの完党にパックされたブロックにマスクされた蚀語モデリングのみで蚓緎し、Devlinらのオリゞナルの蚭定である。 (2019)では、党マスクの10%をランダムな単語で埋め、10%を倉曎しない。 より倧きな率、䟋えば(Wettig et al., 2022)で提案された40%でのマスキングによる改善は芋られない、付録を参照。 たた、前述の20%ルヌルを有効にしおも無効にしおも差は芋られない。 平均二乗誀差(Hui & Belkin, 2021)やL1損倱など、マスク蚀語の目的に察する他の関数を評䟡したが、利点は芋いだせなかった。

最適化噚の遞択

我々は、Adam (Kingma & Ba, 2015)を遞択したオプティマむザずしお維持し、(Loshchilov & Hutter, 2017)に蚘茉されおいるように0.01の重み枛衰、β1 = 0.9 、β2 = 0.98 、ε = 10-12ずする。 䜙分なコストをかけずに孊習を安定させるために、クリップ倀0.5で募配クリッピングを含む。 これらのパラメヌタを合理的に倉化させおも、顕著な倉化は芋られない。 他の䞀次適応型オプティマむザShazeer & Stern, 2018; Liu et al., 2020aをテストしたしたが、我々の蚭定での利点は芋぀かりたせんでした。 さらに、高次のオプティマむザを甚いた利点も芋いだせないがYadav, 2020; Anil et al., 2021、特に高次のオプティマむザでは実装に倧きなばら぀きがあるこずに泚意する。

孊習率のスケゞュヌルずピヌク

Izsakら2021の助蚀に埓い、孊習率スケゞュヌルを予算ず連動させ、予算がれロになるず孊習率が枛衰するように再スケヌル化した。 興味深いこずに、図2においお、グロヌバルに倚数の孊習率圢状が同様の損倱䜎枛をもたらす䞀方で、スケゞュヌルの遞択によっおいく぀かの利益を埗るこずができるこずが芳察された。 我々は、10-3のピヌク孊習率を持぀単玔な1サむクル孊習率Smith & Topin, 2018が、我々の予算内で最小の事前孊習損倱をもたらすこずを芋出した。

バッチサむズスケゞュヌル

我々の蚭定の特殊性は、単䞀のGPUに制限されおいるため、このGPUに入るマむクロバッチサむズほずんどの実隓で96は、最適なバッチサむズよりも数倍小さいずいう点です。 この蚭定における最適なバッチサむズは、プリトレヌニングロスを最小にするためには玄1536であり、2080tiのダりンストリヌムパフォヌマンスを最倧にするためには4032であるこずがわかりたした。 ぀たり、2080tiでは、募配を蓄積し、それぞれ16回ず42回のフォワヌド/バックワヌド・パスごずに曎新を実行するだけです。 より倧きなA4000ずA6000カヌドでは、これは128/256のマむクロバッチサむズず4096の最終バッチサむズに盞圓し、我々は再びこれを蓄積したす。 幞いなこずに、積極的なバッチサむズスケゞュヌルを甚いるこずで、小さなスピヌドアップを芋぀けるこずができたす。 この結果、トレヌニングの早い段階でより進歩し、性胜にわずかな利点をもたらす。 たた、自動的か぀適応的なバッチルヌルDe et al., 2017; Bollapragada et al., 2018a;bを実隓したが、これらの適応的スケゞュヌルからの最良の結果は、固定された線圢スケゞュヌルに類䌌しおいるこずがわかった。 簡略化のために、我々はただより単玔な線圢スケゞュヌルに固執する。

ドロップアりトの削陀

Devlinら2019のオリゞナルのBERTモデルは、Vasw aniら2017のようにドロップアりトを含み、総蚈算予算に察しおトレヌニングデヌタが小さいずきにオヌバヌフィッティングを防止するものである。 正則化ずしお有甚である䞀方、ドロップアりトは、関連する特城がドロップされるず曎新が発生しないため、各パラメヌタが芋る募配曎新の数を効果的に枛少させる。 同時に、曎新の実行時間はドロップアりトの存圚に匷く圱響されないため、ドロップアりトは1秒あたりの曎新を正味で枛少させるこずになりたす。 crammingの蚭定では、孊習デヌタは蚈算量に比べ倧きい。 シングル゚ポックスケゞュヌルによりオヌバヌフィッティングは䞍可胜であり、パラメヌタ曎新数を最倧化するため、プリトレヌニング䞭はドロップアりトを無効化する(Brown et al., 2020)。 䞋流の埮調敎の際にドロップアりトを再床有効にし、ドロップアりト倀を0.1に蚭定する。 さらに、長さカリキュラムLi et al., 2022付録参照ずトヌクンドロップアりトHou et al., 2022を実隓したが、我々の蚭定での利埗は芋いだせなかった。

4.4 デヌタセットの最適化

我々は、スケヌリング法則が、アヌキテクチャの修正によっお蚈算効率を超える倧きな利埗を埗るための障壁ずなるこずを䞊蚘で発芋した。 しかし、スケヌリング則は、より良いデヌタで孊習するこずを劚げるものではありたせん。 1秒間に倚くのトヌクンを孊習する胜力を䜿い果たしたら、より優れたトヌクンを孊習するこずを目指さなければなりたせん。 我々は、より良いダりンスケヌリングぞの2぀のデヌタベヌスの経路を考える。 たず、既存のデヌタを様々な方法でフィルタリング、凊理、゜ヌトする。 第二に、デヌタ゜ヌスを亀換するこずである。

この目的のために、Gutenberg、Books3、Wikipedia (en)からの生テキストのみを含むThe Pile (Gao et al., 2020)のいく぀かのサブセットを䜿っお実隓する。 これらのPileデヌタセットから、最初の4×106゚ントリヌをトヌクン化し、我々のシングルパスに十分なトヌクンを生成する。 たた、Common Crawl (Raffel et al., 2020) の巚倧なクリヌン版であるC4も人気のあるデヌタ゜ヌスであり、ここから最初の20×106゚ントリをストリヌミングする。 各デヌタ・゜ヌスに察しお、セクション 4.1 で説明したように、独自の WordPiece トヌクナむザを再 生成したす。 これら4぀の゜ヌスのうち、PileがダりンストリヌムMNLI性胜の面で最も優れおいるこずがわかりたす。 しかし、特にC4デヌタセットに぀いおは、远加凊理によっおさらに改善できるこずが刀明した。

たず、Leeら(2022)に蚘茉されおいるように、正確な郚分文字列の重耇排陀を評䟡したが、我々のケヌスではダりンストリヌム性胜に圹立たないこずが分かった。 次に、圧瞮䞍可胜なデヌタに察するフィルタリングをテストしたす。 トヌクン化噚そのものを䜿っお、C4セットからうたく圧瞮できないすべおの孊習シヌケンスを削陀したす。単玔に閟倀t、䟋えばt = 0.3を蚭定し、゚ントリ内のトヌクン数が生の文字数のt倍より倧きいすべおの゚ントリをデヌタセットから削陀したす。 これにより、䟋えば圧瞮しにくいHTMLやmarkdownのコヌドで構成されたシヌケンスなどを削陀するこずができたす。 驚くべきこずに、この結果、C4が倧幅に改善され、衚2にたずめられおいたす。

次に、2぀の方向からさらにいく぀かの改善が芋られたした。 1぀目は、トヌクン化されたすべおのシヌケンスを䜕らかの指暙で゜ヌトするこず、2぀目は、最終的なバッチサむズを倧きくするこずです。 フィルタリングのために、我々はすべおのトヌクン化されたシヌケンスをその平均1グラムトヌクンの有病率で゜ヌトし、可胜性の高いシヌケンスが最初に珟れるようにする。 これは、より倧きなコヌパスから抜出するこずで、可胜性の䜎いシヌケンスに到達するこずがないため、若干匷化するこずができる効果がありたす。 最埌に、セクション4.3で述べたように孊習の最埌にバッチサむズを4032/4096に増加させるこずは、C4では䞍釣り合いに効果的ですが、bookcorpus-wikipediaではそれほどでもありたせん。 どちらの修正も最終的にはデヌタ分垃の揺らぎによっお孊習が阻害される可胜性を枛らすこずができるず考えおいる。

語圙サむズ

たた、(Devlin et al., 2019)に蚘茉されおいる32768ずいうオリゞナルの語圙サむズが詰め蟌み䜓制で最適かどうかを確認する。 先隓的に、これは成立しないかもしれない。語圙が倧きければ倧きいほど、固有トヌクンず固有トヌクン間の関係を蚓緎䞭に孊習する必芁がある。 䞀方、語圙のサむズを倧きくするず、デヌタはさらに圧瞮されある時点で消滅したすが、詰め蟌み孊習時に摂取できるトヌクンの固定数に、より倚くの情報を圧瞮するこずが可胜になりたす。 図3では、ブックコヌパスずりィキペディアのデヌタにおいお、語圙サむズが倧きいほど平均GLUEスコアが高くなるこずがわかりたすが、MNLIタスクでは元の32768語圙サむズ付近で効果が頭打ちになっおいたす。 今埌、この語圙サむズを維持する。

5. glueの性胜の埮調敎

最埌に、Wang et al. (2018)のGLUEベンチマヌクで、Devlin et al. (2019)のようにWNLIを陀いた性胜を系統的に評䟡する。 我々は、前のセクションの間、MNLImのみを䜿甚し、完党なGLUEスコアに基づいおハむパヌパラメヌタをチュヌニングしないこずに泚意したす。 我々は、セクション2で敷蚭された同じ制玄の䞋で、事前孊習されたBERT-baseチェックポむントず我々のモデルの䞡方を埮調敎する。 BERT-baseでは、バッチサむズ32、孊習率2×10-5で5゚ポックの間、すべおのデヌタセットを埮調敎したした。 詰め蟌たれたモデルに぀いおは、これは最適ではなく、バッチサむズ16、コサむン枛衰を䌎う孊習率4×10-5からわずかな改善が埗られるこずがわかりたすこのセットアップは、事前孊習されたBERTチェックポむントを改善したせん。 衚3および衚4は、GLUEダりンストリヌムタスクにおけるこのセットアップの性胜を瀺しおいたす5ダりンストリヌム詊隓にわたる䞭倮倀ずしお。 そこでは、元のBERT-ベヌスチェックポむント、予算に達した埌に停止したBERT事前蚓緎蚭定の再珟、(Izsak et al., 2021)に蚘茉されたセットアップ、および各GPUセットアップに぀いお1日蚓緎した修正レシピを比范しおいたす。 党䜓ずしお、性胜は驚くほどたずもで、特にMNLI、QQP、QNLI、SST-2の倧きなデヌタセットでは、䞋流の埮調敎により完党なBERTモデルず詰め蟌たれた倉皮の間に残る差異を滑らかにするこずができたす。 さらに、限られた予算での玠朎なBERT蚓緎ず、(Izsak et al., 2021)に蚘茉されたレシピの䞡方に察する実質的な利埗を芋出すこずができたす。 Izsakら、2021に぀いおは、蚘述されたレシピはもずもずフル8 GPUサヌバヌブレヌドのために蚭蚈され、この実隓ではより小さなGPUにそこにBERT-倧芏暡モデルを絞るこずは、私たちのシナリオでこのレシピの性胜劣化の倧郚分に責任がありたす。 党䜓ずしお、詰め蟌たれたモデルは、小さいデヌタセットであっおも、ほずんど機胜したす。 しかし、平均倀はCoLACorpus of linguistic acceptabilityWarstadtら、2019で倧幅に䜎䞋しおいたす。 この挙動は興味深く、我々は2぀の仮説を提瀺する。 たず、埮調敎のために遞択されたグロヌバルハむパヌパラメヌタが、特にCoLAに適合しおいないこずが考えられる。 CoLaの性胜はハむパヌパラメヌタに関しお脆い可胜性があり、Jiao et al. (2020)はCoLaのみで長くトレヌニングしたり、Joshi et al. (2020)はCoLaのみで長く蚓緎したり、Joshiら(2020)はCoLaのみで少なく蚓緎したりしおいたす。 それにもかかわらず、BERTに぀いおは、グロヌバルなハむパヌパラメヌタのセットが存圚し、詰め蟌み型モデルの欠陥を指摘しおいる。 第二の仮説ずしお、これらのモデルは、CoLAでうたくやるために十分なデヌタを蚘憶する前に、より倚くのテキストを凊理する必芁があるこずが考えられる。 これは、Liu et al. (2021d)は、䞭間BERTチェックポむントをプロヌブする際に、CoLAが他の䞋流タスクず比范しお比范的早く孊習されるこずを発芋しおいたす。 䞀方、特にCoLAに関する欠陥は、BERTをより小さなアヌキテクチャに蒞留するアプロヌチSun et al., 2019; Turc et al., 2019; Mukherjee et al., 2021にも共通し、これは蚀語的受容性のための限られた胜力を䌎う可胜性がある。

5.1 アブレヌション - どの倉化が本圓に重芁なのか

衚5では、この研究で議論されたすべおの倉曎のアブレヌション研究の芁玄を瀺す。 前のセクションず同様に、倉曎をアヌキテクチャ、トレヌニング、およびデヌタの 3 グルヌプに分類し、 すべおの倉曎を元の BERT レシピにリセットするこずによっお、各グルヌプを削陀しおいたす。 ここで、PreNormレむダヌ構造などのアヌキテクチャの倉曎は、トレヌニングセットアップで説明したより積極的な孊習率スケゞュヌルを可胜にするため、いずれの堎合もたず最小限の倉曎を行う必芁があるこずがわかりたす。 このこずを考慮するず、アヌキテクチャの倉曎により平均GLUEスコアが玄2ポむント、デヌタの倉曎により玄1ポむント、トレヌニングの倉曎により玄半分のポむントが埗られるこずがわかりたす。

5.2 トレヌニングが長くなるずどうなるか

たた、これたで述べおきた詰め蟌み匏のレシピをより倚くの予算で䜿甚した堎合にどうなるかを怜蚌する。 このため、A6000 GPU8台で48時間モデルを孊習させたずころ、合蚈208゚クサFLOPc.f.ずなった。 衚1. これたでの蚭定をそのたた適甚し、48時間ずいう新たな予算をカバヌするために、孊習率スケゞュヌルを単玔にスケヌリングしおいたす。 衚6で、我々は、議論されたレシピがより倧きな蚈算バゞェットに盎ちに䞀般化されるこずがわかりたす。 これは、少なくずも、今、セクション4.4で゜ヌトされたデヌタセットが小さすぎお、䜕床も繰り返されおいるこずから、驚くべきこずです。 新たに孊習されたモデルは、特にMNLIずSST-2で匷力な性胜を持ち、元のBERTチェックポむントを倧幅に䞊回り、LiuらのroBERTA-baseチェックポむントず同様の範囲に収たりたすLiu et al. (2019)のroBERTA-baseチェックポむントず同様の範囲に入るが、これはより倚くの蚈算量で孊習されたものである。 しかし、再びCoLAなどの他のタスクでは、新しいモデルは、より倧きな蚈算領域でもほずんど改善したせん。

6 LIMITATIONS

この研究では、MLM目暙で孊習された倉換噚ベヌスのアヌキテクチャに調査を限定したした。 しかしながら、セクション2で提起された詰め蟌みの䞀般的なタスクは、これらの制玄を緩和した堎合でも興味深いものであるず考える。 特に目的語に察しおは倚くの修正が提案されおいるJoshi et al., 2020; Bao et al., 2020; Bajaj et al., 2022; Tay et al., 2022b。 䞀方、Artetxe et al. (2022)ずWang et al. (2022)は、MLMが事前孊習目的ずしおはただよく持ちこたえるこずを発芋したが、ELECTRA (Clark et al., 2019; 2020; He et al., 2021) などの他の提案は、詰め蟌みモデルにずっお有益であるかもしれない採甚するこずができる。 たた、最適なアヌキテクチャはトランスフォヌマヌベヌスではないかもしれない(Merity, 2019; Fusco et al., 2022; Peng, 2021)。

7 結論

我々は、トランスフォヌマヌベヌスの蚀語モデルが、非垞に限られた蚈算量の蚭定に詰め蟌たれた堎合に、どの皋床の性胜を達成できるかを議論し、いく぀かの修正により、GLUE䞊で適切な䞋流性胜に぀ながるこずを発芋したした。 しかし、Kaplanら(2020)の倚くの瀺唆を経隓的に芋いだし、蚀語モデルを詰め蟌むこずは難しいようです。 (2020)の倚くの瀺唆がこの領域でも保持され、より倧きなモデルによる改善は、その遅い速床によっお盞殺される䟋もありたす。 我々は、この研究が、セクション2で定匏化した詰め蟌み問題の探求のためのベヌスラむンを提䟛し、近幎トランスフォヌマヌアヌキテクチャに提案された倚くの改善ずトリックにさらなる光を圓おるこずができればず願っおいる。

Last updated