音声

  • API版ですら1時間のデータに少し時間がかかるので、課題になる場合はここら辺を見る必要がある。

  • slack_boltを使っている

  • 実装の多少参考にはなるはず。

  • ROCmが良く分からんけどAMD GPUで動かす仕組みかな

  • Whisperだけでは長い発話単位なので、それで正確な発話位置がわかりそう

  • OpenAI 公式のモデルを軽量化、独自の最適化により、最大 4 倍の高速化を実現

  • 軽いと評判の Whisper.cpp よりも高速に動作(ただしメモリは若干多め)

  • Whisper.cpp と違って、GPU による高速化の恩恵が受けられる

  • 一時間の音声を15秒で書き起こす

  • なおGPU, TPU駆動が前提

  • 高速なやつ。GPUの方がより高速。

  • AV-ASRという動画から音声認識をする研究があるが、動画と書き起こし結果のデータセットは少なく、音声側の大規模化に追い付けていない

  • なので、音声側のモデルをそのまま使って画像情報を注入するという、Flamingoと同様のアプローチを採用している

  • よくわからんかったけど、希少言語のASRに関するfine-tuningかな

  • 低リソース言語の場合、MMSのアダプタートレーニングを使用することを強く推奨とのこと

Last updated