音声
API版ですら1時間のデータに少し時間がかかるので、課題になる場合はここら辺を見る必要がある。
slack_boltを使っている
実装の多少参考にはなるはず。
ROCmが良く分からんけどAMD GPUで動かす仕組みかな
Whisperだけでは長い発話単位なので、それで正確な発話位置がわかりそう
Whisper越えてるという話はあるが、英語でWhisperと比較してないので恣意的なものを感じる
実際どうなんだろうかは要確認。
OpenAI 公式のモデルを軽量化、独自の最適化により、最大 4 倍の高速化を実現
軽いと評判の Whisper.cpp よりも高速に動作(ただしメモリは若干多め)
Whisper.cpp と違って、GPU による高速化の恩恵が受けられる
一時間の音声を15秒で書き起こす
なおGPU, TPU駆動が前提
高速なやつ。GPUの方がより高速。
AV-ASRという動画から音声認識をする研究があるが、動画と書き起こし結果のデータセットは少なく、音声側の大規模化に追い付けていない
なので、音声側のモデルをそのまま使って画像情報を注入するという、Flamingoと同様のアプローチを採用している
よくわからんかったけど、希少言語のASRに関するfine-tuningかな
低リソース言語の場合、MMSのアダプタートレーニングを使用することを強く推奨とのこと
Last updated