X

やばい音声クローンソフトMicrosoft/VibeVoice

まずは動画をご覧いただければ、どのような音声生成かすぐにご理解いただけるはずです。

音声スクリプトはもしかすると裏で交わしていたかもしれない会話ですがあくまで生成AIのサンプルとしての創作です。

1. VibeVoiceとは?圧倒的な進化を遂げたTTSモデル

  • サンプル音声学習に基づき、人物になり代わってスクリプトを喋らせるモデルという点では従来の音声クローン技術と類似しています。
  • しかし VibeVoiceの革新性 は、その“インスタント性”です。 GPU による短時間処理で、ほぼ学習なしに “リアルな声” の出力が可能です。

2. モデルのバージョンと性能

リソース

  • 1.5B モデルでおよそ 7GB VRAM、Large では 18GB VRAM 必要 (Windows Central, TweakTown)。
  • サンプル動画の音声ではRTX4070を使い1.5bで20秒程度の生成が1分程度、7bはVRAM不足で数十分かかっている。
  • GGUF版のモデルは既にあるので対応したノードが作成されれば12GB程度のVRAMでも7bが使用できるようになる。

3. 技術的解説:なぜ高速・高品質が実現可能なのか?

  • 連続音声トークナイザー(Acoustic & Semantic) を 7.5 Hz の超低フレームレートで運用。音声フレームを効率的に圧縮して扱う仕組み (GitHub Microsoft, Hugging Face, arXiv)。
  • Next-token diffusion フレームワーク:LLM(Qwen2.5)で文脈を解析し、Diffusionヘッドで高精度な音響特徴を生成 (GitHub Microsoft, Hugging Face, arXiv)。
  • ArXiv 技術レポートでは、従来のエンコードモデル(例:Encodec)比で80倍の圧縮効率を達成し、高効率かつ高音質な長時間音声生成を実現 (arXiv)。

4. 開発背景とライセンス上のガードレール

  • MIT ライセンスで公開され、GitHub や Hugging Face にてコードやモデルが公開中 (GitHub, Hugging Face, GitHub Microsoft)。
  • 出力音声には AI 生成の旨を自動で組み込む聴覚的ディスクレイマー と、検出可能なウォーターマークが付与される仕組み (Hugging Face, PYMNTS.com)。
  • 明示的に以下の使用は禁止されています:
    • 無断で他人の声を模倣する音声クローンなど。
    • ディスインフォメーションや詐欺などへの悪用。
    • リアルタイムの声置き換え(電話・会議など)への利用 (Hugging Face, PYMNTS.com)。

5. 実用的応用とそのリスク

  • ポッドキャスト制作:複数スピーカーを含む長尺音声をスクリプトから数分で生成可能。
  • アクセシビリティ/教育:講義・教材音声を複数人形式で自動生成し、聴覚学習を促進。
  • ゲーム・メディアイベント:キャラクター間のやり取りを実際に音声化し、制作・検証フェーズを効率化 (PYMNTS.com)。

ただし、フェイク音声・詐欺などの悪用リスクは現実的で、技術者として使い方の倫理判断が求められます。

6. Redditの反応:コミュニティの声

  • r/LocalLLaMA より:

    “very good quality from their examples, natural speaking styles.”
    “English/Mandarin, 0.5b coming soon, also seems like no voice cloning?” (Reddit)

  • r/StableDiffusion より:

    “The bad news is that it’s Microsoft, so your best bet for seeing that training code is to mention it to Bill Gates next time you see him.”
    “again, only English and Chinese… :/” (Reddit)

これらのコメントには、音質への賛辞言語制約への指摘、そしてコード公開に対する皮肉な期待が吐露されています。

おーら
簡単に解説すればサンプル音声を学習させてその人に成り代わってスクリプトをしゃべらせるモデルだ。そんなソフトここ数年山ほど発表されているので過去と同じモデルであればさほど驚かない。しかしこのマイクロソフトが発表した音声生成モデルの何がすごいかといえば、入力の音声をサンプリングして大した学習時間もなくそのまま音声化できることだ。学習が必要な音声AI生成のインスタント版とでもいうべきか。サンプルの動画の20秒程度であればRTX4070で約1分でスクリプトを入力の声で読み上げさせることが可能だ。ただVibeVoiceは英語と中国語しかサポートしていないので無理やり日本語を読ませるとイントネーションがかなりおかしい。それでもVibeVoice-Large(おそらく7b)に関しては日本語のイントネーションもかなりしっかりしている。最後は音声2が読まないといけないところを音声1が読んでしまっているのでまだノードの出来が完全ではない。現時点でも7bを使えば、数回生成ガチャを引けばかなり高品質な音声クローン読み上げソフトになり得る。

まとめ

項目 詳細
革新技術 超圧縮トークン化+diffusion-based LLM による長時間高品質 TTS
モデル構成 1.5B/7B/0.5B(開発中)各種、マルチスピーカー対応
制限と安全策 AI表記・ウォーターマーク・使用制限による倫理対応
ユースケース ポッドキャスト、教育、プロトタイプ音声生成など幅広く応用可能
課題点 英語・中国語に限定。声のクローンには非対応。リアルタイム処理には未対応。

おーら: