「AIの声、どうしても機械っぽい」と感じている方は、まだ古い世代のTTSを使っているかもしれません。2026年4月にGoogleが発表したGemini 3.1 Flash TTSは、感情・ペース・声量をテキストで細かく指示できる音声合成モデルです。
本記事ではその基本・特徴・使い方と、AI音声を動画に活かす方法を解説します。
パート 1. Gemini 3.1 Flash TTSとは?基本概要
Gemini 3.1 Flash TTSは、Googleが2026年4月15日にリリースした音声合成(TTS)専用AIモデルです。Google AI Studio・Gemini API・Vertex AIから利用でき、現在はプレビュー版として提供されています。
AI音声品質のベンチマーク(Artificial Analysis Eloスコア)では世界2位(1,211点)を記録しており、ElevenLabsやOpenAIのTTSモデルと並ぶ水準です。
最大の特徴は200以上の音声タグです。テキストの中に [ゆっくり] や [囁いて] と書き込むだけで、AIが読み上げのトーンや演技を変えます。「声を選ぶ」のではなく「演技を指示する」という点が、従来のTTSとの根本的な違いです。
パート 2. Gemini 3.1 Flash TTSの特徴と性能を解説
日本語ナレーションの自然さ
日本語は、Gemini 3.1 Flash TTSが対応する70言語のうち高品質言語グループ(24言語)に分類されています。アクセントや自然な間の取り方が前世代モデルから大幅に改善されており、ナレーション用途で実用的な水準に達しています。専門用語・固有名詞の読み間違いは起きることがあるため、重要なコンテンツでは事前確認が必要です。
旧モデルとの比較
| 比較項目 | Gemini 2.5 Flash TTS(旧) | Gemini 3.1 Flash TTS(新) |
|---|---|---|
| 抑揚・間の取り方 | 比較的フラット | 文脈に応じて自然に揺れる |
| 音声タグへの追従 | 部分的にしか反映されない | 指示に忠実にトーンが変化 |
| 感情表現 | 控えめ | 囁き・ため息・笑いまで表現 |
| マルチスピーカー | 複数回生成+結合が必要 | 1リクエストで2話者まで対応 |
またすべての生成音声にはSynthIDという電子透かしが自動で埋め込まれ、AI生成コンテンツの識別が可能です。
パート 3. Gemini 3.1 Flash TTSの使い方【初心者向け】
利用手順
最初に試すなら、Googleアカウントがあれば無料で使えるGoogle AI Studioが手軽です。
- Google AI Studioにログイン
- 「Speech and Music」メニューを開く
- モデルに「Gemini 3.1 Flash TTS Preview」を選択
- 30種類のボイスから好みのものを選択
- テキストを入力して再生・WAVダウンロード
[丁寧に] [ゆっくり] などの音声タグをテキストに混ぜると、トーンが変わります。
料金について
Google AI Studioの無料枠内で試せます(レート制限あり)。有料プランの参考単価は、音声出力が$20.00 / 100万トークン。1分のナレーション生成はおよそ3〜5円程度です。
パート 4. Gemini 3.1 Flash TTSのメリット・注意点
メリット
- 日本語が高品質言語グループに含まれており、ナレーション用途で即戦力になる
- 200以上の音声タグで感情・スタイルを細かく制御できる
- 1リクエストで2話者の対話音声を生成可能(マルチスピーカー対応)
- SynthIDによる電子透かしで、コンプライアンス対応がしやすい
注意点
- 現在はプレビュー版のため仕様・料金の変更がありえる
- 出力はWAV形式のみで、MP3変換は外部ツールが必要
- 商用利用の可否は、最新のGemini API利用規約を必ず確認すること
パート 5. AI音声を動画に活用する方法|初心者でも簡単に動画を作れるおすすめツール-Edimakor
Gemini 3.1 Flash TTSで音声ファイルを生成できたとしても、それだけでは動画コンテンツは完成しません。字幕を付けて、BGMを乗せて、映像と同期させるという編集工程がセットで必要になります。
その一連の流れをひとつのソフトウェアで完結させられるのが、HitPaw Edimakorです。
1 テキスト読み上げから動画編集まで一括対応
EdimakorはAI音声生成・字幕生成・映像編集を1つの画面で完結できる動画編集ソフトです。外部で生成したWAVファイルを読み込んで編集することも、ソフト内のテキスト読み上げ機能で直接ナレーションを生成することも、どちらも対応しています。
現在、Edimakor内のテキスト読み上げ機能にはElevenLabs V3が採用されています。ElevenLabs V3は人間の声に極めて近い自然さと感情表現の豊かさで知られており、次のような幅広い用途で活用できます。
- 動画ナレーション・有声書の制作
- AI音声アシスタント・カスタマーサポート
- 多言語コンテンツのローカライズ
- ゲームキャラクターの音声制作
2 字幕・BGM・映像をまとめて作成
EdimakorのAI字幕機能は、音声から自動でテキストを起こしてタイムラインに同期した字幕を生成します。120以上の言語に対応しており、日本語ナレーションに英語字幕を付けて多言語展開する、といった使い方も手軽です。BGMはソフト内のストック音源から選べるほか、外部ファイルの読み込みにも対応しています。
3 初心者でも使いやすい簡単操作
ドラッグ&ドロップで素材を並べ、AI機能に任せられる部分はAIに委ねるというシンプルなフローで動画を仕上げられます。オンライン講座のナレーション制作からYouTubeショート動画の量産まで、用途の幅も広いです。
4 高精度AI音声に対応
ElevenLabs V3に加え、Edimakorは80以上の言語・1,000種類以上のAI音声を収録しています。明るい声・落ち着いた声・子どもの声など、コンテンツのトーンに合わせて自由に選択できます。
パート 6. Gemini 3.1 Flash TTSに関するよくある質問
A1: Googleが2026年4月にリリースした音声合成専用AIモデルです。70言語以上・200以上の音声タグに対応し、Google AI StudioやGemini APIから利用できます。
A2: 日本語は高品質言語グループに含まれており、アクセントや間の取り方が大幅に改善されています。専門用語の読み間違いは起きることがあるため、納品前の確認を推奨します。
A3: テキスト内に感情・スタイルの指示を直接書ける「音声タグ」が最大の差別化点です。また1リクエストで2話者の対話音声を自然に生成できるマルチスピーカー機能も特徴的です。
A4: 現時点ではGemini APIの利用規約の範囲内で商用利用が可能です。プレビュー版のため、最新の公式ドキュメントで規約を必ず確認してください。
まとめ
Gemini 3.1 Flash TTSは、実用水準の高いAI音声合成モデルです。生成した音声を実際の動画コンテンツに仕上げるには、編集ツールとの組み合わせが重要になります。
HitPaw EdimakorはAI音声の生成から字幕・映像編集まで一括で対応できるため、AI音声の活用を考えている方はぜひ合わせてご確認ください。
コメントで参加しよう!
HitPawの記事にレビューを書いてみましょう!