Gemini 3.1 Flash TTSとは？使い方と特徴を解説｜AI音声を動画に活用する方法

「AIの声、どうしても機械っぽい」と感じている方は、まだ古い世代のTTSを使っているかもしれません。2026年4月にGoogleが発表したGemini 3.1 Flash TTSは、感情・ペース・声量をテキストで細かく指示できる音声合成モデルです。

本記事ではその基本・特徴・使い方と、AI音声を動画に活かす方法を解説します。

パート 1. Gemini 3.1 Flash TTSとは？基本概要

Gemini 3.1 Flash TTSは、Googleが2026年4月15日にリリースした音声合成（TTS）専用AIモデルです。Google AI Studio・Gemini API・Vertex AIから利用でき、現在はプレビュー版として提供されています。

AI音声品質のベンチマーク（Artificial Analysis Eloスコア）では世界2位（1,211点）を記録しており、ElevenLabsやOpenAIのTTSモデルと並ぶ水準です。

最大の特徴は200以上の音声タグです。テキストの中に [ゆっくり] や [囁いて] と書き込むだけで、AIが読み上げのトーンや演技を変えます。「声を選ぶ」のではなく「演技を指示する」という点が、従来のTTSとの根本的な違いです。

パート 2. Gemini 3.1 Flash TTSの特徴と性能を解説

日本語ナレーションの自然さ

日本語は、Gemini 3.1 Flash TTSが対応する70言語のうち高品質言語グループ（24言語）に分類されています。アクセントや自然な間の取り方が前世代モデルから大幅に改善されており、ナレーション用途で実用的な水準に達しています。専門用語・固有名詞の読み間違いは起きることがあるため、重要なコンテンツでは事前確認が必要です。

旧モデルとの比較

比較項目	Gemini 2.5 Flash TTS（旧）	Gemini 3.1 Flash TTS（新）
抑揚・間の取り方	比較的フラット	文脈に応じて自然に揺れる
音声タグへの追従	部分的にしか反映されない	指示に忠実にトーンが変化
感情表現	控えめ	囁き・ため息・笑いまで表現
マルチスピーカー	複数回生成＋結合が必要	1リクエストで2話者まで対応

またすべての生成音声にはSynthIDという電子透かしが自動で埋め込まれ、AI生成コンテンツの識別が可能です。

パート 3. Gemini 3.1 Flash TTSの使い方【初心者向け】

利用手順

最初に試すなら、Googleアカウントがあれば無料で使えるGoogle AI Studioが手軽です。

Google AI Studioにログイン
「Speech and Music」メニューを開く
モデルに「Gemini 3.1 Flash TTS Preview」を選択
30種類のボイスから好みのものを選択
テキストを入力して再生・WAVダウンロード

[丁寧に] [ゆっくり] などの音声タグをテキストに混ぜると、トーンが変わります。

料金について

Google AI Studioの無料枠内で試せます（レート制限あり）。有料プランの参考単価は、音声出力が$20.00 / 100万トークン。1分のナレーション生成はおよそ3〜5円程度です。

パート 4. Gemini 3.1 Flash TTSのメリット・注意点

メリット

日本語が高品質言語グループに含まれており、ナレーション用途で即戦力になる
200以上の音声タグで感情・スタイルを細かく制御できる
1リクエストで2話者の対話音声を生成可能（マルチスピーカー対応）
SynthIDによる電子透かしで、コンプライアンス対応がしやすい

注意点

現在はプレビュー版のため仕様・料金の変更がありえる
出力はWAV形式のみで、MP3変換は外部ツールが必要
商用利用の可否は、最新のGemini API利用規約を必ず確認すること

パート 5. AI音声を動画に活用する方法｜初心者でも簡単に動画を作れるおすすめツール-Edimakor

Gemini 3.1 Flash TTSで音声ファイルを生成できたとしても、それだけでは動画コンテンツは完成しません。字幕を付けて、BGMを乗せて、映像と同期させるという編集工程がセットで必要になります。

その一連の流れをひとつのソフトウェアで完結させられるのが、HitPaw Edimakorです。

1 テキスト読み上げから動画編集まで一括対応

EdimakorはAI音声生成・字幕生成・映像編集を1つの画面で完結できる動画編集ソフトです。外部で生成したWAVファイルを読み込んで編集することも、ソフト内のテキスト読み上げ機能で直接ナレーションを生成することも、どちらも対応しています。

現在、Edimakor内のテキスト読み上げ機能にはElevenLabs V3が採用されています。ElevenLabs V3は人間の声に極めて近い自然さと感情表現の豊かさで知られており、次のような幅広い用途で活用できます。

動画ナレーション・有声書の制作
AI音声アシスタント・カスタマーサポート
多言語コンテンツのローカライズ
ゲームキャラクターの音声制作

無料体験購入する

2 字幕・BGM・映像をまとめて作成

EdimakorのAI字幕機能は、音声から自動でテキストを起こしてタイムラインに同期した字幕を生成します。120以上の言語に対応しており、日本語ナレーションに英語字幕を付けて多言語展開する、といった使い方も手軽です。BGMはソフト内のストック音源から選べるほか、外部ファイルの読み込みにも対応しています。