AI動画ツールがどんどん進化するなか、「本人の声を使って動画を作れる」ということをご存じでしょうか?
今回は、ElevenLabsとDomoAIを使って、実写風のリップシンク動画を作成した体験レポートをお届けします。
料金も手頃で、想像以上に手軽に始められるため、企業のプロモーション動画や社内コンテンツの制作にも十分活用できる可能性があります。
映像にセリフを合わせる「リップシンク」とは
リップシンクとは、映像の中の人物がセリフに合わせて口を動かすように映像を調整する技術のことです。
もともとは映画や音楽PVなどのプロの制作現場で使われていた技術ですが、AIツールの普及により、一般のユーザーでも手軽に「本人映像 × AI音声」のリップシンク動画を作れるようになってきました。
活用シーンとしては、以下のようなケースが考えられます。
- SNS向けのプロモーション動画
- 社内向けの教育・研修コンテンツ
- 商品やサービスの紹介動画
- イベント告知や社長メッセージの発信
従来であれば、撮影スタジオやプロのナレーターを手配する必要がありましたが、AI動画ツールを使えば、テキスト入力だけで自然な音声と映像を組み合わせた動画を生成できます。
コスト削減とスピードアップの両立が期待できる手法として、注目が高まっています。
今回使ったツール:ElevenLabs・DomoAI・ナノバナナについて
今回のリップシンク動画制作で使用したのは、以下の3つのAIツールです。
それぞれの役割と特徴を簡単にご紹介します。
| ツール名 | 概要 | 特徴 |
|---|---|---|
| ElevenLabs | AI音声生成ツール | テキスト入力で自然な音声を生成。本人の声の学習も可能。月額7ドル〜で導入しやすい |
| DomoAI | 動画生成・変換AIツール | 静止画+音声からリップシンク動画を生成。動画編集の専門知識がなくても利用可能 |
| ナノバナナ | AI画像生成ツール | 実写風の人物画像を生成。動画のベース素材づくりに最適 |
実写風AI動画の作り方:ナノバナナ → ElevenLabs → DomoAIの手順
今回の制作フローは、以下の3ステップです。
ステップ1:ナノバナナで画像を作成
まず、動画のベースとなる実写風の人物画像を生成します。
プロンプトを工夫すると、目的に合った表情やポーズの画像を作れます。
ステップ2:ElevenLabsで音声を作成
次に、セリフとなるテキストを入力してAI音声を生成します。
デフォルトで用意されたAI音声を使う方法と、本人の声をアップロードして学習させる方法の2通りがあります。
ステップ3:DomoAIでリップシンク動画を生成
最後に、ステップ1の画像とステップ2の音声をDomoAIに読み込ませ、口が動くリップシンク動画に仕上げます。
この3つのツールを順番に使うだけで、撮影なしで実写風のリップシンク動画が完成します。
【関連記事】AI動画生成ツールの比較や選び方については、下記の記事で詳しく解説しています。
実際に使ってみて感じたこと|音声クオリティはどうだった?
ElevenLabs内のAI音声について
ElevenLabsにはあらかじめ用意されたAI音声が複数収録されており、テキストを入力するだけで音声を生成できます。
デフォルトの音声でも声の抑揚や滑らかさはかなりのクオリティで、ビジネス用途のナレーションとしても違和感なく使用できるレベルです。
初めてAI音声ツールを使う場合は、まず既存のAI音声から試してみることをおすすめします。
テキストを入力して生成するだけなので、数分で結果を確認できます。
本人音声をアップロードしてみた結果と設定ポイント(V3設定がおすすめ)
ElevenLabsには、本人の音声をアップロードして声を学習させる機能も搭載されています。
今回はこちらの機能も試してみました。
設定は「V3」にするのがおすすめです。
V3は最新の音声合成モデルで、より自然なイントネーションを再現できます。
ただし、完成度はアップロードする素材の質に大きく左右されます。
録音環境やマイクの品質、話し方の安定性などが影響するため、デフォルトのAI音声のほうが精度が高く感じられるケースもありました。
クオリティにこだわる場合は素材の収集や調整に一定の工数がかかるため、用途に応じてデフォルト音声と使い分けるのが現実的です。
ElevenLabsを使う際のポイントまとめ
- 設定は「V3」を選択するのがおすすめ
- 本人音声の精度は素材の質に依存する
- 手軽に始めたい場合はデフォルト音声で十分なクオリティが得られる
- 本格的に本人音声を活用する場合は、録音環境の整備も検討する
まとめ:手軽に始められるAI動画制作を、業務にも取り入れてみては
ElevenLabs・DomoAI・ナノバナナの3つのAIツールを組み合わせて、実写風のリップシンク動画を作成する方法をご紹介しました。
ポイントを振り返ると、以下のとおりです。
- ElevenLabsは月額7ドル〜と手頃な価格で、高品質なAI音声を生成できる
- DomoAI・ナノバナナとの組み合わせで、撮影なしで本格的なリップシンク動画を制作可能
- デフォルトのAI音声でもビジネス用途に十分対応できるクオリティ
- 本人音声を使う場合は、素材の質と設定(V3推奨)がポイント
AI動画ツールの進化は目覚ましく、以前はプロの制作会社に依頼するしかなかった動画コンテンツも、自社内で手軽に制作できる時代になりつつあります。
「動画制作のハードルが高い」と感じていた方も、まずは今回ご紹介したツールの無料プランや低価格プランから試してみてはいかがでしょうか。
社内コンテンツやSNS発信など、さまざまなシーンでの活用が期待できます。
コメント