SadTalkerの使い方を解説!Stable Diffusion Web UI(AUTO1111)から利用する。

SadTalkerとは?静止画を音声に合わせて話している動画へ変換する技術

SadTalkerは1枚の顔の画像から音声に合わせて口を動かして話している動画を生成する技術です。Stable Diffusionとは独立に開発された技術ですがStable Diffusion Web UIの拡張機能が用意されています。

SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
Generating talking head videos through a face image and a piece of speech audio still contains many challenges. ie, unna...

SadTalkerをお試しで使う場合

SadTalkerはデモが無料で公開されているので試しに利用してみたい場合は次のデモを見てみるのも良いでしょう。

SadTalker - a Hugging Face Space by vinthony
Discover amazing ML apps made by the community

SadTalkerを利用する事前準備

今回はStable Diffusion Web UIからSadTalkerを利用します。もしStable Diffusion Web UIがインストールされていない場合は次の記事を参考にインストールしてください。

拡張機能のインストール

SadTalkerの拡張機能をStable Diffusion Web UIにインストールします。拡張機能をインストールするタブへ移動します。SadTalkerを検索してインストールします。

Installedタブへ切り替えてSadTalkerがインストールされていることを確認して再起動します。

モデルファイルのダウンロード

SadTalkerを利用するにはモデルファイルなどが必要となります。次のGoogle Driveからすべてのファイルをダウンロードしてください。全部選択してダウンロードするとファイルをまとめてダウンロードすることができます。ただしfacevid2vid_00189-model.pth.tarだけはファイルサイズが大きいせいか単体でダウンロードする必要があるのでこちらもダウンロードしましょう。

sadtalker_checkpoints - Google ドライブ

FFMPEGのインストール

最後にFFMPEGをインストールします。FFMPEGは動画や音声を変換するためのツールで、オープンソースです。元々はLinux系OSのために作成されたツールですが、Windows版もあります。次のリンクからffmpeg-master-latest-win64-gpl.zipをダウンロードしてください。

Releases · BtbN/FFmpeg-Builds
Contribute to BtbN/FFmpeg-Builds development by creating an account on GitHub.

ファイルを解凍します。次のようにファイルが解凍されます。このフォルダをffmpeg-master-latest-win64-gplからffmpegというフォルダ名へ変更します。

ffmpegをProgram Filesは以下に配置します。

最後にffmpegにパスを通します。「環境変数を編集」というメニューを開きます。(Windowsの画面下部の検索から検索してください。コントロールパネルから開くこともできます。)。開いたら環境変数をクリックします。

環境変数の画面が開きます。Pathを選択して編集をクリックします。

すると次のようなウィンドが表示されるので新規でffmpegのパス(“C:\Program Files\ffmpeg\bin”)を入力します。

SadTalkerで動画を作成する

SadTalkerの使い方は次の通りです。もしStable Diffusion Web UIが起動中でしたらFFMPEGのパスが読み込まれてない可能性が高いので一度停止して起動してください。

  1. SadTalkerタブへ移動します。
  2. 人の顔が映っている画像をセットします。全身画像などでも顔画像を認識してくれるので大丈夫です。
  3. 会話が含まれている音声をセットします。
  4. “Generate”をクリックして動画を生成。少し時間がかかります。

入力画像

音声ファイル(Voicevoxで音声データを作成しました。)

生成した動画ファイル

コメント