【2026年最新】DeepFaceLabの使い方完全攻略!高画質設定とAI学習のコツ【実践編】

この記事を読むのにかかる時間 6

Contents

【実践編】DeepFaceLabを導入する

下記の記事では、DeepFaceLabの基本とツールの入れ方を解説しましたが、
本記事では、実際の使い方を紹介しています。
まずは、どのような素材を適すと良いのかをまとめてみました。

仕上がりの満足度を爆上げする「素材選び」5つの鉄則

AIトレーニングを成功させる最大の鍵は、GPU性能ではなく「最初の素材選び」にあります。
以下のポイントを意識するだけで、クオリティが段違いになります。

1. 【最重要】顔の輪郭・骨格が似ている人を選ぶ

これが一番重要です。

項目組み合わせの例解説・理由

良い例 (〇)

「丸顔」×「丸顔」
「面長」×「面長」

骨格が似ているため、AIは「パーツの移植」だけに
集中できます。
結果、短時間で「本物?」と疑うレベルに仕上がります。

悪い例 (×)

極端な小顔×エラ張り
「丸顔」×「面長」

骨格が違うと、AIが輪郭を無理やり歪めようとして
ボヤけたり、不自然な影ができたりします。
学習に時間がかかる上に、完成度も低くなりがちです。

結論骨格が似ている人を選ぶ

「輪郭を変える」のではなく「パーツを馴染ませる」
のがAIディープフェイクの基本です。
まずは似ている骨格の人で練習するのが一番の近道です。

2. 前髪が目にかかっていない(おでこが出ている)

「パッツン前髪」や「長い前髪」で眉毛や目が隠れている素材は避けましょう。
AIは「どこまでが髪の毛で、どこからがおでこか」を判断するのが苦手です。
合成したときに前髪がチカチカしたり、おでこに髪の毛の模様が張り付いたりする原因になります。
ベストの素材とは、「おでこを出している(デコ出し)髪型の素材」です。

3. 「メガネ」や「手」による遮蔽(しゃへい)がない

顔の前に「マイク」「コップ」「手」「メガネ」が重なるシーンは、初心者には地獄です。
AIは顔の上に物が重なると、その「物」ごと顔の一部として学習してしまい、
合成後の顔に謎のシミができたりします。
メガネキャラを作りたい場合でも、素材(src)はコンタクト(裸眼)の映像を使うのが鉄則です。

4. 角度のバリエーションが豊富(横顔・上・下)

 ずっと正面を向いているニュース映像などは、実は素材として弱いです。
合成先(dst)の動画で「横を向くシーン」があった場合、素材(src)の中に
横顔のデータがないと、AIはどう描いていいか分からず顔が崩れます。

ベストな素材は、インタビュー動画やバラエティ番組など、
いろんな方向を向いて喋っている映像と言えますね。

5. 光源(ライティング)が安定している

映画の「夜のシーン」や「クラブの点滅するライト」のような映像は避けましょう。
顔に極端な影(ノイズ)が入っていると、AIがそれを「ホクロやシミ」だと
勘違いして学習してしまいます。

ベストな素材は、明るい室内やスタジオで撮影された、
顔全体に光が当たっている綺麗な映像になります。

DRMについて

DRMとは、デジタルコンテンツの不正コピーや不正利用を防ぎ、著作権者の権利を
守るための技術や仕組みの総称になります。
近年では、この仕組みを取り入れているサイトが多く、動画配信サービスでも多く見られます。

このDRM技術が取り入れられている動画をキャプチャーしようとすると
画面が真っ暗になり取り込まれられない状況になります。

DMM(FANZA)では、ダウンロードに関してはDRM技術が用いられていますが
ストリーミングに関しては、その技術は用いられていません。

そのため、ストリーミングした状態で「Snipping Tool」の動画キャプチャー機能を使ったり
個人的に有料サービスのおすすめですが、Badicamを使用すると良いでしょう。

DeepFaceLabの動作手順を解説

作業の流れと全体像について

DeepFaceLabを動かすには、以下のステップを実行する必要があります。
例:「Aさんの映っている顔の動画」を「Bさんの映っている動画に変える場合」

1.Aさんの動画のフレーム画像を取得する
2.Bさんの動画のフレーム画像を取得する
3.Aさんのフレーム画像から顔部分の画像を取得する
4.Bさんのフレーム画像から顔部分の画像を取得する
5.余計な画像を取捨選択する
6.AIトレーニングを行う
7.融合編集を行う

では、それぞれのステップで何を作業として行うのかを見ていきましょう。

Step0.動画準備を行う

DeepFaceLabするにあたり、素材を適切な場所に移動する必要があります。
workspaceというフォルダに移動すると下記のファイルが見つかります。

ファイル名日本語での役割イメージ
data_dst .mp4

「土台」になる動画
(書き換えられる側)

お面を被らせるターゲット
完成後の背景や体はこの動画のまま残ります

data_src .mp4

「素材」になる顔
(移植したい顔)

これから誰かの顔に貼り付けるための材料
(自撮り動画や、推しの動画など)

「data_dst .mp4」と「data_src .mp4」は、元ファイルだとイーロンマスクなどのデータに
なっていますので、それらのファイルは削除するなり別ファイルに移動しておきます。
(試験的にAIで試したい人は、そのまま利用するのもありです)

自分で導入したい動画を、上記のファイル名にそのまま変えて同じ場所に入れればOKです。

管理人

初見時に、意気込みたい気持ちは分かりますが長尺動画はおすすめしません
というのも、めちゃ時間がかかるツールなので最初は5~15分程度に留めて
試験的な感じで導入することをおすすめしますよ

Step 1: フレーム画像の抽出(Extract)

まず最初に実行するファイルは、「2) extract images from video data_src.bat」
「3) extract images from video data_dst FULL FPS.bat」の2つになります。

  • 2) extract images from video data_src.bat

    • 役割: 「素材(src)」の動画を、画像に分解します。

    • ポイント: これをやらないと、AIが顔を学習できません。

  • 3) extract images from video data_dst FULL FPS.bat

    • 役割: 「土台(dst)」の動画を、全フレーム(FULL FPS) 画像に分解します。

    • ポイント: これをやらないと、AIが顔を学習できません。

これは動画を「パラパラ漫画(連番画像)」に分解する工程ですが、
黒い画面で1つだけ重要な質問をされます。

ここで迷わないための推奨設定を解説します。

実行すると、以下のようなメッセージが表示されます。

Input video: workspace\data_dst.mp4

Enter output extension ( png / jpg ) :
[png] :

ここでは、必ずデフォルトの ”png” を選択します。
jpgだとフレーム劣化するので、余程の事情が無い限りpng一択です。

フレーム画像が生成されますと、Workspece内の「data_dst」「data_src」という

フォルダの中に画像がずらりと並びます。

Step 2: 顔の抽出(Face Extract)

先ほどの工程で画像を切り抜きましたが、ここから顔のみを抽出する工程になります。
実行するべきファイルは、以下の2つになります。
それぞれ別々に実行していきましょう。

  • 4) data_src faceset extract.bat

    • 素材(src)の画像から、AIが顔を見つけて切り取ります。

  • 5) data_dst faceset extract.bat

    • 土台(dst)の画像から、AIが顔を見つけて切り取ります。

【重要】実行時に聞かれること(おすすめ設定)

このバッチファイルを起動すると、黒い画面でいくつか質問されます。
GPU性能によって、答える選択に差異はあるのですが重要な項目を解説していきます。

設定項目
(質問内容)
推奨入力値解説・理由
Device index0

GPUを選択します。
CPUではなく、グラフィックボードを使って高速に処理させる

Face typewf

「Whole Face(全顔)」の略です。
おでこから顎まで広くカバーするタイプで、
現在のDeepFaceLabの主流設定です。

Max number of faces0

「0」は自動選択を意味します。
1枚の写真に複数の人が写っていても、一番大きく写っている
(メインの)人物を自動で判別してくれます。

Image size512

【最重要】画質を決めます。
デフォルト(256)のままだとボヤけます。
VRAMの多いGPUなら「512」にすることで、
非常に高画質な素材が作れます。

Detector typeS3FD

一番精度の高い検出器です。
重い処理ですがミドルクラスPC以上の場合、これを選択
「MTCNN」は軽量だが、この後の作業のクオリティ低下します

上記以外の項目は、デフォルト設定のままでOKです。

管理人

「Image size」で 512 を選ぶのが高画質化の鍵です。
古めのパソコンでは重すぎて動かない設定ですが、
RTX 3060(12GB)以上のグラボを持つ方は
この高解像度設定が使えます。

この2つの作業が終わると、workspace フォルダの中に aligned(整列済み)
というフォルダができあがり、そこに切り抜かれた顔の画像がズラッと並びます。

この顔画像が、次の工程「AIトレーニング」で活用されます。
ただし、このまま次に進むと関係ない情報などAI学習されますので、
不必要の情報を消す工程を実施していきましょう。

Step 3: 運命の分かれ道「Sort(ソート)」とお掃除

抽出(Extract)が終わった段階で、すぐにトレーニングを開始してはいけません。
そのままだと、動画の壁や天井、自分の手などに「顔」が合成される
ホラー現象が起きてしまいます。

これを防ぐのが4.2) data_src sort.bat
5.2) data_dst sort by best.bat による「選別作業」です。

なぜ「Sort(ソート)」が必要なのか?

AIによる顔検出は完璧ではありません。 抽出した aligned フォルダの中には、
以下のような「ゴミデータ」が大量に混ざっています。

「背景の木目やシミ(顔に見えるもの)、手や指、後ろを向いている後頭部」
これらが混ざったまま合成を行うと、
AIは「この木目も顔なんだな!ここに顔を貼り付けよう!」と処理してしまいます。
これを防ぐために、「似ている画像」同士を並べて、ゴミを一括削除しやすくするのが
ソートの役割です。

この工程を行う事でAI処理が効率的になることと、ゴースト防止になります。

ここの理解が超重要です!!
混乱しやすいポイントですが、data_src(学習素材)」と「data_dst(合成先)」
ではルールが真逆
になります。

  • data_src (顔素材):

    • 画質重視。 綺麗な画像だけを選び、 のようなボケた画像は削除すべき
      (AIが「ボケた顔」を学習してしまうため)。

  • data_dst (動画素材):

    • 枚数重視。 動画として繋げるために、どんなに汚くても「顔」なら全て残します

特に迷いやすい「data_dst(合成先)」の画像の削除判断は、以下を参考にして下さい

画像の状態判断理由

鮮明な顔

残す文句なしに合成が必要です。

ピンボケ・激しいブレ

残す削除すると、その瞬間だけ合成が外れてしまうため。
AIはボケた顔なりに頑張って貼り付けてくれます。
横顔・下向き残すちゃんと顔として認識されているなら残します。
手・木目・壁・カーテン消すこれが「ゴミ」です。壁に顔が貼り付くのを防ぐために削除
全く関係ない人の顔消す「後ろを歩いている通行人」など、
合成したくない他人の顔なら削除します。
管理人

この工程で、不必要だと思い込み消した画像の部分が足りない場合、
点滅(フリッカー)と呼ばれる動画がちらつく原因になってしまいます

手順①:バッチファイルの実行

DeepFaceLabフォルダにある 5.2) data_dst sort by best.bat を実行します。
ファイル名はバージョンにより sort by histsort by similarity などの
場合もありますが、「sort」とあればOKです。

基本的には、画面で推奨されている[5] (histogram similarity) を選んでください。
(数字の 5 を入力してEnter、または何も入力せずEnterを押すと 5 が選ばれます)

「似たような画像」を隣同士に並べてくれる機能です。
data_dst(合成先)のゴミ掃除では、「背景のカーテン」や「自分の手」が
何十枚も連続して誤検出されている
ことがよくあります。
このモードでソートすると、それらのゴミが一箇所に固まって並ぶため、
マウスで一気に選択して削除するのが非常に楽になります。

もし「ゴミ掃除」だけでなく、「ピンボケしている顔」も一緒に整理したい場合は、
[13] を選ぶのもアリです。
個人的におすすめの手順は、【5】→不要なファイルの削除→【13】→ピンボケ削除です。
ただ、【13】は思いの外に少しでもピンボケも勝手にソートして別フォルダに入れるので
【13】を実行するのは、ある程度慣れてきたらが良いでしょう。

次の工程でピンボケ画像など不適切な画像を任意で消すことも可能です。

「data_src(学習素材)」は、学習させたくない顔素材はガンガン削除して良いですが
「data_dst(合成先)」の削除は慎重に行ってください。

手順②:ゴミ画像の削除(お掃除タイム)

ここからの作業はご自身の目で確認することが必要な作業です。

workspace > data_dst > aligned フォルダを開きます。
画像の並び順が変わっていますので「best」でソートした場合、フォルダの最初の方や最後の方に、
「明らかに顔じゃない画像」「真っ暗な画像」が固まっているはずです。
それらのゴミ画像をすべて選択して、削除(Delete)してください。

横顔すぎるものや、ピンボケが激しいものも消しておくと、仕上がりが綺麗になります。
そのため、複数人物の動画で望まない顔写真は、任意で選んで破棄すると良いです。

train SAEHD の選択(Quick96との違い)

AIトレーニングの段階になると、GPU差が大きく分かれる段階と言えます。
基本的には、「train SAEHD.bat」を実行させて学習させていきます。
その上の「train Quick96.bat」は、GPU性能がさほど良くない時に使うファイルです。

  • VRAM 6GB以上(推奨): 間違いなく SAEHD を使ってください。画質が雲泥の差です。
    6GBでもエラーで使用できない可能性もあります

  • VRAM 4GB以下: SAEHDだとメモリ不足でエラーが出るか、PCが固まります。
    Quick96 なら動きます。

実行画面について解説していくと共に、重要な解像度とバッチサイズの話をしていきます。

このツールの中でAIトレーニング実行中は、GPUのVRAMの大半を使い切ります。
仮に高性能PCであってもVRAMの残りは余裕はほぼ無いという認識でいましょう。
ツール回して3Dゲームなんて実行しても、たいていは動作しません(クラッシュします)。

ちなみに「Crtl + Shift + Esc」キーを同時押しでGPU含めた現在のPC稼働状況が
リアルタイムで確認できます。

▼からわかるように、ある程度の負荷をかけたAIトレーニング中では、
8割以上はGPUのVRAM容量を持っていきます

[重要] 解像度(Resolution)とバッチサイズ(Batch_size)の関係

DeepFaceLabで高画質な動画を作りたい時、避けて通れないのが
「黒い画面(コマンドプロンプト)」での数値入力です。
今回は、最も重要な「解像度(画質の良さ)」と「バッチサイズ(学習の安定性)」が、
どのタイミングで聞かれるのかを実際の画面と共に解説します。

解像度は、「6) train SAEHD.bat」 を起動し、新しいモデル(New model)
作成する時にだけ聞かれます。
※ここで設定した解像度数値は、後から変更できないので要注意です!

モデル名を入力し、GPUを選択した直後に、以下のメッセージが表示されます。

===================================================
Choose one of saved models, or enter a name to create a new model.
[0] : new – latest
: (新しいモデル名を入力)

Choose one or several GPU idxs (separated by comma).
[CPU] : CPU
[0] : NVIDIA GeForce RTX 3060
: 0 (GPUを選択)

…(中略)…

Resolution ( 64-640 ) [128] :
===================================================

解像度のポイント!

  • Resolution ( 64-640 ) [128] :

    • 意味: 「AIの画像の細かさを 64~640 の間で決めてね。(何も押さなければ128にするよ)」
    • 入力例: 高画質を目指すなら 256448 と入力してEnterを押します。
    • 注意: ここでEnter連打して飛ばしてしまうと、勝手に低画質の「128」で固定されてしまいます!
画質と解像度(px)の目安表

基本ルールとして、「16の倍数」または「32の倍数」を選んでください。

解像度 (px)画質レベル用途・イメージ16/32の倍数?
128低画質モザイクに近い。動作テスト用。◯ (32の倍数)
224SD画質スマホ画面なら綺麗に見える。学習が速い。◯ (32の倍数)
256DVD画質現在の設定。バランスが良い標準的な画質。◯ (32の倍数)
320HD画質おすすめ。PCで見ても粗さが目立たない。◯ (32の倍数)
352HD+画質320より少し上。実写感が強まる。◯ (32の倍数)
448FHD画質プロ級。毛穴や産毛まで再現可能だが重い。◯ (32の倍数)
512超高画質4K動画向け。非常に重く、学習難易度が高い。◯ (32の倍数)
管理人

この解像度の項目ですが、GPU性能によって高解像度を選んでも
コマンドプロンプト画面で先に進めずAIトレーニングが開始されない
という事象もあるあるネタではあります

バッチサイズ(Batch_size):起動するたびに変更可能

PC安定性に関する重要な項目がバッチサイズというものになります。
バッチサイズは、一度にAIが読み込む画像の枚数です。
これはモデルを新規作成する時だけでなく、「学習を再開するたび」に毎回聞かれます。

実はこれ、「AIの学習速度」と「エラー落ち(強制終了)」を左右する、
もっとも重要な数字なのです。

バッチサイズ = 「一度に解く問題の数」

AI(GPU)を「受験生」、学習データ(画像)を「過去問」だと思ってください。
AIはこの過去問を何十万回も解いて賢くなっていきますが、
その時の「勉強スタイル」を決めるのがバッチサイズです。

① バッチサイズが小さい場合(例:Batch 4)
  • スタイル: 「4問解く → 答え合わせ → 4問解く → 答え合わせ…」

  • 特徴:

    • 机の上(メモリ)が散らからないので、狭い机(低スペックPC)でも勉強できる。

    • こまめに答え合わせをするので、一歩ずつ着実に進む。

    • ただし、何度も答え合わせの時間が挟まるので、全体の進みは遅い。

② バッチサイズが大きい場合(例:Batch 32)
  • スタイル: 「32問まとめて解く → 一気に答え合わせ!」

  • 特徴:

    • 答え合わせの回数が減るので、学習スピードが爆速になる。

    • 一気に進むので効率が良い。

    • 【超重要】 ただし、32枚のプリントを広げるための「巨大な机(VRAM容量)」が必要

モデルの読み込み(Loading…)が終わった後、設定オプションの最後の方でひっそりと登場します。

Loading model…
…(中略)…

[0] Autobackup every N hour ( 0..24 ?:help ) :
[n] Write preview history ( y/n ?:help ) :
[0] Target iteration ( ?:help ) :
[n] Flip faces randomly ( y/n ?:help ) :

Batch_size ( ?:help ) [16] :

バッチサイズのポイント!

  • Batch_size ( ?:help ) [16] :

    • ここがPCの安定性を決める設定です。

    • 意味: 「一度に何枚処理する?(前回の設定は16だったよ)」

    • 入力例:

      • エラーで落ちる場合 → 数字を 小さく する(例:4, 8)

      • もっと速く学習させたい場合 → 数字を 大きく する(例:24, 32)

    • コツ: 何も入力せずにEnterを押すと、前回の続きの数値([ ]内の数字)がそのまま使われます。

「解像度」と「バッチサイズ」の反比例表

解像度(画像の面積)を上げると、VRAM(メモリ)を爆発的に消費するため、
バッチサイズ(一度に運ぶ量)を減らす必要があります。

RTX 5070 Ti での推奨設定目安

解像度推奨バッチサイズ (Batch_size)学習の安定性
128 px32 ~ 64超安定。爆速で進む。
256 px16 ~ 24安定。(現在の設定はココで正解です)
320 px8 ~ 12普通。ここまでは実用的。
352 px6 ~ 10やや不安定。たまにエラーが出るかも。
448 px4 ~ 6ギリギリ。メモリ不足エラーが出やすい。
512 px2 ~ 4困難。学習が進まない(振動する)可能性大。

コマンドプロンプト画面まとめ:この2行だけは見逃すな!

黒い画面の文字は読み飛ばしがちですが、以下の2行だけは「探す癖」をつけましょう。

  1. Resolution (モデルを作る最初の一回だけ!)

    • → 画質そのものを決める。高いほど高画質。

  2. Batch_size (起動するたび調整可能!)

    • → エラーが出るか出ないかを決める。解像度を上げたら、ここは下げる。

この2つの関係(シーソーの関係)を理解すれば、あなたのPCスペックを限界まで
引き出した高画質モデルが作れるようになります!

管理人

上記以外の項目は、基本的にはデフォルト設定でOKです

コマンドプロンプト画面の見方

AIトレーニングを実行すると、コマンドプロンプト最後の方に
▼のような数値が表示されます。

この数字の羅列は、AIの「現在の成績表」です。
「一番右側の2つの数字(Loss値)が下がるのを見守る画面と言えます。
詳しい項目は、以下のようになっています。

項目表示例意味・解説
時刻[09:51:01]

現在の時間を示します

反復回数(Iterations)

[#027927]

これまでの学習回数です。
表示例の現在回数は「約2万8000回」です。
ここが「300,000(30万回)」になるのが一つのゴールです。

処理時間(Speed)

[0456ms]

1回の勉強にかかった時間(ミリ秒)です。
この数字が小さいほど「PCがサクサク処理している」証拠です

Loss_src(素材の成績)

[0.3044]

「素材(src)の顔」をどれくらい正確に覚えたかの逆スコア
「0」に近いほど優秀です。
最初は0.5くらいから始まり、学習が進むとどんどん下がります

Loss_dst(土台の成績)

[0.3776]

「土台(dst)の顔」をどれくらい正確に覚えたかの逆スコア
こちらも低いほど優秀です。
一般的に src よりも少し高い数値になりがちです

続いて、プレビュー画面では▼のような現在の学習状況が画像で表示されます

名称内容
試行回数現在のAIトレーニング試行回数が表示される
学習グラフ学習状況がグラフで表示される
右側の波が下にいきなだらかになると学習度が高いこと示す
完成状態現在のAIトレーニングでの完成状態が表示される
この画像が満足できるものなら次の工程に進んでも良い

このプレビュー画面でキーボード「P」を押すと更新されますので、
仕上がり状況を都度確認することができます。

「Enterキー」を押すと、それまでの内容を保存して終了します。

いつ終わればいい?(学習完了の目安)

AIトレーニングで何回を目指すべきか?

AIトレーニングは、何回ぐらいが実用範囲になるレベルかですが、
「30万回(300,000 iterations)」 が一つの目安になります。
ただし、AIの学習において「回数」はあくまで1つの目安でしかありません。

AIトレーニング回数比較表
回数 (Iterations)状態実用の可否
0 〜 50,000ボヤボヤ不可。誰だかわかる程度ですが、顔が溶けたように見えます。
10万回形になるギリギリ。スマホの小さい画面で見るならバレないレベル。
目はハッキリしてきますが、歯や舌がまだ怪しいです。
30万回実用レベル合格。細部(シワ、歯の形、瞳の光)が再現されます。
YouTubeなどで公開しても違和感が少ないレベルです。
50万回以上神レベルプロ級。これ以上回しても変化がわからなくなる領域(収束)です。
徹底的にこだわりたい場合のみ目指します。

クオリティチェック表

回数が少なくても、以下の3点がクリアできていれば学習を止めてOKです、
逆に、100万回回してもここがダメなら学習不足です。

Loss値(数字)だけでなく、最終的には「人間の目」で以下のポイントを確認して判断します。

学習完了の目安:クオリティチェック表
チェックする場所合格ライン(OK)学習不足・失敗(NG)解説
1. 「目」の輝き黒目の中に「白い光の反射」がクッキリ入っている。全体的にボヤけていて、「死んだ魚のような目」に見える。目は「顔の命」です。ハイライト(光)が入るだけで一気に生きた人間らしくなります。ここがボヤけているうちはまだ止めないでください。
2. 「歯」の分離歯が一本一本、独立して分かれて見える。

「白い一本の棒」が入っているように見える。
(マウスピースをしている状態)

AIにとって「歯」の描写は難関です。最初は白い塊として描かれますが、学習が進むと歯の隙間が描画され始めます。
3. プレビュー比較「一番左(本物)」と見比べて、ホクロやシワまで瓜二つに見える。遠目で見ると似ているが、並べて見るとディテール(細部)が甘い。プレビュー画面の「一番左(正解データ)」と「右側の生成結果」を見比べます。パッと見で区別がつかなくなったら卒業(学習終了)です。

最後にLoss値(グラフの数値)を見ることが大事です。
目指すべき数値: 0.10000.2000 程度

設定や素材によって変わるので絶対ではありませんが、この数字が下がらなくなって、
横ばい(平らなグラフ)になったら「これ以上勉強しても伸びないよ」という合図です。

管理人

自分の場合は、15万~20万回数ぐらいが1つの分岐点にしています。
プレビュー画面で、まぁまぁの出来ならとりあえず次の工程に移行して
仕上げを見て、さらにAIトレーニングを回すか判断しています

寝ている間にAIトレーニング?

AIトレーニング中は、かなりの時間を要するためPCを使用していない時に
回しておきたいところです。
外出や寝ているときにAIトレーニングを回すと良いですが、注意点としては
WindowsスリープモードになるとAIトレーニングも停止するということです。

つまり、スリープモードを解除しておかないと、PC操作していない時に
勝手にスリープモードになってしまいAIトレーニングも解除されますよ。

一応、このツールには自動保存機能が搭載されており、10~15分おきに
AIトレーニングの内容は保存されます。
そのため、すべて学習が消えるということは基本的には起こり得ません。

【最終工程】合成(Merge)の完全攻略

AIが十分に賢くなったら、いよいよ最後の仕上げ「Merger(マージ)」を行います。
これは、学習した「AIの顔」を「元の動画」に貼り付けて、
違和感がないように馴染ませる作業です。

ここで肌の色合わせや、輪郭のボカシ具合を調整します。
料理で言うところの「盛り付け」です。
ここが雑だと、いくら味が良くても(学習結果が良くても)台無しになります。

DeepFaceLabフォルダにある 7) merge SAEHD.bat を実行します。
(※Quick96で学習した場合は 7) merge Quick96.bat です)

黒い画面でいくつか設定を聞かれますが、基本的には以下のように進めてください。

  1. Model name: 学習させたモデル名を入力(または選択)。

  2. Device index: GPUを選択(0 を入力)。

  3. Use interactive merger? :

    • ここが重要です。必ず y (Yes) を選んでください。

    • 画面を見ながら手動で調整するモードに入ります。

起動すると、「操作ヘルプ画面」と「プレビュー画面(顔が表示されている画面)」が開きます。
▼の操作ヘルプ画面ですが、この画面でTabキーを押すことでプレビュー画面が表示されます。

プレビュー画面では、自分の作成したAI挿げ替えの画像みたいなものが表示されます。
この中で、顔の割合や色使いなどのを調整していきます。
下記のキー項目をまずは理解しておけば、大半の操作は問題ないと言えます。

必須ショートカットキー一覧
キー機能使いどころ・効果
Wマスクを縮小 (Erode)最重要。 輪郭がガタガタしている時、これを数回押してマスクを一回り小さくします。
Sマスクを拡大W で小さくしすぎた時に戻す用です。
E/D境界線をぼかす (Blur)最重要。 顔のフチをフワッとさせて、肌に馴染ませます。
これを押さないと「お面」感が消えません。
C肌の色を変える (Color)押すたびに計算式(rct, lct, mklなど)が変わります。
首の色と顔の色が一番馴染むものを選びましょう。
. (ピリオド)次のコマへ進むパラパラ漫画のように1コマ進めます。
調整した設定がズレていないか確認する時に使います。

【最重要】ここを知らないと終わらない!「自動処理」

初心者が一番ハマる罠が、
「矢印キーで1コマずつ進めて、数万フレームを手作業でやろうとして断念する」ことです。
実は、「設定をコピーして、あとは全自動」にするコマンドがあります。

手順①:設定を全フレームにコピーする

最初の顔が良い感じに調整できたら、
キーボードの Shift キーを押しながら / (スラッシュ/?) キー を押します。

これで「今のマスクの大きさや色設定を、最後のフレームまで全部適用しろ!」
という命令になります。

手順②:自動運転スタート

次に、Shift キーを押しながら > (ドット/.) キー を押します。

すると、プレビュー画面がパラパラと動き出し、自動処理モードに入ります。

自動処理が始まると、プレビュー画面が消えて、コマンドプロンプト(黒い画面)だけになり、
以下のような表示が出ます。

Merging: 1% | 500/99342 …

「えっ、画面が消えた!エラー?」と焦るかもしれませんが、これは正常です。
PCが合成処理に全力を出すために、画面表示をオフにした状態です。

この状態になったら: キーボードには触らず、100%になるまで放置してください
(動画の長さによっては数時間かかります)。

100%になったら: 最後に Esc キー を押せば保存完了です。

これで、workspace > data_dst > merged フォルダの中に、
合成された画像データが生成されました。

管理人

もし手や髪の毛が顔にかかって変になる場合は、上級テクニック
『XSeg』という作業工程が必要になります(別記事で後日、解説予定)

動画ファイルとして完成させる

ようやく本当の最終工程になります、お疲れ様でした。
ここからの作業は、簡単になりますので、もう少し頑張りましょう。

最後に、バラバラの画像を1本の動画(MP4)にまとめます。 音声もここで合成されます。

  • 8) merged to mp4.bat を実行します。

  • Bitrate (ビットレート):

    • 画質を決めます。デフォルト(数字を入力せずEnter)でも良いですが、
      高画質に残したい場合は 1016 くらいの数値を入力すると良いでしょう。

  • 処理が終わると、DeepFaceLabのフォルダに result.mp4 というファイルが生成されます。

これにて、DeepFaceLabの全工程が完了です!お疲れ様でした!
完成した動画を再生して、AIが作り出した魔法のような映像を楽しんでください。

初心者は絶対に見るべき!!失敗しても損を回避する戦略

DeepFaceLabを最初から、「絶対に高画質で成功させる!!」
という想いで挑まないほうが良いツールだと思います。
というのも、PCマシンによって要する時間はまちまちですし、そもそも高いマシンスペック
だったとしても数十分の動画をある程度のクオリティのものに仕上げるのに
半日~数日はかかります。

それよりかは、まず1回目は自分のPCで、ある程度低い解像度であったとしても
どれぐらいのクオリティのものが完成できるのかを体感する方が大事です。

個人的には、最初の制作は5分未満の素材を利用するのが良いです。
失敗しても、時間的に換算してもダメージが少ないです。

私がここまで「短い動画でのテスト」を推すのには、失敗のリスクを減らす以外にも
理由があります。 それは、「AIとの相性(ゴールデンペア)」を見つけるためです。

DeepFaceLabは、どんなにハイスペックなPCを使っても、
「素材の顔」と「動画の顔」の骨格レベルの相性が悪ければ、絶対にクオリティは上がりません。
これを確かめるには、実際に回してみるしかないのです。
個人的な体感になりますが、15万回してプレビュー画像で微妙なら、それ以上回して
30万回になろうが、50万回になろうが、その微妙な感じが覆わることはないですね。

  • 30分の動画で相性が悪いと判明した場合:

    • 被害:数日間の電気代とPCの消耗、そして折れそうな心。

  • 3分の動画で相性が悪いと判明した場合:

    • 被害:数時間程度のロス。「はい、次の素材!」とすぐに切り替えられる。

まずは質より量(回数)をこなして、「この女優とこの動画は相性が良い!」
という勝ちパターンを見つけることが、上級者への近道です。
ダメだと思ったら、すぐに学習を停止する
「損切りの勇気」を持ってくださいね。

初心者おすすめ作業

先ほど解説しました ”仕上がりの満足度を爆上げする「素材選び」5つの鉄則”
を踏まえて上で、「正面が中心になっているような」素材をいくつか用意します。

3~5分程度の短めの素材を利用して3~5本程度のAI動画を作ります。
ここで大事なのは、どの動画がどれぐらい学習させると完成度が高い動画に
なるのかを自身で把握することです。

だからこそ、短い動画で5本程度を仮に作ってみて良かったら、
その素材の路線で攻める戦略をとった方が効率的と言えます。

管理人

以前、30分ぐらいの動画を素材を吟味せずに作成して結果
仕上がりが微妙なのに数十時間無駄に費やしたという苦い思い出があります
そのようなことを避けるために上記手順は大事ですよ

成功したモデルは「資産」になる

短い動画で作ることのメリットは、失敗のリスク回避だけではありません。

 もし、3分のテスト動画で「神クオリティ」のAIモデル(脳みそ)が出来上がったら、
それは捨てずに取っておきましょう。

その「賢くなった脳みそ」を使って、次は本番の長編動画に挑んだり、
似たようなアングルの別の動画に適用したりすることで、
「イチから学習する時間を大幅にショートカット」できます。
小さな成功を積み上げて、最強のモデル(資産)を育てていく感覚で進めましょう。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

ABOUT US
管理人
ブログ初心者向けサイト「ブログ×ビギナー」、略して "ブロビギ” を運営しています。初心者の登龍門と言える月1万円を達成できる方法を、初心者の視点を重視しながら徹底的に解説している記事を重点に書いています。 複数サイトで月間PV 100万達成。得意分野はWEBマーケティング、人材育成。ビジネス書は1000冊以上の読んだことがある読書家でもあります。