PR

【Wan2.2】ローカルで動画生成AIを動かしてみよう!5BやQ4の14Bなど!windwos環境/ComfyUIでのやり方を紹介

Rintaが書いた

皆さんこんにちは!
今回は、wan2.2をwindwos上で動かして使い方を見ようという記事でございます。
このサイトを更新するのは色々忙しくて2ヶ月ぶり。夏休みなのでもうちょっと更新頻度高くしたいですね。
早速行っていきましょう!

スポンサーリンク
スポンサーリンク
スポンサーリンク

Wan 2.2ってなんぞや

wanはAlibabaが出した動画生成AIです。Alibabaといえばqwenシリーズを出しているところですね。
ちょっと前に動画生成AIといえばframe packが話題になりましたが、技術の力でこっちのほうが”動画っぽい動画”を作り出せます。frame packはフレームを生成してった感が個人的にはあったので。
特徴としては、

  • 高品質な動画生成: Wan 2.2は、1080pのネイティブ動画を生成でき、シネマティックな美しさを持つ映像を作り出します。特に、複雑な動きやカメラワークをスムーズに再現することができます。
  • Mixture-of-Experts (MoE) アーキテクチャ: このアーキテクチャにより、動画生成の精度が向上し、ノイズの多い部分と少ない部分をうまく処理できます。これにより、よりリアルで詳細な映像が得られます。
  • 多様な生成モード: テキストから動画(T2V)や画像から動画(I2V)の両方に対応しており、クリエイターは柔軟に使い分けることができます。
  • 簡単な操作: ComfyUIというインターフェースを使って、直感的に操作できるため、初心者でも扱いやすいです。

環境

必須スペック

GPU:5Bモデル: 最低16GBのVRAMが必要。14Bモデル: 最低24GBのVRAMが必要。

RAM:最低でも16GBのRAMが推奨されますが、32GB以上が理想的です。

ストレージ:各モデルファイルは数GBから10GB以上のストレージが必要です。特に14Bモデルは高ノイズ・低ノイズの2ファイルが必要です。

推奨スペック

GPU:5Bモデル: RTX 3060以上(16GB VRAM推奨)。14Bモデル: RTX 4090やA100などの高性能GPU(24GB VRAM推奨)。
RAM:64GB以上が理想的で、特に複数のモデルを同時に使用する場合や高解像度の動画生成を行う場合には、より多くのRAMが役立ちます。

今回は5Bモデルを動かしていこうと思います。多くの人の環境に適していますし、私の環境では5Bしかできないので。
なお、おまけとして量子化してq4でvram16GBで14Bを動かしてみます。

私の環境は、

・GPU:RTX5070ti(vram16GB)
・RAM:96GB
・CPU:Ultra7 265k
・OS:Windwos11

といったものです。1年間バイトして買った自慢の30万PCです。

やっていこう!

とりあえず、ComfyUIというものを動かして行きます。

GitHub - comfyanonymous/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.
The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface. - comfyanonymous/ComfyU...

上記のURLからGithubに飛んでいただいて、「Direct link to download」を押してComfyUIをDLしてください。まあまあ重かったと思います。

インストールできたら、適当に7zを解答して「run_nvidia_gpu.bat」もしくは「run_nvidia_gpu_fast_fp16_accumulation.bat」(軽量化する代わりに品質は落ちる)を実行しましょう。
私は後者を選びます。LLMでFP16と言ったら元モデルと変わらないレベルなので軽くなってお得です。

そしたらブラウザでUIが開いて、テンプレートが開くので「ビデオ」→「Wan2.2 5B~」を選択しましょう。


開かなかった場合は下記参照

そうしたら、必要なファイルを教えてくれるのでそこからダウンロードします。

できたら、表示通りにファイルをディレクトリに配置しましょう。
(E:直下に解凍した場合、”wan2.2_ti2v_5B_fp16.safetensors”は”E:\ComfyUI_windows_portable\ComfyUI\models\diffusion_models”に配置する。)

テンプレを消してしまった場合

左上の「ワークフロー」→「テンプレートを参照」を押しましょう。

ダウンロードURLを消してしまった場合

URLは、上から(直リンクなのでhttpsは省略させていただきます)

huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/diffusion_models/wan2.2_ti2v_5B_fp16.safetensors?download=true

huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/vae/wan2.2_vae.safetensors?download=true

huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors?download=true

で、ファイル構造は以下のとおりです。

使っていこう

なんかうわーって色々あると思います。

とりあえず、カーソルでぐぐぐってして、プロンプトをいじってみましょう。
上がプロンプト、下がネガティブプロンプトです。

設定

画像の例:アニメ風のイラストや写真風の画像を生成したい場合

ステップ (steps)

20 → 30~40 に増やす。

ステップ数を増やすと、画像がより詳細になり、クオリティが高くなる傾向があります。ただし、その分生成時間は長くなります。

cfg (Classifier-Free Guidance)

5.0 → 7.0~10.0 に増やす。

CFG値を増やすと、プロンプトに忠実な画像が生成されやすくなります。ただし、上げすぎると画像の雰囲気が不自然になったり、ノイズが増えたりすることもあります。

写真風の画像なら5.0〜7.0、アニメやイラストなら7.0〜10.0あたりがよく使われます。

サンプラー名 (sampler_name)

uni_pc → euler_a (Euler Ancestral) や dpmpp_2m_sde_gpuに変えてみる。

サンプラーの種類によって、画像の雰囲気やディテールが大きく変わります。

Euler A は、イラストやアニメ調の画像でよく使われる人気のサンプラーです。

dpmpp_2m_sde_gpu は、高品質な画像を生成しやすいと評判のサンプラーです。

スケジューラ (scheduler)

simple → karras (Karras) や sgm_uniform (SGM Uniform) に変えてみる。

スケジューラもサンプラーと合わせて、画像生成の雰囲気を変える重要な設定です。

Karras は、よりクリアで高品質な画像が出やすいとされています。

生成!

ネガティブプロンプトはデフォルで、プロンプトはこんな感じにしました。

銀色の短い髪と輝く青い目を持つ美しい少女魔法使い、精巧な金色の鎧、強力な稲妻が脈打つ杖を振り回し、巨大な魔法のビームを放ち、岩と溶岩でできた巨大で恐ろしいゴーレムと戦う、壮大な爆発、火と火花、空中に飛び散る破片、背景には破壊された古代の城、ドラマチックなボリュームのある照明、シャープなフォーカス、詳細な表情

右下のこいつ押すと実行できます。

体感10分くらいかな?
リソースはシンプルに食ってました。RAMの方も10GBほど。
とか書いてたらラストスパートで20GB持ってった。

動画ファイルはComfyUI_windows_portable\ComfyUI\output\videoにあります。
処理後↓

思っとった感じにはならなかった。
もっとシンプルなプロンプトのほうがいいかも。

おまけ!

はい。試験的にやってみたことです。
皆さんはggufというものをご存知でしょうか。LLMとか触っていたら知っていると思いますが、なんかいい感じの形式のAIモデルのことです。
そして量子化という技術もあります。
それらを使って、14Bモデルを16GBのVRAMで動かしてみよー!って感じの試みです。

QuantStack/Wan2.2-T2V-A14B-GGUF · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

こちらから、好きなモデルを選択。
おすすめは「Q5_K_M」です。
上に行くほど精度が悪くなるけど容量が減って軽くなります。
一般的にはQ4まである程度の品質を保てます。

vaeもここからダウンロードします。直リンクなので…

huggingface.co/QuantStack/Wan2.2-T2V-A14B-GGUF/resolve/main/VAE/Wan2.1_VAE.safetensors?download=true

gguf対応

デフォルトではggufモデルを読み込めないので、comfyUI-ggufを使っていきましょう。

ComfyUIの実行ファイルがあるフォルダ(ComfyUI_windows_portableなど、run_nvidia_gpu.batファイルがある場所)でコマンドプロンプトを開き、以下のコマンドを実行します。

git clone https://github.com/city96/ComfyUI-GGUF ComfyUI/custom_nodes/ComfyUI-GGUF
.\python_embeded\python.exe -s -m pip install -r .\ComfyUI\custom_nodes\ComfyUI-GGUF\requirements.txt

そして、念の為ライブラリをインストールしておきます。

pip install --upgrade gguf

そしてダウンロードした.ggufファイルを”ComfyUI/models/unet”に移動させます。
vaeはさっきと同じところにおいておきましょう。

もう一度batでUIを起動してましょう。
そしたら、読み込むところを一回どけて(いい感じに線を切って、選択してctrl+bで無効に)、右クリック→ノードを追加→bootleg→Unet Loader(GGUF)を追加して元あった場所にそっとおいて、右のモデルノードにつなぎます。

モデル選択の下2つはfload16にするのをおすすめします。

生成できましたね♡

おわりに

なんかいい感じにできましたね。
また用途は考えていきます。
質問等あったら答えられないかもしれませんがコメントやSNSまで連絡ください。
ありがとうございました!

コメント

タイトルとURLをコピーしました