Stable Diffusionではプロンプトで動きをつける事ができます。しかし表現が伝わりにくい事やAIの解釈が異なったりする事があるので、プロンプトでは限界があります。
そこで今回はControlNetと呼ばれる追加機能を使用してどの程度表現できるかを試してみます。生成される絵の被写体は筆者の趣味が入っているので構図に注目していただければと思います。
導入方法等の詳細は以下で解説されてます。
『https://romptn.com/article/7868』
鍔迫り合いの動作
まずはアニメのバトルシーンで使用される機会の多い鍔迫り合いの動作を表現してみます。ベースにする絵はインターネットから適当にアニメの画像を拾ってきましたが著作権関係的にそのまま載せるのはまずいので変換後の画像を貼っておきます。プロンプト等は以下を指定しました。
環境情報
- Model: chosenMix_bakedVae
- Steps: 30
- Sampler: DPM++ 2M SDE Karras
- CFG scale: 7.5
- Size: 768×512
- ポジティブプロンプト
- ネガティブプロンプト
使用したControlNet
- Depth
生成結果
上記を使用して生成した結果
ControlNetのモデルかプロンプトの影響か分かりませんが生成中に剣がライトセーバーになったりと剣の再現に非常に苦労しました。またプロンプト次第でキャラがカメラ目線になり鍔迫り合い感が出ない事が途中で多発し見つめあう構図になるまでプロンプトを細かく変えて検証しました。上記の画像は一番上手く生成されたイラストを高画質化した状態です。ざっと生成枚数は200ほどですかね。
野球をする女性
続いて野球をするキャラを生成してみようと思います。個人的にスポーツの描写はControlNetを使用しないと上手く描写する事がほぼ不可能であると考えています。試しにプロンプトだけで生成しましたが関節の使い方が明らかにおかしくなるので、よほどのこだわりがなければControlNetを使用するのが無難です。とりあえず野手を生成してみようと思います。
環境情報
- Model: anzumix
- Steps: 30
- Sampler: DPM++ 2M SDE Karras
- CFG scale: 7.5
- Size: 512×512
- ポジティブプロンプト
- ネガティブプロンプト
使用したControlNet
- Depth
- OpenPose
生成結果
野手の画像のOpenPoseは変な人が入ってしまいましたが、思っていたよりマシになりました。バット投げをした瞬間の写真を選びましたがちゃんと特徴を捉えられている事が分かります。
ControlNetは便利
既存のイラストをベースにするのでオリジナル感は薄れてしまうと思いますけど、この写真を自分の好きなキャラに置き換えて楽しむとかで使えそうですね。便利な拡張機能はたくさんあるので色々調べて利用してみてはいかがでしょうか。