前回の記事ではDALL-E3で同じ絵柄・キャラクター・人物を生成するコツの研究を行いました。
今回はさらにアレンジ編です。DALL-E3同じキャラクターを使った複数のシーンを作成し、どこまでキャラクターを再現したまま別のシーンを作成できるかやっていきましょう。
複数のシーン作成1:DALL-E3基本設定
まずはDALL-E 3で基本となるアニメ風キャラクターを4名作成していきます。
今回は生成のしやすさと、複数の画像IDを使用することを考慮して2名×二組で生成していきます。
作成する際は「画像IDを表示して下さい」とプロンプトの最後に足すか、すぐ次のチャットで指示を出して下さい。
DALL-E3では2024年10月現在、stable diffusionのようにシード値を使用しての生成が出来ません(厳密には使用しても効果がありません)ので、同じキャラクターを作成するのに画像IDをメインで利用していきます。
画像IDは同じチャット内でしか効果がなく、他人のDALL-E3で入力してももちろん違う画像になってしまいます。
詳しくは前回↓の記事で研究していますのでチェックしてみて下さい。
一組目
一組目はシンプルにちょっとワイルドでカジュアルな雰囲気にしてみました。
画像ID「EZHjKNdvWz6f00sI」
プロンプト
黒髪のショートカットで黒いジャケットを着たワイルドな雰囲気の日本人イケメン男性と、ブラウンロングヘアーの日本美女が部屋で一緒にいるアニメ風ワイド画像を生成して下さい
二組目
二組目はちょっと複雑なキャラクター設定にしてみました。どちらが男性でどちらが女性か分かりづらいですが、ロングヘアーが男性で、スーツ姿が女性のプロンプト設定です。
画像ID「H0GV0hZd5fZsAgob」
プロンプト
紫のロングヘアーで華奢な日本人男性とショートカットでボーイッシュな日本人女性のアニメ風ワイド画像を生成して下さい
複数のシーン作成2:画像IDでシーン(場面)を変えてみる
まずは一組目の画像ID「EZHjKNdvWz6f00sI」を使用してシーンを変えてみましょう。
プロンプト
画像ID「EZHjKNdvWz6f00sI」の黒髪のショートカットで黒いジャケットを着たワイルドな雰囲気の日本人イケメン男性と、ブラウンロングヘアーの日本美女が海辺で座りながら語り合っている雰囲気の画像を生成して下さい
プロンプトは元のキャラクターのプロンプトをきっちり全部入れて、そこに新たなシーンを加えることが再現度を高めるコツになります。
次は二組目の画像ID「H0GV0hZd5fZsAgob」を使用して全く同じプロンプトで生成してみます。
プロンプト
画像ID「H0GV0hZd5fZsAgob」のブラウスを着た紫のロングヘアーで華奢な日本人男性とショートカットでボーイッシュなスーツを着た日本人女性が海辺で座りながら語り合っている雰囲気のワイド画像を生成して下さい
なかなかいい雰囲気で再現出来たんじゃないでしょうか。最初に作成した時は、なぜか時代劇風になってしまったので、服装をプロンプトで細かく指定しました。
気になる部分があれば、編集ツールを利用して変更することが出来ます。言う事を効かなかったりして少しクセがありますので何度か試してみて下さい。
ツールの使い方はこちらでチェック↓
複数のシーン作成3:別々の画像IDを混ぜて同じキャラクターを生成する
一組目と二組目のキャラクターを混ぜた画像が生成できるか研究していきます。
わかりやすいようにもう一度画像を表示してみます。
ミックスした画像1
一組目の男性と二組目の男性(ロングヘアー)を組み合わせた画像です。
複数の画像IDをミックスすると、生成にかなり振れ幅があります。何度が生成してみないと良い結果が得られないかもしれません。
こちらの画像はどちらかというと2組目のタッチ寄りなんでしょうか。
プロンプト
画像ID「EZHjKNdvWz6f00sI」の無造作な黒髪のショートカットでカジュアルな服装をしたワイルドなイケメン男性と画像ID「H0GV0hZd5fZsAgob」のブラウスを着た紫のロングヘアーで華奢な日本人男性がプラネタリウムで出会うシーンのワイド画像を生成して下さい
編集ツールでそれぞれ髪型を整えて完成しました。画像IDを混ぜるとなかなか思いどおりの画像を生成するのは難しいですね。
編集ツール使用、各部位を選択後プロンプト
髪を短くする、結ばず髪を下ろす
ちょっと元のキャラクターよりリアルで書き込まれている雰囲気になっていますね。画像IDを混ぜたせいなんでしょうか。
ミックスした画像2
プロンプト
画像ID「EZHjKNdvWz6f00sI」のブラウンロングヘアーでカジュアルな服装の日本美女と画像ID「H0GV0hZd5fZsAgob」のスーツを着た紫のショートカットでボーイッシュな日本人女性がショッピングモールで買い物をするシーンの画像を生成して下さい。
一組目のタッチ寄りのややディフォルメされたキャラクターになっています。
このようにある程度似た雰囲気のキャラクターは作成できますが、2つの画像IDを組み合わせると思い通りの画像を作成するのは難しいと思われます。
複数のシーン作成4:同じ画像IDで色々なシーンを生成する
ミックスさせないそれぞれの画像IDで色々なシーンを作成して、どの程度の再現度、完成度になるのか確認していきましょう。
何度も言いますが注意するポイントは画像IDだけじゃなくプロンプトもキャラクターごとにしっかりと設定してください。画像IDだけだと別キャラになってしまうことも多いです。
作成前に画像IDとキャラクターごとのプロンプトを用意します。
「一組目」
画像ID「EZHjKNdvWz6f00sI」
左の男性キャラクターA「黒髪のショートカットで黒いジャケットを着たワイルドな雰囲気の日本人イケメン男性」
左の女性キャラクターB「ブラウンロングヘアーでカジュアルな服装の日本美女」
「二組目」
画像ID「H0GV0hZd5fZsAgob」
左の女性キャラクターC「ショートカットでスーツを着たボーイッシュな日本人女性」
右の男性キャラクターD「紫のロングヘアーで華奢な日本人男性」
シーン1 月夜の工場で走り回る
一組目で生成
プロンプト
画像ID「EZHjKNdvWz6f00sI」の黒髪のショートカットで黒いジャケットを着たワイルドな雰囲気の日本人イケメン男性とブラウンロングヘアーでカジュアルな服装の日本美女が月夜の工場で走り回るワイド画像を生成して下さい
簡単でなかなかいい再現度を見せてくれました。このようにシンプルなキャラクター設定が良いと思います。
二組目で生成
プロンプト
画像ID「H0GV0hZd5fZsAgob」のショートカットでスーツを着たボーイッシュな日本人女性と、紫のロングヘアーで華奢な日本人男性が月夜の工場で走り回るワイド画像を生成して下さい
左のキャラクターDがどうやっても元のキャラのようなロングヘアーにならなかったので諦めました。
服装も指定していないので違う感じになってしまいますね。
シーンを変えればどうにかなるのかもしれませんが、二組目のキャラクター設定がAIには複雑すぎるのかもしれません。
服装を変えて何度か生成していますが、どちらが男性でどちらが女性かわからなくなってAIが混乱して、指定とは逆の人物の服装が変わったりしていました。
今回は研究なので複雑にしていますが、AIが判断しやすいようにシンプルなキャラクター設定のほうが再現度が高く実用的です。
シーン2 崖の上から海に飛び込む
一組目で生成
プロンプト
画像ID「EZHjKNdvWz6f00sI」の黒髪のショートカットで黒いジャケットを着たワイルドな雰囲気の日本人イケメン男性とブラウンロングヘアーでカジュアルな服装の日本美女が高い崖の上から海に飛び込むワイド画像を生成して下さい
やはり一組目はすぐに狙いどおりの画像に仕上がりますね。服装などは違いますが、同じ格好にしたい場合は細く指定する必要があります。
二組目で生成
プロンプト
画像ID「H0GV0hZd5fZsAgob」のショートカットでスーツを着たボーイッシュな女性と、紫のロングヘアーで華奢な男性が崖の上から海に飛び込むワイド画像を生成して下さい
追加プロンプト
ハイクオリティな画像にしてください
ちょっと不思議な画像になってしまいました。最初にできた画像がやや雑だったのでハイクオリティにするよう指示を出しています。
こうやって一組目と二組目を見ていくと色々なシーンに合うキャラクターと合わないキャラクターがいるようにも感じますね。
シーン3 パソコンを使用する
一組目で生成
画像ID「EZHjKNdvWz6f00sI」の黒髪のショートカットで黒いジャケットを着たワイルドな雰囲気の日本人イケメン男性とブラウンロングヘアーでカジュアルな服装の日本美女がパソコンを使用するワイド画像を生成して下さい
絵のタッチが毎回少し変わるものの、キャラクターのイメージはほとんど同じように仕上がっているように見えます。
二組目で生成
画像ID「H0GV0hZd5fZsAgob」のショートカットでスーツを着たボーイッシュな女性と、紫のロングヘアーでワンピースを着た華奢な男性がパソコンを使用するワイド画像を生成して下さい
どうしても二人ともスーツになってしまうので、ワンピースとしていしましたが、こういった結果になってしまいました。髪型もロングヘアーになりませんね。
画像IDを指定すると、プロンプトを変えない限り、再生成してもほとんど同じ画像が生成されてしまいますので、思うように画像が仕上がらない場合は色々と文章を変えてみて下さい。
しかし二組目のような設定のキャラクターだとエラーが多発して微調整が出来ないことが多かったです。
2シーンぐらい作成してみて、上手く行きそうなキャラクター(今回の一組目のようなプロンプト)を使用していくのが良さそうですね。
シーン4 噴水の前で抱きしめる
一組目で生成
画像ID「EZHjKNdvWz6f00sI」の黒髪のショートカットで黒いジャケットを着たワイルドな雰囲気の日本人イケメン男性をブラウンロングヘアーでカジュアルな服装の日本美女が噴水の前で抱きしめるワイド画像を生成して下さい
一組目はやり直しなしですぐに再現度の高い画像が生成されました。できるだけ一般的でわかりやすいキャラクターのほうが様々なシーンを簡単に生成できます。
二組目で生成
プロンプト
画像ID「H0GV0hZd5fZsAgob」のショートカットでスーツを着たボーイッシュな女性を紫のロングヘアーでワンピースを着た華奢な男性が噴水の前で抱きしめるワイド画像を生成して下さい
これでは何度もエラーになってしまい生成できませんでした。
エラーが頻発するのは、性別と見た目が複雑なせいでポリシー違反判定されているのかな、と思っています。DALL-E3は女性の画像は特にポリシー違反判定がかなり厳しくなっている印象です。
詳しくはこちらをチェックしてみて下さい↓
おそらく抱きしめるに反応している気がしますのでちょっとプロンプトを変えてみます。
画像ID「H0GV0hZd5fZsAgob」のショートカットでスーツを着たボーイッシュな日本人女性を紫のロングヘアーでワンピースを着た華奢な日本人男性が噴水の前で肩を抱くワイド画像を生成して下さい
一度ハグにしてみましたがエラーだったので肩を抱くにしました。気がつくとなぜか学生になってしまいました。ロングヘアーにはならず服装も無視されてますね。
ちなみに現在どんなプロンプトになっているのか確認してみました。英語でしか確認できませんが、chatgptで翻訳できます。
A high-quality anime-style wide image featuring a boyish Japanese woman with short hair wearing a suit (as seen in image ID ‘H0GV0hZd5fZsAgob’) being embraced by a slender Japanese man with long purple hair wearing a dress. They are standing in front of a fountain, with the man gently holding the woman’s shoulder. The scene captures the warmth and affection of their moment, with the fountain and surrounding park adding to the romantic atmosphere.
高品質なアニメ風のワイド画像で、ショートヘアでスーツを着たボーイッシュな日本人女性(画像ID『H0GV0hZd5fZsAgob』に見られる)を、紫のロングヘアでワンピースを着た華奢な日本人男性が抱きしめているシーンです。二人は噴水の前に立っており、男性は女性の肩を優しく抱いています。このシーンは、噴水と周囲の公園がロマンチックな雰囲気を醸し出し、二人の温かさと愛情を捉えています。
思った以上に普通のプロンプトでしたが、AIが混乱したせいか服装を勝手に変えてしまったようですね。
DALL-E 3で同じキャラクターを使って複数のシーンを作成まとめ
今回は複数のシーンで再現しやすいキャラクターと再現しづらいキャラクター、二組の画像を使用して実験していきました。
一組目の王道ともいえるキャラクターは簡単なプロンプトでキャラクターを再現しつつ、様々なシーンを生成できました。
二組目の複雑なキャラクターは、別のシーンを生成するたびに服装や髪型、顔や体型まで変わってしまいました。ジェンダーレスなキャラクターはAIにはまだ難しいのかもしれませんね。
DALL-E3は性的に露骨なコンテンツ、成人向けコンテンツなどの画像についてポリシー違反の判定が厳しいので、ジェンダーレスの2人だと判定に引っかかりやすくなり、ややこしいことになっているんじゃないかと想像できます。
画像IDを混ぜると絵のタッチが変わってしまうのもわかりました。どちらかのIDのタッチに引っ張られるようですね。キャラクターの雰囲気が変わってしまうことも多かったです。
AIがしっかりと学習していそうなわかりやすい、伝わりやすいプロンプトを見つけてキャラクターを作成していくのが、複数のシーンをDALL-E3で作成するコツだと言えます。
次回はリアル系の画像生成の研究をしていきたいと思います。リアル系で同じキャラクターで違うシーンはどうなるのかも気になりますね。
おそらくリアル系のほうが統一感があるので再現度は高そうな気がしています。
皆さんも様々なシーンを生成して楽しんでみてくださいね。
コメント