画像生成AI『Midjourney』基本的なプロンプトの書き方のコツを研究

2024年10月3日2024年10月23日

かなり自由度の高く様々な画像を生成できる『Midjourney』の基本的なプロンプトを研究していきたいと思います。

どんなプロンプトの書き方が効果的なのか、どういったプロンプトでどんなタッチ（画風）になるのか、プロンプトをAIで生成する方法は？など気になる基本的なプロンプトの情報を実際に使用しながら調べました。

『Midjourney』のプロンプトは突き詰めると奥が深いので、本記事だけでは書ききれないことも多いですが、始めたばかりの方にもわかりやすいように生成した画像を交えながら説明していきます。

『Midjourney』のプロンプトについて

プロンプトとは？『Midjourney』

プロンプトとは、Midjourney Bot が解釈して画像を生成する短いテキストフレーズです。Midjourney Bot はプロンプト内の単語やフレーズをトークンと呼ばれる小さな部分に分解し、それをトレーニングデータと比較した後、画像の生成に使用します。巧みに作成されたプロンプトは、ユニークで魅力的な画像の作成に役立ちます。

Midjourney Bot は、見たいものを説明するシンプルで短いフレーズで最もよく機能します。長いリクエストや指示のリストは避けてください

出典：Midjourney公式

公式ガイドに↑のように書いてあります。できるだけシンプルなプロンプトをつなげていくのが良さそうですね。

個人的にプロンプトの作成をChatgptなどに任せてしまいがちで、かなり助長なプロンプトになることも多いですので、今回はしっかりと向き合っていきます。

より具体的な同義語を使用する

『Midjourney』はより具体的な同義語の方がうまく機能するようです。

公式ガイドでは「big の代わりに、huge、giantic、imsense、imsense を試してください」とのことですが日本人としてはどう違うの？とよくわからないことも多いですね。

どのように違うのか調べてみました↓

Big（大きい）

一般的に「大きい」という意味で、あらゆる文脈で使われる単語です。
サイズや量、重要性についても使用されます。
例：He has a big house.（彼は大きな家を持っています）

Huge（非常に大きい）

「big」よりもさらに大きさを強調した言葉です。非常に大きいものや巨大なものを指します。
例：The concert attracted a huge crowd.（コンサートは大勢の観客を集めました）

Gigantic（巨大な）

「huge」よりもさらに誇張的な表現で、非常に大きい、圧倒的なサイズのものを指す言葉です。
例：The spaceship was gigantic.（その宇宙船は巨大でした）

Immense（計り知れない、非常に大きい）

物理的な大きさだけでなく、数量や範囲が計り知れないほど大きいものを指します。
例：The universe is immense.（宇宙は広大です）

やはり英語力を試される気がしますね。私のようにわからない方は素直にWEBやアプリでの翻訳を利用したほうが良さそうな気がします。

それぞれで生成するとどういった結果になるのか試してみましょう。

プロンプトは↓でbigの部分を入れ替えて生成してみました。

Happy family with a big mansion in the background, anime style 翻訳：背景に大きな豪邸がある幸せそうな家族、アニメ風

『big』で生成

『gigantic』で生成

『huge』で生成

『immense』で生成

このようにサイズ感がプロンプトによってそれぞれ異なります。

それぞれ4つ生成される中には大きかったり小さかったりとバラつきがありますので、今回はより大きさがわかりやすい画像を選んでいます。

高度なプロンプトを作成する

高度なプロンプトの作成には画像、複数のテキスト、パラメーターの設定が重要になってきます。

画像プロンプトの使い方の詳しい設定方法はこちら↓に書いてありますので、ぜひチェックしてみてください。

『Midjourney』基本のプロンプトを考える

公式ガイドには「次の点について考えて下さい」と書いてあります。

主題: 人物、動物、キャラクター、場所、オブジェクトなど
媒体: photo, painting, illustration, sculpture, doodle, tapestry,（写真、絵画、イラスト、彫刻、落書き、タペストリー、）など
環境: 屋内、屋外、水中、空中など
照明: soft, ambient, overcast, neon, studio lightsなど
色: vibrant, muted, bright, monochromatic, colorful, black and white, pastel（鮮やか、落ち着いた、明るい、単色、カラフル、白黒、パステル）
雰囲気: sedate, calm, raucous, energetic（落ち着いた、穏やかな、騒々しい、活発な）など
構成: portrait, headshot, closeup, birds-eye viewなど

もちろんここで挙げられているのは一例で、もっと細かく様々な要素を指定することが出来ます。

今回はこれに習って基本となるプロンプトを考えていきましょう。

公式ガイドに添ってプロンプトを順番に考える

まずはざっくりとどんな画像を作りたいのか大まかに書き出してみましょう。

「風鈴がぶら下がった夜の軒下にいる浴衣を着た女性」今回はこれを主題にしてプロンプトを生成していきます。

次に媒体を考えます。写真や絵画、アニメ風など、ここを変更すると画像のタッチに大幅に影響があります。どのような表現になるのか色々試してみたいと思います。

環境は構成部分から抜き出して「緑あふれる軒下」に、照明は夜の設定ですので「月明かり」にしてみます。

今回は細かい部分で色を指定するわけではないですが「鮮やかな色」「落ち着いた色」と、全体的なイメージカラーを変更してみたいと思います。

雰囲気は「穏やかな」で、構成は「クローズアップ」にしてみます。

公式ガイドの通りに順番に考えていきましたのでこれをつなげていきます。

そのままの順番でつなげると意味が変わってしまうこともありますので、なるべくAIに伝わりやすいように並べ替えます。

「風鈴がぶら下がった月明かりの夜の軒下、穏やかな雰囲気、花柄の浴衣を着た20代の女性のクローズアップ、鮮やかな色彩のアニメ風」となりました。

これを翻訳を利用して英語のプロンプトに変更していきます。

Google翻訳でも良いですが、midjourney用のプロンプトを作成するように指示もできるChatgptがオススメです。

完成したプロンプトがこちらです。これを元にして画像を生成していきます。

A serene night under the eaves, illuminated by moonlight, with a wind chime gently hanging above. A young woman in her 20s, wearing a floral-patterned yukata, sits peacefully. The scene is filled with vibrant colors and an anime aesthetic, capturing a calm and tranquil mood