Stable Diffusion呪文集(プロンプト)完全ガイド。これで美少女AI画像が生成できる!

AI美少女を作ろうとしてて惜しいけどなんか微妙!SNSで見る美少女画像が全然生成できないといった問題に直面していませんか?そんな悩みを解決するために本記事を書きました。

またプロンプトを簡単に作成できるツールも公開したので使ってみてください。

本記事は画像生成AIで美少女画像を作るためのプロンプトに関する解説記事です。次のような要望に応える記事になっています。

  • 美女を生成するテンプレートとなるプロンプトを知りたい。
  • プロンプトに入力すべき内容を体系的に知りたい。
  • 手っ取り早く高品質な美女の画像を生成する方法について知りたい。

早速ですがプロンプトとモデルを紹介します。このプロンプトを元に意図やプロンプトの組み方について解説していきます。

プロンプト:

(8k, RAW photo, best quality, masterpiece:1.2), (realistic, photo-realistic:1.4), (extremely detailed 8k wallpaper), sharp focus, depth of field, blur background, bokeh,  cinematic lighting, soft light, upper body, 20 years old cute actress arms up on the beach.short hair, (white plain bikini: 1.5), smile

ネガティブプロンプト:

EasyNegative, (worst quality, low quality: 2.0), normal quality, ugly face, unclear eyes, bad mouth, bad anatomy, extra legs, beach, bad anatomy

生成結果:

モデル: Beautiful Realistic Asians v5

モデルはBeautiful Realistic Asians v5です。Chilloutmixやyayoi_mixなどにハマったこともありましがやっぱりBRA v5が最強の美少女生成モデルです。これ使っておけば問題なし。以下のページからダウンロードしてください。

Beautiful Realistic Asians - Brav5 | Stable Diffusion Checkpoint | Civitai
Im currently preparing and collecting dataset for SDXL, Its gonna be huge and a monumental task. I wanna thank everyone for supporting me so far, a...

呪文(プロンプト)とは?

呪文(プロンプト)とはStable Diffusionをはじめとする画像生成AIに入力する文章のことです。呪文(プロンプト)は画像の特徴を表すようなキーワードや文章を,区切りで入力するのが一般的な呪文(プロンプト)です。呪文(プロンプト)は呪文と呼ばれることも多いです。

呪文(プロンプト)には次のようなキーワードが指定されることが多いです。

  • 画像の品質、クオリティ(例: masterpiece, best quality)
  • カメラフォーカス(例: sharp focus, depth of field, blur background, bokeh)
  • ライト・ting)
  • 構図(例: front view, full body)
  • 人物(例: 20 years old woman, 15 years old actress)
  • ポーズ(例: looking at viewer)
  • 背景(例: in classroom)
  • 髪型(例: medium short hair, long hair)
  • 服装(例: suits, t-shirts)
  • 表情(例: smile, happy)

ネガティブ呪文(プロンプト)とは?

ネガティブ呪文(プロンプト)とは呪文(プロンプト)に対して画像に反映してほしくない要素を入力します。画像生成AIは手や体が歪んだりすることが多く、それらを抑制する際に使われることが多いです。一般的には低品質な画像を生成したくないので低品質な画像を表す呪文(プロンプト)も頻繁に使われます。

キーワードを強さを調整する方法

呪文(プロンプト)の各キーワードですが、強調することができます。強調することでそのキーワードが反映されやすくなったり、より強調される表現になります。

数値を指定する方法

(キーワード: 数値)

という構文でキーワードを強調することができます。例を上げると(best quality: 1.5)と書くことで強調されます。逆に(best quality: 0.6)とすると弱まります。一般的には数値は0~2の間で指定します。それより大きい値を指定すると画像がノイズだらけになったりします。

(キーワード1, キーワード2: 数値)

キーワードの強調構文はまとめることもできます。例を上げると(masterpiece, best quality: 1.5)といった書き方もあります。この場合はmasterpieceとbest qualityが1.5に強調されます。

AUTO1111のショートカット構文

AUTO1111から画像を生成する場合は数値の部分を省略すると強度が1.1とみなされます。

(キーワード) #キーワードが1.1に強化
((キーワード)) #キーワードが1.1✕1.1=1.21に強化
(((キーワード))) #キーワードが1.331に強化

呪文(プロンプト)の順序

呪文(プロンプト)のキーワードですが、先に書くほど影響しやすい傾向があります。優先度の高いキーワードは最初の方に書くと良いでしょう。

呪文(プロンプト)に指定すべきキーワード

キーワードといっても具体的な例がほしいと思います。そこで、今回は各ジャンルごとに使われるキーワードを網羅した記事を作成したので、それらを参考にしてみてください。

クオリティ

クオリティに関する呪文(プロンプト)は写真の完成度に影響します。best qualitymaster piece、解像度に関する8kといったキーワードがあります。これらのキーワードを複数指定して呪文(プロンプト)の冒頭に、強調表現を利用して記載されることが多いです。

参考例:

(8k, RAW photo, best quality, masterpiece:1.2), (realistic, photo-realistic:1.4), (extremely detailed 8k wallpaper),

光源

光源に関する呪文(プロンプト)です。光源といっても専門用語が多くて敬遠されがちですが、これをちゃんと指定することで写真のクオリティが格段に上がります。

定番の光源はprofessional lighting, cinematic lightingです。光と陰影のバランスが優れていて、これを指定するだけで品質の高い写真になります。

またシーンによって光源を変えることも重要です。被写体の顔を均一に照らしたい場合はflat lighting、逆光にしたい場合はback lightなんかを使っています。

次の記事で様々な光源を一覧の比較画像で確認できるので、お気に入りの光源やシーンにあった光源を選ぶようにしましょう。

カメラフォーカス

カメラフォーカスに関する呪文(プロンプト)は、カメラをどこにフォーカスするかを指定する呪文(プロンプト)です。光源と同様に指定することで写真のクオリティが格段に上がります。光源ほど選択肢は多くはないので定番の呪文(プロンプト)を指定することが多いです。

被写体にフォーカスしたい場合は、sharp focus, depth of fieldを指定すると良いでしょう。

背景をぼかしたい場合は、blur background, bokehを指定しましょう。

構図

構図はわかりやすく、生成される画像に大きな影響を与える呪文(プロンプト)です。

full bodyを指定すると全身、cowboy shotを指定すると膝から上といった具合に被写体を写す部分を指定する呪文(プロンプト)が1つです。

もう一つはカメラのアングルです。上から撮るfrom aboveか下から撮るかfrom below、横から撮るかfrom side、後ろから撮るかfrom backといったアングル調整も一緒にしていします。

これらの呪文(プロンプト)を選ぶ注意点として、モデルによって効きやすいキーワードとそうでないキーワードがあるので、似たようなキーワードでも色々と試してみるのをおすすめします。

以下、2つの記事でも呪文(プロンプト)の検証を行っているので参考にしてみてください。

年齢 人種 性別

の順で記入することが多いです。また体型も指定します。

例: 20 years old Japanese woman.perfect body

womanの代わりにidolactressを入力すると綺麗な女性が表示される気がします。

20 years old Japanese idol20 years old Japanese actress

k-pop idolなんかも人気です。以下の記事で検証しているので参考にしてみてください。

ポーズ

もし指定したいポーズがある場合はポーズに関する呪文(プロンプト)も指定しましょう。

背景、場所

人物と一緒に指定されることが多いので背景や場所です。挙げれば切がないですが迷ったら定番のものを選んでみると良いでしょう。次の記事を参考にしてみてください。

髪型

髪型は大きく印象に影響する呪文(プロンプト)です。髪型は特に定番といったものはなく、その時々で選んでいきます。髪型に関する呪文(プロンプト)は次の2つの記事でまとめているので選んでみましょう。

服装

ファッションも髪型同様にその都度設定してみましょう。以下の記事は服装を一通りまとめた記事なので参考にしてみてください。

表情

表情は次の記事を参考にしてみてください。似たような意味合いのキーワードでも、絶妙な違いがあります。

Negative Promptの指定

Negative Promptですが画像の悪化を防ぐために指定します。個人的にはあまり多くを記載しないほうが上手く行く気もしますが、人それぞれなようです。私が最近良く使っている呪文(プロンプト)は次の通りです。

EasyNegative, (worst quality, low quality: 2.0), normal quality, ugly face, unclear eyes, bad mouth, bad anatomy, extra legs, beach, bad anatomy

呪文(プロンプト)をブラッシュアップするには?

呪文(プロンプト)の奥深いところはキーワード選びだけではないところです。最初はキーワードをとりあえず入力して、生成された画像を元に調製していくことが多いです。

強調の値調整

先ほど紹介したキーワードの強調表現(キーワード: 数値)を調整しましょう。効きが悪い呪文(プロンプト)の値を大きくしたり、逆に主張が強いキーワードを弱めたりします。

順序の調整

順序の調整も重要です。効きが悪い呪文(プロンプト)を最初に持ってきたりすると効くことがあります。また順序によって画像の雰囲気が大きく変わることがあります。順序を変えて調整していくなかで良いものが見つかることもあるので試してみましょう。

ChatGPTにアレンジしてもらう

呪文(プロンプト)ですがデティールを細かくすることで、画像のクオリティが大きく向上します。ただし、デティールをいちいち細かく記載するのは骨の折れる作業です。

そこで私が使っている方法がChatGPTを使った方法です。ChatGPTに次のように効くことで詳細な呪文(プロンプト)を書いてくれます。

ChatGPT
A conversational AI system that listens, learns, and challenges

バージョンですがGPT3.5のほうが素直に呪文(プロンプト)をアレンジしてくれます。GPT4はタイミングによってはなぜだか見当違いな答えをすることが多いです。

ChatGPTへの呪文(プロンプト):

この呪文(プロンプト)を背景やデティールを詳細に表現するようにアレンジして。呪文(プロンプト)は英単語もしくは文章で,区切りです。

(8k, RAW photo, best quality, masterpiece:1.2), professional lighting, cinematic lighting, sharp focus, depth of field, Japanese actress in Shibuya,  double eyelid, a bob hairstyle, upper body, looking at viewer

ChatGPTの解答:

Captured in an astonishing 8000x8000 pixel resolution, this RAW photograph stands as a testament to uncompromised quality, heightened by a multiplier of 1.2 to attain masterpiece status. Illuminated by expertly orchestrated professional lighting, it boasts cinematic nuances in its illumination, producing a dramatic interplay of shadows and highlights.

The focal execution is precise, ensuring a razor-sharp focus on the subject - a Japanese actress situated within the dynamic backdrop of Shibuya. Standing against the backdrop, her captivating presence is enhanced by a double eyelid that accentuates her gaze. Her stylish bob hairstyle frames her face elegantly, drawing attention to her upper body which forms the focus of the composition.

With a skillful manipulation of depth of field, the bustling Shibuya environment transitions into a dreamlike tapestry of color and motion, placing the actress in a realm all her own. Her gaze pierces through the lens, locking onto the viewer's perspective. This image transcends mere photography, embodying an immersive cinematic allure that resonates with artistry.

呪文(プロンプト)には限界もあるから拡張機能を使おう

ここまで呪文(プロンプト)を解説してきました。ここまでのテクニックでも十分高品質な画像を生成することは可能です。ただし、もっと自由自在にポーズや画角、構図を指定したり、細かいディテールまでこだわろうとすると呪文(プロンプト)による画像生成では限界があるのも事実です。また、呪文(プロンプト)だけだと顔が崩れたりすることがほとんどです。なので、次に紹介するような手法を併用してみてください。

顔の崩れを防ぐ方法

全身画像を生成すると大抵の場合、顔が崩れるので、顔の補正は必須と言って良いです。以下に顔の補正方法についてまとめています。

その中でも特におすすめな方法はADetailerを使った方法です。この方法はお手軽で効果も高い方法なので試してみましょう。

ControlNet

ControlNetは画像から、様々な特徴量を抽出して、その特徴をもとに画像を生成する技術です。すでに参考にしたいポーズや構図の移った画像がある場合は、その画像を元に画像を生成することができます。

LoRA

LoRAというStable Diffusion Modelの一部のパラメータを再学習させることで、その学習させた画像の特徴を引き継ぐ画像を生成することができるようになる手法があります。これを使うことで服装や顔、画風など様々な特徴を引き継ぐ画像を生成することができるようになります。

コメント