ChatGPTで画像生成。DALL·E 3の使い方を解説

今回はChatGPTで有名なOpenAIが作った画像生成AI DALL·E 3(ダリイースリー)を試しに使ってみました。DALL·E 3はいくつか使い方があるのですが今回はChat GPTから利用する方法について解説します。

DALL·E 3の使い方

DALL·E 3を使うにはChat GPT Plusに加入している必要があります。Chat GPT Plusに加入していれば次のようにGPT-4のメニューからDALL·E 3を開くことができます。

DALL·E 3を開いたら後は通常通りプロンプトを入力するだけです。

水着美女を作ってみるが…

水着美女の画像を作ってみて。

Chat GPTの回答


分かりました。水着を着た美女の画像を作成いたします。

以下のキャプションを用いて画像を生成します。

1. 写真: 砂浜に立つアジア系の女性が、サンゴ色のビキニを着て、太陽の下で微笑んでいます。背景には青い海と白い雲が広がっています。
2. 写真: プールサイドで、アフリカ系の女性が水色のワンピース水着を着てリラックスしています。彼女の周りには緑の植物とプールの水がキラキラと光っています。
3. イラスト: エスニックな柄の水着を着たヨーロッパ系の女性が、サーフボードを持ち、波打ち際を歩いています。彼女の後ろにはサーファーたちが遠くの波を楽しんでいます。
4. 写真: ロッキーな海岸で、ラテン系の女性が黒と白のストライプのビキニを着て、岩の上でポーズを取っています。背景には波が打ち寄せる海と夕日が見えます。
これらのキャプションを元に、水着を着た美女の画像を生成します。
申し訳ございませんが、ご要望の一部の画像を生成することができませんでした。これは私たちのコンテンツポリシーに基づいています。他のリクエストや質問があれば、お気軽にお知らせください。

Chat GPTを作って水着美女を作ってみたのですが、4枚目の写真が生成されませんでした。どうやらセンシティブなコンテンツ生成には厳しいようで水着画像などは生成しても表示されないようです。そして生成された画像をクリックするとプロンプトの詳細が表示されます。

プロンプトについては独自性があるプロンプトが指定されているので便利そうです。ただし、日本語のプロンプトは使いにくいので英語で生成して欲しいなと思いました。

英語のプロンプトで回答させてみる

次はプロンプトを英語で答えてもらう方法を考えてみます。次のようにメッセージを送信しました。

綺麗な日本人女性の画像を生成してみて。背景や服装については様々なバリエーションを考えて。プロンプトは英語で答えて。

Chat GPTの回答

Understood! I will create images of a beautiful Japanese woman with various backgrounds and outfits. Here are the captions I will use for the image generation:

1. Photo: A Japanese woman with sleek black hair, wearing a modern summer dress, stands against a backdrop of cherry blossoms in full bloom. The soft pink petals contrast with the clear blue sky.
2. Photo: A Japanese woman in a traditional kimono, adorned with intricate floral patterns, poses gracefully in front of an ancient wooden temple. The serene atmosphere is enhanced by the surrounding green moss and stone lanterns.
3. Illustration: A stylized depiction of a Japanese woman in a futuristic outfit, complete with holographic accessories, set against a bustling neon-lit Tokyo cityscape at night.
4. Photo: A Japanese woman dressed in casual urban wear, with a denim jacket and white sneakers, leans against a graffiti-covered wall in a vibrant city alley. The scene is lively with street performers and market stalls.

I will generate images based on these captions.

画像を生成しました。ご確認いただけましたでしょうか?ご意見や他のリクエストがあれば、お気軽にお知らせください。

英語でプロンプトを回答してくれました。服装と背景も合致していて面白いなと思いました。そして、全身画像を見てみると顔があまり崩れてないのでモデルの精度はかなり高そうです。

解像度の調整

次は解像度の調整をしてみます。

綺麗な日本人女性の写真を生成してみて。背景や服装については様々なバリエーションを考えて。プロンプトは英語で答えて。アスペクト比は3:2で生成してみて。

Chat GPTの回答

Understood! I will generate photos of a beautiful Japanese woman with various backgrounds and outfits in a 3:2 aspect ratio. Here are the captions I will use:

1. Photo: A Japanese woman with flowing black hair, wearing an elegant evening gown, stands before a scenic view of a serene Japanese garden with a koi pond reflecting the twilight sky.
2. Photo: A Japanese woman in a vibrant yukata, decorated with summer festival motifs, holds a traditional paper lantern, with fireworks illuminating the night sky behind her.
3. Photo: A Japanese woman in chic business attire stands confidently in a bustling modern Tokyo business district, skyscrapers rising tall around her.
4. Photo: A Japanese woman in casual wear, with a camera slung around her neck, stands amidst a lively street market, with colorful stalls and people going about their shopping.

I will generate images based on these captions in a 3:2 aspect ratio.

画像を生成しました。ご覧いただけましたでしょうか?ご意見や他のリクエストがあれば、お知らせください。

縦長画像の生成は苦手なようです。

次は縦長の画像を生成してみます。比を逆にすれば生成できるかと思ったのですが…

綺麗な日本人女性の写真を生成してみて。背景や服装については様々なバリエーションを考えて。プロンプトは英語で答えて。アスペクト比は2:3で生成してみて。

Chat GPTの回答

Understood! I will generate photos of a beautiful Japanese woman with various backgrounds and outfits in a 2:3 aspect ratio. Here are the captions I will use:

1. Photo: A Japanese woman with long, elegant black hair, wearing a contemporary spring dress, is positioned against a backdrop of a serene bamboo forest. The gentle sunlight filters through the tall bamboo shoots.
2. Photo: A Japanese woman dressed in a classic winter kimono with snowflake motifs gracefully stands in front of a snow-covered shrine. Icicles hang from the eaves, and the serene environment is blanketed in white.
3. Photo: A Japanese woman in modern athletic wear prepares to run on a bustling city bridge with a dynamic Tokyo skyline in the distance, conveying a sense of energy and movement.
4. Photo: A Japanese woman in casual weekend attire, holding a cup of coffee, relaxes on a rooftop garden terrace. Surrounding her are potted plants and a panoramic view of the urban landscape.

I will generate images based on these captions in a 2:3 aspect ratio.

画像を生成しました。ご確認いただけましたでしょうか?何か他の要望や質問がございましたら、教えてください。

上手くいかないので指示文を修正します。

綺麗な日本人女性の写真を生成してみて。背景や服装については様々なバリエーションを考えて。プロンプトは英語で答えて。アスペクト比は3:2で縦長で生成してみて。

Chat GPTの回答

Understood! I will generate photos of a beautiful Japanese woman with various backgrounds and outfits in a vertical 3:2 aspect ratio. Here are the captions I will use:

1. Photo: A Japanese woman with delicate features and wavy black hair, wearing a light pastel sundress, stands gracefully in a traditional Japanese garden. A stone path, koi pond, and red bridge complete the tranquil setting.
2. Photo: A Japanese woman dressed in an autumn-themed kimono with maple leaf designs stands amidst a forest of red and orange maple trees. The scene captures the essence of a peaceful Japanese autumn.
3. Photo: A Japanese woman in a sleek, modern city outfit, with sunglasses, stands in front of a bustling Tokyo shopping district. Neon signs, shoppers, and urban architecture surround her.
4. Photo: A Japanese woman in a relaxed coastal outfit, holding a wide-brimmed hat, enjoys a view from a cliff overlooking the ocean. Waves crash below, and seagulls fly in the distance.

I will generate images based on these captions in a vertical 3:2 aspect ratio.

画像を生成しました。ご確認いただけましたでしょうか?他に何か質問や要望がございましたら、お知らせください。

なかなか上手くいかないのでもっとシンプルに縦長画像を作らせてみます。

綺麗な日本人女性の写真を生成してみて。背景や服装については様々なバリエーションを考えて。プロンプトは英語で答えて。縦長で生成してみて。

Chat GPTの回答

Of course! I'll create vertical images of a beautiful Japanese woman with various backgrounds and outfits. Here are the captions I will use:

1. Photo: A Japanese woman with shimmering black hair, wearing a flowing white summer dress, stands amidst a serene bamboo grove. The light filters through, casting dappled shadows on her and the ground.
2. Photo: A Japanese woman in a vibrant blue kimono adorned with silver crane motifs poses gracefully near a tranquil koi pond. The reflection of autumn leaves adds to the calming ambiance.
3. Photo: A Japanese woman in stylish urban attire, including a leather jacket and boots, stands on a rooftop overlooking the illuminated skyline of Osaka at dusk.
4. Photo: A Japanese woman in a breezy coastal outfit, with a sun hat and sandals, strolls along a pristine beach. The horizon stretches out behind her, with gentle waves lapping at the shore.

I will generate images based on these captions in a vertical format.

画像を生成しましたが、1つの画像に関しては技術的な問題で生成することができませんでした。ご迷惑をおかけして申し訳ございません。他のリクエストや質問があれば、お気軽にお知らせください。

縦長の画像は生成できたのですが、3枚しか生成できませんでした。単に横長の画像を回転させた画像になっているのでDALLE3では縦長画像の生成は苦手なようです。

高解像度の画像を生成させてみる。

高解像度の写真を生成させてみます。どこまでできるかを調査したかったので大きな値を入力してみます。

綺麗な日本人女性の写真を生成してみて。背景や服装については様々なバリエーションを考えて。プロンプトは英語で答えて。4096×4096の解像度で画像を生成してみて。

Chat GPTの回答

I apologize for the inconvenience, but the maximum resolution I can generate images at is 1792x1792. I can still generate images of a beautiful Japanese woman with various backgrounds and outfits at this resolution if that's acceptable. Here are the captions I will use:

1. Photo: A Japanese woman with a delicate complexion and soft black hair, wearing a floral summer dress, stands amidst a vibrant flower field. Colorful blossoms surround her, creating a dreamy ambiance.
2. Photo: A Japanese woman in a traditional gold and crimson kimono, decorated with intricate phoenix designs, gracefully stands in front of an ornate temple gate. Lanterns light up the scene, creating a warm glow.
3. Photo: A Japanese woman in a sophisticated urban outfit, with a tailored blazer and high heels, strides confidently through a bustling Tokyo street. Neon lights and skyscrapers frame the background.
4. Photo: A Japanese woman in relaxed beachwear, with sunglasses and a straw hat, lounges on a sunbed by the ocean. Palm trees and white sands stretch out behind her.

Would you like to proceed with these captions at the 1792x1792 resolution?

「はい」と回答したら次のように画像を生成してくれました。最大値は1792×1792とは言ってますが…

1792×1792と言っていたのですが1792×1024で画像が生成されました。

綺麗な日本人女性の写真を生成してみて。背景や服装については様々なバリエーションを考えて。プロンプトは英語で答えて。1792×1792の解像度で画像を生成してみて。

Chat GPTの回答

Certainly! I'll generate images of a beautiful Japanese woman with various backgrounds and outfits at the 1792x1792 resolution. Here are the captions I will use:

1. Photo: A Japanese woman with sleek raven-black hair, wearing a stylish spring jumpsuit, stands against a backdrop of a scenic urban park. Cherry blossoms in full bloom add a touch of pink to the scene.
2. Photo: A Japanese woman in a richly decorated ceremonial kimono with dragon motifs poses elegantly in front of a traditional wooden shrine. Stone lanterns and a zen garden enhance the peaceful atmosphere.
3. Photo: A Japanese woman in modern street fashion, featuring a leather jacket and ripped jeans, stands on a busy Tokyo street corner. The vibrant city lights and bustling crowd form the dynamic background.
4. Photo: A Japanese woman in a casual summer outfit, with a sun hat and sandals, enjoys a moment on a beach boardwalk. The ocean stretches out to the horizon, and surfers catch waves in the distance.

I will generate images based on these captions at the 1792x1792 resolution.

画像を生成しました。ご覧いただけましたでしょうか?何か他の質問や要望がございましたら、お知らせください。

1792×1792と指示しましたが1792×1024で画像が生成されます。おそらく1792×1024が最大サイズのようです。

感想: DALL·E 3とStable Diffusionの違いについて

DALL·E 3ですが細部の描画はStable Diffusion v1.5と比べると精度が高い気がしました。SDXL1.0と比べても互角レベルなので品質の高いモデルに思えました。ただし水着画像が作れなかったり縦長画像を作れないのが課題に感じました。縦長画像が生成できない問題はいずれ解決しそうですが、AIグラビアを生成するのは向いてないような気がしました。

まとめ

  • DALL·E 3はSDXL1.0に匹敵する画像生成が可能
  • 1792×1024が最大サイズ
  • 縦長画像の生成は苦手
  • センシティブな画像はフィルタリングされる。水着でもNGっぽい。

コメント