はじめに
一年前くらいに画像生成AIの苦手なことを検証したことがあって、
その際に苦手だった内容が今だと改善されているかを今回再検証してみます!
苦手-1「 複雑な構造の再現 」
最初に苦手なことは「複雑な構造」です。例えば、文字の再現が苦手です。
他にも、指の形なども苦手です。
そあたりは、最近改善されてきているニュースをよく見かけたので改善されていそうです。
検証内容は一年前と同じ「”Midjourney”と書かれた看板」にしてみます。
■1年前の状態(Midjourney)
どれも正しく文字列を再現できていませんでした。
■検証結果(Midjourney)
よくなっていますね!右下はしっかり文字列があっています!
他も1文字違いなど、かなり精度は良くなっています。
■検証結果(DALL-E)
2枚目はあっていますね!やはりDALL-Eの方が忠実性が高い印象です。
苦手-2「 数の再現 」
次が「数の再現」です。◯個という指示に対して、その通りの数になることが少ないです。
意外に思われる方も多いのではないでしょうか?
検証内容は一年前と同じ「目玉焼きが乗ったパン5枚」にしてみます。
■1年前の状態(Midjourney)
どれも指示通りの数になっていませんでした。
■検証結果(Midjourney)
どれもダメでした。数はやはり難しいのか。
■検証結果(DALL-E)
1枚目はあっていますね!素晴らしい!
苦手-3「 位置関係の再現 」
次は「位置関係」です。数の再現と似たような話ですが、これも苦手です。
〇〇と□□の間にある△△などもできませんでした。
検証内容は一年前と同じ「緑の車の左にいる大きな牛」にしてみます。
■1年前の状態(Midjourney)
左ってどっちからみて左?て話はあると思うんですが、一貫していなかったです。
それと何故か牛も緑になっています、、笑
■検証結果(Midjourney)
え、、。
■検証結果(DALL-E)
完璧ですね。流石です。
苦手-4「 長文のプロンプト 」
次は「長文のプロンプト」です。複雑なプロンプトは苦手でした。
プロンプトの後半の要素が無視されやすい傾向がありました。
検証内容は一年前と同じ「黄色と黒のストライプのシャツを着た青いバスケットボールを持った男、赤い髪の色、緑のチェックのカップでコーヒーを飲んでいる。」にしてみます。
■1年前の状態(Midjourney)
緑色でチェックのカップや、青色のバスケットボールという指示が無視されています。
■検証結果(Midjourney)
あの、、青いバスケットボールは?カップも色違いで浮いてるし。
■検証結果(DALL-E)
完璧ですね。流石です。
苦手-5「 データセットのバイアス 」
最後は「データセットのバイアス」です。
検証内容は一年前と同じ「うさぎを食べるニンジン」にしてみます。
一年前の状態を見ると出力結果は主語と述語が反転しています。
これは、学習用のデータセットで、「うさぎ」と「ニンジン」の映った画像の多くが、「ニンジンを食べるうさぎ」のため、そのバイアスが働いているためだと考えられます。
こういった問題は、差別的な表現(看護師というワードだと女性が出力されやすいなど)に繋がる可能性があるため、問題視されています。上の4つの苦手よりも解決が難しいと思います。サービスを利用する我々も、そういった問題があることを理解して利用することが求められます。
■1年前の状態(Midjourney)
出力結果は主語と述語が反転しています。
■検証結果(Midjourney)
めっちゃニンジン食べられてる、、。
■検証結果(DALL-E)
食べられてはないけど、食べられそう、、。うさぎが食べてないのがすごい!
まとめ
Midjourneyはオシャレ路線を伸ばしているのかあまり苦手の克服が見られませんでした。
DALL-Eは素晴らしいです。ただおしゃれではない。
これを両立する画像生成AIサービスが出てきたら素晴らしいと思います。
ただ、DALL-Eが克服できていることから現在の技術で克服できないものではないということなのでその内に全体としてもしれっと改善されていくんでしょうね!
コメントを残す