Imagen は、入力テキストからフォトリアリスティックな画像を生成するテキストから画像への AI システムです。大規模なデータセットでトレーニングされ、画像の忠実性とテキストと画像の位置合わせにおいて最先端の結果が得られます。
Imagen: 想像する、イラストを描く、インスピレーションを与える
Imagen とは何ですか?
Imagen は、Google Research によって開発されたテキストから画像への AI システムで、入力テキストからフォトリアリスティックな画像を作成できます。大規模なトランスフォーマー言語モデルの力を利用してテキストを理解し、拡散モデルを利用して忠実度の高い画像を生成します。 Imagen は言語を深く理解しており、視覚的に美しいだけでなく、提供されるテキストの説明と厳密に一致する画像を生成できます。
Imagen AI には、特に人物を描いた画像を生成する場合に、いくつかの制限があります。このモデルは、職業を描く際の肌の色が明るいことへの偏見や西洋の性別固定観念への固執など、社会的な偏見や固定観念をコード化する傾向を示しています。
さらに、このモデルは人間以外の被写体では良好なパフォーマンスを示しますが、人間の画像を生成する場合には画像の忠実度が低下することが示されており、この分野で大幅な改善が必要であることが示されています。