Imagen AI
Imagen AI

Imagen: واقعية تصويرية غير مسبوقة × مستوى عميق لفهم اللغة

تفاصيل Imagen AI

معلومات المنتج

وصف المنتج

Imagen هو نظام ذكاء اصطناعي لتحويل النص إلى صورة يقوم بإنشاء صور واقعية من نص الإدخال. يتم تدريبه على مجموعات بيانات ضخمة ويحقق أحدث النتائج في دقة الصورة ومحاذاة النص والصور.

صورة: تخيل، وضح، ألهم

ما هو إيماجين؟

Imagen هو نظام ذكاء اصطناعي لتحويل النص إلى صورة تم تطويره بواسطة Google Research ويمكنه إنشاء صور واقعية من نص الإدخال. إنه يستفيد من قوة نماذج لغة المحولات الكبيرة لفهم النص ويستخدم نماذج الانتشار لإنشاء صور عالية الدقة. يُظهر Imagen فهمًا عميقًا للغة ويمكنه إنشاء صور ليست مذهلة بصريًا فحسب، بل تتوافق أيضًا بشكل وثيق مع الأوصاف النصية المقدمة.

كيفية عمل إيماجين

يستخدم Imagen عملية من مرحلتين لتوليد الصور:
  • **ترميز النص:** يقوم نموذج اللغة T5-XXL الضخم والمجمّد بترميز النص المُدخل في تضمينات تلتقط المعنى الدلالي وسياق الوصف.
  • **إنشاء الصور:** يأخذ نموذج النشر المتتالي تضمينات النص هذه كمدخلات وينشئ صورًا من خلال سلسلة من خطوات التقريب، بدءًا من صورة منخفضة الدقة وتحسينها تدريجيًا إلى مخرجات عالية الدقة.
  • لى>

الميزات الرئيسية للصورة

  • واقعية تصوير غير مسبوقة: تنتج Imagen صورًا ذات تفاصيل رائعة وواقعية، وتلتقط الأنسجة والإضاءة والمنظورات المعقدة.
  • فهم عميق للغة: تفهم شركة Imagen الفروق الدقيقة في اللغة، مما يمكنها من إنشاء صور تعكس بدقة المشهد والأشياء والعلاقات المقصودة.
  • نماذج الانتشار المتتالية: يتيح استخدام نماذج الانتشار المتتالية لشركة Imagen إنشاء صور عالية الدقة مع الحفاظ على الكفاءة الحسابية.
  • نماذج لغوية كبيرة مُدربة مسبقًا: يستخدم Imagen نماذج لغوية كبيرة مُدربة مسبقًا، والتي ثبت أنها فعالة للغاية في مهام تحويل النص إلى صورة.

تطبيقات الصور

لدى Imagen مجموعة واسعة من التطبيقات المحتملة، بما في ذلك:
  • إنشاء المحتوى الإبداعي: ​​يمكن للفنانين والمصممين ورواة القصص استخدام Imagen لإضفاء الحيوية على أفكارهم باستخدام عناصر مرئية عالية الجودة.
  • الأدوات التعليمية: يمكن لـ Imagen مساعدة المعلمين من خلال إنشاء صور مرئية تعمل على تحسين المواد التعليمية وتسهيل فهم المفاهيم المعقدة.
  • التسويق والإعلان: يمكن للشركات الاستفادة من Imagen لإنشاء صور جذابة للحملات التسويقية وعروض المنتجات.

Imagen هي أداة قوية تمكن المستخدمين من إنشاء صور واقعية بناءً على الأوصاف النصية الخاصة بهم. بفضل فهمها العميق للغة وإمكانيات توليد الصور المتطورة، تقدم Imagen إمكانيات مثيرة للتعبير الإبداعي والتقدم التعليمي والعديد من التطبيقات الأخرى.

صورة واقعية غير مسبوقة

حقق Imagen درجة FID جديدة ومتطورة تبلغ 7.27 في مجموعة بيانات COCO، دون أي تدريب على COCO، ووجد المقيمون البشريون أن عينات Imagen تتساوى مع بيانات COCO نفسها في محاذاة نص الصورة.

المستوى العميق لفهم اللغة

يستخدم Imagen برنامج تشفير T5-XXL كبير الحجم لتشفير النص المُدخل في التضمينات. يقوم نموذج النشر المشروط بتعيين النص المضمن في صورة مقاس 64 × 64. يستخدم Imagen أيضًا نماذج نشر فائقة الدقة مشروطة للنص لتجميع الصورة 64×64←256×256 و256×256←1024×1024.

عرض المزيد

الأسئلة المتكررة

Imagen AI هو نظام ذكاء اصطناعي يستفيد من قوة نماذج اللغة الكبيرة (LLMs) ونماذج الانتشار لإنشاء صور واقعية من المطالبات النصية. إنه يحقق أحدث النتائج في جودة الصورة ومواءمتها مع أوصاف النص.

يسلط البحث الضوء على العديد من النتائج الرئيسية:
  • تعتبر دورات LLM الكبيرة والمدربة مسبقًا فعالة للغاية في مهام تحويل النص إلى صورة.
  • يعد قياس حجم LLM أكثر أهمية من قياس حجم نموذج الانتشار في تحسين جودة الصورة ومواءمتها.
  • يسمح جهاز أخذ عينات انتشار العتبة الجديد باستخدام أوزان إرشادية أكبر خالية من المصنفات، مما يعزز إنتاج الصور.
  • تعمل بنية U-Net الفعالة على تحسين كفاءة الحساب والذاكرة، مما يؤدي إلى تقارب أسرع.
  • حققت Imagen معدل COCO FID الجديد المتطور البالغ 7.27، مما يدل على إخلاصها وتوافقها الفائقين.

DrawBench هو معيار شامل مصمم لتقييم نماذج تحويل النص إلى صورة بطريقة صارمة ومليئة بالتحديات. وهو يتضمن مجموعة متنوعة من المحفزات، مثل تلك التي تتضمن التركيبية، والأصلية، والعلاقات المكانية، والنص الطويل. أجرى المقيمون البشريون مقارنات جنبًا إلى جنب بين Imagen ونماذج أخرى، ووجدوا أن Imagen يتفوق باستمرار في دقة الصورة ومحاذاة نص الصورة.

إليك بعض الأمثلة على المخرجات التي تم إنشاؤها بواسطة Imagen:
  • دماغ يركب سفينة صاروخية متجهة نحو القمر.
  • فاكهة تنين ترتدي حزام كاراتيه في الثلج.
  • صبار صغير يرتدي قبعة من القش ونظارة شمسية نيون في الصحراء الكبرى.
  • صورة لكلب من فصيل كورجي يركب دراجة في تايمز سكوير، ويرتدي نظارة شمسية وقبعة للشاطئ.
  • دمى الدببة تسبح في سباق 400 متر فراشة بالأولمبياد.
  • براعم على شكل نص "Imagen" من كتاب القصص الخيالية.
  • تمثال شفاف لبطة مصنوعة من الزجاج أمام لوحة فنية للمناظر الطبيعية.
  • شعاع واحد من الضوء يضيء حاملًا يحمل لوحة رامبرانت لراكون.

Imagen AI له العديد من القيود، خاصة عند إنشاء صور تصور الأشخاص. يُظهر النموذج ميلًا إلى ترميز التحيزات الاجتماعية والقوالب النمطية، بما في ذلك التحيز نحو ألوان البشرة الفاتحة والالتزام بالقوالب النمطية الغربية المتعلقة بالجنسين في تصوير المهن. <ر> بالإضافة إلى ذلك، في حين أن النموذج يؤدي أداءً جيدًا على موضوعات غير بشرية، فإنه يوضح دقة الصورة المتدهورة عند إنشاء صور للأشخاص، مما يشير إلى أن هناك حاجة إلى تحسينات كبيرة في هذا المجال.

يقر فريق البحث التحديات الأخلاقية المرتبطة بنماذج تحويل النص إلى صورة، وخاصة فيما يتعلق بسوء الاستخدام المحتمل وإدامة التحيزات الاجتماعية. لقد قرروا عدم إصدار تعليمات برمجية أو عرض توضيحي عام في هذا الوقت، مشيرين إلى مخاوف بشأن المصادر المفتوحة المسؤولة. ويؤكد الفريق على الحاجة إلى العمل المستقبلي لمعالجة هذه الاعتبارات الأخلاقية وضمان وجود إطار للنقل الخارجي المسؤول للتكنولوجيا.

حركة الموقع الإلكتروني

لا توجد بيانات

المنتجات البديلة