Vicuna: برنامج Chatbot مفتوح المصدر يثير إعجاب GPT-4 بجودة ChatGPT بنسبة 90%*
نظرة عامة
أحدث التقدم السريع في نماذج اللغات الكبيرة (LLMs) ثورة في أنظمة chatbot، مما أدى إلى إنتاج غير مسبوق مستويات الذكاء كما رأينا في ChatGPT الخاص بـ OpenAI. ومع ذلك، على الرغم من أدائه المثير للإعجاب، فإن تفاصيل التدريب والهندسة المعمارية لـ ChatGPT لا تزال غير واضحة، مما يعيق البحث والابتكار مفتوح المصدر في هذا المجال. مستوحاة من مشروع Meta LLaMA وStanford Alpaca، نقدم Vicuna-13B، وهو برنامج دردشة مفتوح المصدر مدعوم بمجموعة بيانات محسنة وبنية تحتية سهلة الاستخدام وقابلة للتطوير. من خلال الضبط الدقيق لنموذج LLaMA الأساسي على المحادثات المشتركة بين المستخدمين والتي تم جمعها من ShareGPT.com، أظهر Vicuna-13B أداءً تنافسيًا مقارنة بالنماذج الأخرى مفتوحة المصدر مثل Stanford Alpaca. يقدم منشور المدونة هذا تقييمًا أوليًا لأداء Vicuna-13B ويصف البنية التحتية للتدريب والخدمة الخاصة به. نحن أيضًا ندعو المجتمع للتفاعل مع العرض التوضيحي عبر الإنترنت لاختبار قدرات برنامج الدردشة الآلي هذا.
ما مدى جودة Vicuna؟
بعد ضبط Vicuna من خلال 70 ألف محادثة ChatGPT مشتركة بين المستخدمين، اكتشفنا أن Vicuna أصبح قادرًا لتوليد إجابات أكثر تفصيلاً وتنظيمًا جيدًا مقارنة بـ Alpaca (انظر الأمثلة أدناه)، مع جودة مساوية لـ ChatGPT.
عرض توضيحي عبر الإنترنت
جرّب عرض Vicuna-13B التجريبي هنا!
تدريب
تم إنشاء Vicuna من خلال الضبط الدقيق للنموذج الأساسي لـ LLaMA باستخدام ما يقرب من 70 ألف محادثة مشتركة بين المستخدمين تم جمعها من ShareGPT.com مع واجهات برمجة التطبيقات العامة. لضمان جودة البيانات، نقوم بتحويل HTML مرة أخرى إلى تخفيض السعر وتصفية بعض العينات غير المناسبة أو منخفضة الجودة. بالإضافة إلى ذلك، نقوم بتقسيم المحادثات المطولة إلى أجزاء أصغر تناسب الحد الأقصى لطول السياق للنموذج.
- المحادثات متعددة المنعطفات: نقوم بضبط فقدان التدريب ليأخذ في الاعتبار المحادثات متعددة المنعطفات ونحسب فقدان الضبط الدقيق فقط على مخرجات chatbot.
- تحسينات الذاكرة: لتمكين فهم Vicuna للسياق الطويل، قمنا بتوسيع الحد الأقصى لطول السياق من 512 في الألبكة إلى 2048، مما يزيد بشكل كبير من متطلبات ذاكرة وحدة معالجة الرسومات. نحن نعالج ضغط الذاكرة من خلال استخدام نقاط التفتيش المتدرجة والاهتمام السريع.
- تقليل التكلفة عبر مثيل Spot: تمثل مجموعة البيانات الأكبر حجمًا بمقدار 40 مرة وطول التسلسل 4x للتدريب تحديًا كبيرًا في نفقات التدريب. نحن نستخدم نقطة SkyPilot المُدارة لتقليل التكلفة من خلال الاستفادة من المثيلات الموضعية الأرخص مع الاسترداد التلقائي للإجراءات الوقائية والتبديل التلقائي للمنطقة. يعمل هذا الحل على خفض تكاليف تدريب النموذج 7B من حوالي 140 والنموذج 13B من حوالي 300.
التقديم
نحن نبني نظام خدمة قادرًا على تقديم نماذج متعددة مع توزيعات العمال. وهو يدعم المكونات الإضافية المرنة لعمال GPU من كل من المجموعات المحلية والسحابة. من خلال استخدام وحدة تحكم متسامحة مع الأخطاء وميزة النقطة المُدارة في SkyPilot، يمكن لنظام الخدمة هذا أن يعمل بشكل جيد مع مثيلات النقطة الأرخص من السحب المتعددة لتقليل تكاليف الخدمة. إنه حاليًا تطبيق خفيف الوزن ونعمل على دمج المزيد من أحدث أبحاثنا فيه.
كيفية تقييم Chatbot؟
يعد تقييم chatbots AI مهمة صعبة، لأنه يتطلب فحص فهم اللغة والتفكير والفهم. والوعي بالسياق. مع ازدياد تقدم روبوتات الدردشة المدعمة بالذكاء الاصطناعي، ربما لم تعد المعايير المفتوحة الحالية كافية. على سبيل المثال، يمكن لروبوتات الدردشة SOTA الإجابة بشكل فعال على مجموعة بيانات التقييم المستخدمة في Alpaca بجامعة ستانفورد، مما يجعل من الصعب على البشر تمييز الاختلافات في الأداء. تشمل المزيد من القيود تلوث بيانات التدريب/الاختبار والتكلفة العالية المحتملة لإنشاء معايير جديدة. لمعالجة هذه المشكلات، نقترح إطار عمل للتقييم يعتمد على GPT-4 لأتمتة تقييم أداء روبوت الدردشة.
القيود
لقد لاحظنا أنه، على غرار نماذج اللغات الكبيرة الأخرى، فإن Vicuna لديها قيود معينة. على سبيل المثال، فهو ليس جيدًا في المهام التي تتضمن الاستدلال أو الرياضيات، وقد يكون لديه قيود في تحديد هويته بدقة أو ضمان الدقة الواقعية لمخرجاته. بالإضافة إلى ذلك، لم يتم تحسينه بشكل كافٍ لضمان السلامة أو تخفيف السمية أو التحيز المحتمل. لمعالجة المخاوف المتعلقة بالسلامة، نستخدم واجهة برمجة التطبيقات (API) للإشراف على OpenAI لتصفية مدخلات المستخدم غير المناسبة في العرض التوضيحي عبر الإنترنت. ومع ذلك، نتوقع أن تكون Vicuna بمثابة نقطة انطلاق مفتوحة للبحث المستقبلي لمعالجة هذه القيود.
الإصدار
في إصدارنا الأول، سنشارك رمز التدريب والخدمة والتقييم في مستودع GitHub: https://github.com/lm-sys/FastChat. أصدرنا أيضًا أوزان طراز Vicuna-13B. لا توجد خطة لإصدار مجموعة البيانات. انضم إلى خادم Discord الخاص بنا وتابع حسابنا على Twitter للحصول على آخر التحديثات.
ما مدى جودة Vicuna؟
بعد ضبط Vicuna من خلال 70 ألف محادثة ChatGPT مشتركة بين المستخدمين، اكتشفنا أن Vicuna أصبحت قادرة على توليد إجابات أكثر تفصيلاً وتنظيمًا جيدًا مقارنة بـ Alpaca (انظر الأمثلة أدناه) )، مع جودة تتساوى مع ChatGPT.
عرض توضيحي عبر الإنترنت
جرّب عرض Vicuna-13B التجريبي
هنا< /a>!
نظرة عامة
أحدث التقدم السريع في نماذج اللغات الكبيرة (LLMs) ثورة في أنظمة chatbot، مما أدى إلى مستويات غير مسبوقة من الذكاء كما رأينا في ChatGPT من OpenAI. ومع ذلك، على الرغم من أدائه المثير للإعجاب، فإن تفاصيل التدريب والهندسة المعمارية لـ ChatGPT لا تزال غير واضحة، مما يعيق البحث والابتكار مفتوح المصدر في هذا المجال. مستوحاة من مشروع Meta LLaMA وStanford Alpaca، نقدم Vicuna-13B، وهو برنامج دردشة مفتوح المصدر مدعوم بمجموعة بيانات محسنة وبنية تحتية سهلة الاستخدام وقابلة للتطوير. من خلال الضبط الدقيق لنموذج LLaMA الأساسي على المحادثات المشتركة بين المستخدمين والتي تم جمعها من ShareGPT.com، أظهر Vicuna-13B أداءً تنافسيًا مقارنة بالنماذج الأخرى مفتوحة المصدر مثل Stanford Alpaca. يقدم منشور المدونة هذا تقييمًا أوليًا لأداء Vicuna-13B ويصف البنية التحتية للتدريب والخدمة الخاصة به. ندعو أيضًا المجتمع للتفاعل مع العرض التوضيحي عبر الإنترنت لاختبار قدرات برنامج الدردشة الآلي هذا.
التدريب
تم إنشاء Vicuna من خلال الضبط الدقيق للنموذج الأساسي لـ LLaMA باستخدام ما يقرب من 70 ألف مستخدم- المحادثات المشتركة التي تم جمعها من ShareGPT.com مع واجهات برمجة التطبيقات العامة. لضمان جودة البيانات، نقوم بتحويل HTML مرة أخرى إلى تخفيض السعر وتصفية بعض العينات غير المناسبة أو منخفضة الجودة. بالإضافة إلى ذلك، نقوم بتقسيم المحادثات المطولة إلى أجزاء أصغر تناسب الحد الأقصى لطول سياق النموذج.
الخدمة
نحن نبني نظام خدمة قادرًا على خدمة نماذج متعددة مع عمال موزعين. وهو يدعم المكونات الإضافية المرنة لعمال GPU من كل من المجموعات المحلية والسحابة. من خلال استخدام وحدة تحكم متسامحة مع الأخطاء وميزة النقطة المُدارة في SkyPilot، يمكن لنظام الخدمة هذا أن يعمل بشكل جيد مع مثيلات النقطة الأرخص من السحب المتعددة لتقليل تكاليف الخدمة. وهو حاليًا تطبيق خفيف الوزن ونعمل على دمج المزيد من أحدث
الأبحاث
فيه.
كيف لتقييم Chatbot؟
يعد تقييم Chatbots AI مهمة صعبة، لأنه يتطلب فحص فهم اللغة والتفكير والوعي بالسياق. مع ازدياد تقدم روبوتات الدردشة المدعمة بالذكاء الاصطناعي، ربما لم تعد المعايير المفتوحة الحالية كافية. على سبيل المثال، يمكن الإجابة بشكل فعال على مجموعة بيانات التقييم المستخدمة في Alpaca بجامعة ستانفورد،
self-instruct، من خلال روبوتات الدردشة SOTA، تجعل من الصعب على البشر تمييز الاختلافات في الأداء. تشمل المزيد من القيود تلوث بيانات التدريب/الاختبار والتكلفة العالية المحتملة لإنشاء معايير جديدة. لمعالجة هذه المشكلات، نقترح إطار عمل للتقييم يعتمد على GPT-4 لأتمتة تقييم أداء برنامج الدردشة الآلي.
القيود
لقد لاحظنا أنه، على غرار نماذج اللغات الكبيرة الأخرى، تمتلك Vicuna قيود معينة. على سبيل المثال، فهو ليس جيدًا في المهام التي تتضمن الاستدلال أو الرياضيات، وقد يكون لديه قيود في تحديد هويته بدقة أو ضمان الدقة الواقعية لمخرجاته. بالإضافة إلى ذلك، لم يتم تحسينه بشكل كافٍ لضمان السلامة أو تخفيف السمية أو التحيز المحتمل. لمعالجة المخاوف المتعلقة بالسلامة، نستخدم واجهة برمجة التطبيقات
المعتدلة
الخاصة بـ OpenAI لتصفية مدخلات المستخدم غير الملائمة في العرض التوضيحي عبر الإنترنت. . ومع ذلك، نتوقع أن تكون Vicuna بمثابة نقطة انطلاق مفتوحة للبحث المستقبلي لمعالجة هذه القيود.