Vicuna: %90* ChatGPT Kalitesiyle GPT-4'ü Etkileyen Açık Kaynaklı Bir Chatbot
Genel Bakış
Büyük dil modellerinin (LLM'ler) hızlı gelişimi, chatbot sistemlerinde devrim yarattı ve bunun sonucunda benzeri görülmemiş sonuçlar elde edildi. OpenAI'nin ChatGPT'sinde görülen zeka seviyeleri. Ancak etkileyici performansına rağmen ChatGPT'nin eğitim ve mimari ayrıntıları belirsizliğini koruyor ve bu alandaki araştırmaları ve açık kaynak yeniliklerini engelliyor. Meta LLaMA ve Stanford Alpaca projesinden ilham alarak, gelişmiş bir veri kümesi ve kullanımı kolay, ölçeklenebilir bir altyapı ile desteklenen açık kaynaklı bir sohbet robotu olan Vicuna-13B'yi tanıtıyoruz. ShareGPT.com'dan toplanan kullanıcı tarafından paylaşılan konuşmalar üzerinde bir LLaMA temel modeline ince ayar yapan Vicuna-13B, Stanford Alpaca gibi diğer açık kaynaklı modellerle karşılaştırıldığında rekabetçi bir performans sergiledi. Bu blog yazısı Vicuna-13B'nin performansına ilişkin bir ön değerlendirme sunmakta ve eğitim ve hizmet altyapısını anlatmaktadır. Ayrıca topluluğu, bu sohbet robotunun yeteneklerini test etmek için çevrimiçi demomuzla etkileşime girmeye davet ediyoruz.
Vicuna Ne Kadar İyi?
Vicuna'ya 70.000 kullanıcı tarafından paylaşılan ChatGPT sohbetiyle ince ayar yaptıktan sonra, Vicuna'nın yetenekli hale geldiğini keşfettik Alpaca'ya kıyasla daha ayrıntılı ve iyi yapılandırılmış yanıtlar oluşturma (aşağıdaki örneklere bakın), ChatGPT ile aynı kalitede.
Çevrimiçi Demo
Vicuna-13B demosunu buradan deneyin!
Eğitim
Vicuna, ShareGPT.com'dan genel API'lerle toplanan yaklaşık 70.000 kullanıcı tarafından paylaşılan görüşme kullanılarak bir LLaMA temel modeline ince ayar yapılarak oluşturulmuştur. Veri kalitesini sağlamak için HTML'yi yeniden işaretlemeye dönüştürüyoruz ve bazı uygunsuz veya düşük kaliteli örnekleri filtreliyoruz. Ek olarak, uzun konuşmaları modelin maksimum bağlam uzunluğuna uyacak şekilde daha küçük bölümlere ayırırız.
- Çok turlu konuşmalar: Eğitim kaybını çok turlu konuşmaları hesaba katacak şekilde ayarlar ve ince ayar kaybını yalnızca chatbot'un çıktısı.
- Bellek Optimizasyonları: Vicuna'nın uzun bağlamı anlamasını sağlamak için maksimum bağlam uzunluğunu alpaka'da 512'den 2048'e genişletiyoruz, bu da GPU bellek gereksinimlerini önemli ölçüde artırıyor. Degrade kontrol noktası oluşturma ve flaş dikkatini kullanarak bellek baskısını ortadan kaldırırız.
- Spot Bulut Sunucusu Yoluyla Maliyet Azaltma: Eğitim için 40 kat daha büyük veri kümesi ve 4 kat dizi uzunluğu, eğitim harcamalarında önemli bir zorluk oluşturur. Ön alımlar için otomatik kurtarma ve otomatik bölge geçişi ile daha ucuz spot örneklerinden yararlanarak maliyeti azaltmak için SkyPilot tarafından yönetilen spotu kullanıyoruz. Bu çözüm, 7B modelinin eğitim maliyetlerini yaklaşık 140'tan, 13B modelinin ise yaklaşık 300'den düşürüyor.
Hizmet Verme
Dağıtılmış ağlarla birden fazla modele hizmet verebilen bir hizmet sistemi oluşturuyoruz. işçiler. Hem şirket içi kümelerden hem de buluttan GPU çalışanlarının esnek eklentisini destekler. SkyPilot'ta hataya dayanıklı bir denetleyici ve yönetilen nokta özelliği kullanan bu hizmet sistemi, hizmet maliyetlerini azaltmak için birden fazla buluttaki daha ucuz spot bulut sunucularıyla iyi çalışabilir. Şu anda hafif bir uygulamadır ve en son araştırmalarımızdan daha fazlasını buna entegre etmeye çalışıyoruz.
Bir Sohbet Robotu Nasıl Değerlendirilir?
Yapay zeka sohbet robotlarını değerlendirmek zorlu bir iştir çünkü dilin anlaşılmasını, akıl yürütmeyi, ve bağlam farkındalığı. Yapay zeka sohbet robotlarının daha gelişmiş hale gelmesiyle birlikte mevcut açık kıyaslamalar artık yeterli olmayabilir. Örneğin, Stanford'un Alpaca'sında kullanılan kendi kendine talimat değerlendirme veri seti, SOTA sohbet robotları tarafından etkili bir şekilde yanıtlanabiliyor ve bu da insanların performans farklılıklarını ayırt etmesini zorlaştırıyor. Diğer sınırlamalar arasında eğitim/test verilerinin kirlenmesi ve yeni kıyaslamalar oluşturmanın potansiyel olarak yüksek maliyeti yer alır. Bu sorunların üstesinden gelmek için, chatbot performans değerlendirmesini otomatikleştirmek üzere GPT-4'ü temel alan bir değerlendirme çerçevesi öneriyoruz.
Sınırlamalar
Diğer büyük dil modellerine benzer şekilde Vicuna'nın da belirli sınırlamaları olduğunu fark ettik. Örneğin, akıl yürütme veya matematik içeren görevlerde iyi değildir ve kendisini doğru bir şekilde tanımlama veya çıktılarının gerçek doğruluğunu sağlama konusunda sınırlamaları olabilir. Ayrıca güvenliği garanti etmek veya potansiyel toksisiteyi veya yanlılığı azaltmak için yeterince optimize edilmemiştir. Güvenlik endişelerini gidermek amacıyla çevrimiçi demomuzdaki uygunsuz kullanıcı girişlerini filtrelemek için OpenAI moderasyon API'sini kullanıyoruz. Yine de Vicuna'nın bu kısıtlamaların üstesinden gelmeye yönelik gelecekteki araştırmalar için açık bir başlangıç noktası olarak hizmet edebileceğini öngörüyoruz.
Sürüm
İlk sürümümüzde eğitim, sunum ve değerlendirme kodunu GitHub deposunda paylaşacağız: https://github.com/lm-sys/FastChat. Ayrıca Vicuna-13B model ağırlıklarını da piyasaya sürdük. Veri setini yayınlamaya yönelik bir plan yok. Discord sunucumuza katılın ve en son güncellemeleri almak için Twitter'ımızı takip edin.
Vicuna Ne Kadar İyi?
Vicuna'da kullanıcı tarafından paylaşılan 70.000 ChatGPT sohbetiyle ince ayar yaptıktan sonra Vicuna'nın Alpaca'ya kıyasla daha ayrıntılı ve iyi yapılandırılmış yanıtlar üretme kapasitesine sahip olduğunu keşfettik (aşağıdaki örneklere bakın) ), ChatGPT ile aynı kalitede.
Çevrimiçi Demo
Vicuna-13B demosunu
buradan< deneyin. /a>!
Genel Bakış
Büyük dil modellerinin (LLM'ler) hızlı gelişimi, chatbot sistemlerinde devrim yarattı ve OpenAI'nin ChatGPT'sinde görüldüğü gibi benzeri görülmemiş zeka seviyelerine yol açtı. Ancak etkileyici performansına rağmen ChatGPT'nin eğitim ve mimari ayrıntıları belirsizliğini koruyor ve bu alandaki araştırmaları ve açık kaynak yeniliklerini engelliyor. Meta LLaMA ve Stanford Alpaca projesinden ilham alarak, gelişmiş bir veri kümesi ve kullanımı kolay, ölçeklenebilir bir altyapı ile desteklenen açık kaynaklı bir sohbet robotu olan Vicuna-13B'yi tanıtıyoruz. ShareGPT.com'dan toplanan kullanıcı tarafından paylaşılan konuşmalar üzerinde bir LLaMA temel modeline ince ayar yapan Vicuna-13B, Stanford Alpaca gibi diğer açık kaynaklı modellerle karşılaştırıldığında rekabetçi bir performans sergiledi. Bu blog yazısı Vicuna-13B'nin performansına ilişkin bir ön değerlendirme sunmakta ve eğitim ve hizmet altyapısını anlatmaktadır. Ayrıca topluluğu, bu sohbet robotunun yeteneklerini test etmek için çevrimiçi demomuzla etkileşime girmeye davet ediyoruz.
Eğitim
Vicuna, yaklaşık 70.000 kullanıcı kullanılarak bir LLaMA temel modeline ince ayar yapılarak oluşturulmuştur. ShareGPT.com'dan genel API'lerle toplanan paylaşılan konuşmalar. Veri kalitesini sağlamak için HTML'yi yeniden işaretlemeye dönüştürüyoruz ve bazı uygunsuz veya düşük kaliteli örnekleri filtreliyoruz. Ek olarak, uzun konuşmaları modelin maksimum bağlam uzunluğuna uyacak şekilde daha küçük bölümlere ayırıyoruz.
Sunum
Dağıtılmış çalışanlarla birden fazla modele hizmet verebilecek bir hizmet sistemi oluşturuyoruz. Hem şirket içi kümelerden hem de buluttan GPU çalışanlarının esnek eklentisini destekler. SkyPilot'ta hataya dayanıklı bir denetleyici ve yönetilen nokta özelliği kullanan bu hizmet sistemi, hizmet maliyetlerini azaltmak için birden fazla buluttaki daha ucuz spot bulut sunucularıyla iyi çalışabilir. Şu anda hafif bir uygulamadır ve en son
araştırmamızın
daha fazlasını buna entegre etmeye çalışıyoruz.
Nasıl Bir Chatbot'u Değerlendirmek İçin?
Yapay zeka sohbet robotlarını değerlendirmek, dil anlayışının, muhakemenin ve bağlam farkındalığının incelenmesini gerektirdiğinden zorlu bir iştir. Yapay zeka sohbet robotlarının daha gelişmiş hale gelmesiyle birlikte mevcut açık kıyaslamalar artık yeterli olmayabilir. Örneğin, Stanford'un Alpaca'sında kullanılan değerlendirme veri seti
self-instruct
şu şekilde etkili bir şekilde yanıtlanabilir: SOTA sohbet robotları, insanların performans farklılıklarını ayırt etmesini zorlaştırıyor. Diğer sınırlamalar arasında eğitim/test verilerinin kirlenmesi ve yeni kıyaslamalar oluşturmanın potansiyel olarak yüksek maliyeti yer alır. Bu sorunların üstesinden gelmek için, chatbot performans değerlendirmesini otomatikleştirmek amacıyla GPT-4'ü temel alan bir değerlendirme çerçevesi öneriyoruz.
Sınırlamalar
Diğer büyük dil modellerine benzer şekilde Vicuna'nın da şunları yaptığını fark ettik: belirli sınırlamalar. Örneğin, akıl yürütme veya matematik içeren görevlerde iyi değildir ve kendisini doğru bir şekilde tanımlama veya çıktılarının gerçek doğruluğunu sağlama konusunda sınırlamaları olabilir. Ayrıca güvenliği garanti etmek veya potansiyel toksisiteyi veya yanlılığı azaltmak için yeterince optimize edilmemiştir. Güvenlikle ilgili endişeleri gidermek amacıyla çevrimiçi demomuzdaki uygunsuz kullanıcı girişlerini filtrelemek için OpenAI
moderation
API'sini kullanıyoruz. . Yine de Vicuna'nın bu sınırlamaların üstesinden gelmeye yönelik gelecekteki araştırmalar için açık bir başlangıç noktası olarak hizmet edebileceğini öngörüyoruz.