Vicuna: Chatbot Sumber Terbuka yang Mengesankan GPT-4 dengan 90%* Kualitas ChatGPT
Ikhtisar
Kemajuan pesat model bahasa besar (LLM) telah merevolusi sistem chatbot, menghasilkan kemajuan yang belum pernah terjadi sebelumnya tingkat kecerdasan seperti yang terlihat di ChatGPT OpenAI. Namun, meskipun kinerjanya mengesankan, detail pelatihan dan arsitektur ChatGPT masih belum jelas, sehingga menghambat penelitian dan inovasi sumber terbuka di bidang ini. Terinspirasi oleh proyek Meta LLaMA dan Stanford Alpaca, kami memperkenalkan Vicuna-13B, chatbot sumber terbuka yang didukung oleh kumpulan data yang disempurnakan dan infrastruktur yang mudah digunakan dan terukur. Dengan menyempurnakan model dasar LLaMA pada percakapan bersama pengguna yang dikumpulkan dari ShareGPT.com, Vicuna-13B telah menunjukkan kinerja kompetitif dibandingkan model sumber terbuka lainnya seperti Stanford Alpaca. Posting blog ini memberikan evaluasi awal kinerja Vicuna-13B dan menjelaskan infrastruktur pelatihan dan pelayanannya. Kami juga mengundang komunitas untuk berinteraksi dengan demo online kami untuk menguji kemampuan chatbot ini.
Seberapa Baguskah Vicuna?
Setelah menyempurnakan Vicuna dengan 70 ribu percakapan ChatGPT yang dibagikan pengguna, kami menemukan bahwa Vicuna menjadi mampu menghasilkan jawaban yang lebih detail dan terstruktur dibandingkan Alpaca (lihat contoh di bawah), dengan kualitas yang setara dengan ChatGPT.
Demo Online
Coba demo Vicuna-13B di sini!
Pelatihan
Vicuna dibuat dengan menyempurnakan model dasar LLaMA menggunakan sekitar 70 ribu percakapan bersama pengguna yang dikumpulkan dari ShareGPT.com dengan API publik. Untuk memastikan kualitas data, kami mengonversi HTML kembali ke penurunan harga dan memfilter beberapa sampel yang tidak pantas atau berkualitas rendah. Selain itu, kami membagi percakapan panjang menjadi segmen-segmen lebih kecil yang sesuai dengan panjang konteks maksimum model.
- Percakapan multi-putaran: Kami menyesuaikan kerugian pelatihan untuk memperhitungkan percakapan multi-putaran dan menghitung kerugian penyesuaian hanya pada percakapan keluaran chatbot.
- Optimasi Memori: Untuk memungkinkan Vicuna memahami konteks panjang, kami memperluas panjang konteks maksimal dari 512 di alpaka menjadi 2048, yang secara signifikan meningkatkan kebutuhan memori GPU. Kami mengatasi tekanan memori dengan memanfaatkan titik pemeriksaan gradien dan perhatian kilat.
- Pengurangan Biaya melalui Instans Spot: Kumpulan data yang 40x lebih besar dan panjang urutan 4x untuk pelatihan menimbulkan tantangan besar dalam biaya pelatihan. Kami menggunakan spot terkelola SkyPilot untuk mengurangi biaya dengan memanfaatkan instans spot yang lebih murah dengan pemulihan otomatis untuk preemption dan peralihan zona otomatis. Solusi ini memangkas biaya pelatihan model 7B dari sekitar 140 dan model 13B dari sekitar 300.
Melayani
Kami membangun sistem penyajian yang mampu melayani banyak model dengan terdistribusi pekerja. Ini mendukung plug-in pekerja GPU yang fleksibel dari cluster lokal dan cloud. Dengan memanfaatkan pengontrol toleransi kesalahan dan fitur spot terkelola di SkyPilot, sistem penyajian ini dapat bekerja dengan baik dengan instans spot yang lebih murah dari beberapa cloud untuk mengurangi biaya penyajian. Saat ini penerapannya masih ringan dan kami berupaya untuk mengintegrasikan lebih banyak penelitian terbaru kami ke dalamnya.
Bagaimana Cara Mengevaluasi Chatbot?
Mengevaluasi chatbot AI adalah tugas yang menantang, karena memerlukan pengujian pemahaman bahasa, penalaran, dan kesadaran konteks. Dengan semakin canggihnya chatbot AI, tolok ukur terbuka saat ini mungkin tidak lagi memadai. Misalnya, kumpulan data evaluasi yang digunakan di Alpaca Stanford, yang diinstruksikan sendiri, dapat dijawab secara efektif oleh chatbot SOTA, sehingga menyulitkan manusia untuk membedakan perbedaan kinerja. Keterbatasan lainnya mencakup kontaminasi data pelatihan/pengujian dan potensi biaya tinggi untuk membuat tolok ukur baru. Untuk mengatasi masalah ini, kami mengusulkan kerangka evaluasi berdasarkan GPT-4 untuk mengotomatiskan penilaian kinerja chatbot.
Keterbatasan
Kami memperhatikan bahwa, mirip dengan model bahasa besar lainnya, Vicuna memiliki keterbatasan tertentu. Misalnya, lembaga ini tidak pandai mengerjakan tugas-tugas yang melibatkan penalaran atau matematika, dan mungkin mempunyai keterbatasan dalam mengidentifikasi dirinya secara akurat atau memastikan keakuratan faktual dari keluarannya. Selain itu, hal ini belum dioptimalkan secara memadai untuk menjamin keamanan atau memitigasi potensi toksisitas atau bias. Untuk mengatasi masalah keamanan, kami menggunakan API moderasi OpenAI untuk menyaring masukan pengguna yang tidak pantas dalam demo online kami. Meskipun demikian, kami mengantisipasi bahwa Vicuna dapat menjadi titik awal yang terbuka untuk penelitian di masa depan guna mengatasi keterbatasan ini.
Rilis
Dalam rilis pertama kami, kami akan membagikan kode pelatihan, penyajian, dan evaluasi di repo GitHub: https://github.com/lm-sys/FastChat. Kami juga merilis anak timbangan model Vicuna-13B. Tidak ada rencana untuk merilis kumpulan data tersebut. Bergabunglah dengan server Discord kami dan ikuti Twitter kami untuk mendapatkan pembaruan terkini.
Seberapa Baguskah Vicuna?
Setelah menyempurnakan Vicuna dengan 70 ribu percakapan ChatGPT yang dibagikan pengguna, kami menemukan bahwa Vicuna mampu menghasilkan jawaban yang lebih detail dan terstruktur dengan baik dibandingkan dengan Alpaca (lihat contoh di bawah ), dengan kualitas yang setara dengan ChatGPT.
Demo Online
Coba demo Vicuna-13B
di sini< /a>!
Ikhtisar
Kemajuan pesat model bahasa besar (LLM) telah merevolusi sistem chatbot, menghasilkan tingkat kecerdasan yang belum pernah terjadi sebelumnya seperti yang terlihat pada ChatGPT OpenAI. Namun, meskipun kinerjanya mengesankan, detail pelatihan dan arsitektur ChatGPT masih belum jelas, sehingga menghambat penelitian dan inovasi sumber terbuka di bidang ini. Terinspirasi oleh proyek Meta LLaMA dan Stanford Alpaca, kami memperkenalkan Vicuna-13B, chatbot sumber terbuka yang didukung oleh kumpulan data yang disempurnakan dan infrastruktur yang mudah digunakan dan terukur. Dengan menyempurnakan model dasar LLaMA pada percakapan bersama pengguna yang dikumpulkan dari ShareGPT.com, Vicuna-13B telah menunjukkan kinerja kompetitif dibandingkan model sumber terbuka lainnya seperti Stanford Alpaca. Posting blog ini memberikan evaluasi awal kinerja Vicuna-13B dan menjelaskan infrastruktur pelatihan dan pelayanannya. Kami juga mengundang komunitas untuk berinteraksi dengan demo online kami untuk menguji kemampuan chatbot ini.
Pelatihan
Vicuna dibuat dengan menyempurnakan model dasar LLaMA menggunakan sekitar 70 ribu pengguna- percakapan bersama yang dikumpulkan dari ShareGPT.com dengan API publik. Untuk memastikan kualitas data, kami mengonversi HTML kembali ke penurunan harga dan memfilter beberapa sampel yang tidak pantas atau berkualitas rendah. Selain itu, kami membagi percakapan panjang menjadi segmen-segmen lebih kecil yang sesuai dengan panjang konteks maksimum model.
Pelayanan
Kami membangun sistem penyajian yang mampu melayani banyak model dengan pekerja terdistribusi. Ini mendukung plug-in pekerja GPU yang fleksibel dari cluster lokal dan cloud. Dengan memanfaatkan pengontrol toleransi kesalahan dan fitur spot terkelola di SkyPilot, sistem penyajian ini dapat bekerja dengan baik dengan instans spot yang lebih murah dari beberapa cloud untuk mengurangi biaya penyajian. Saat ini penerapannya ringan dan kami berupaya mengintegrasikan lebih banyak
penelitian
terbaru kami ke dalamnya.
Bagaimana caranya Untuk Mengevaluasi Chatbot?
Mengevaluasi chatbot AI adalah tugas yang menantang, karena memerlukan pemeriksaan pemahaman bahasa, penalaran, dan kesadaran konteks. Dengan semakin canggihnya chatbot AI, tolok ukur terbuka saat ini mungkin tidak lagi memadai. Misalnya, kumpulan data evaluasi yang digunakan di Alpaca Stanford,
self-instruct, dapat dijawab secara efektif dengan Chatbots SOTA, sehingga menyulitkan manusia untuk membedakan perbedaan kinerja. Keterbatasan lainnya mencakup kontaminasi data pelatihan/pengujian dan potensi biaya tinggi untuk membuat tolok ukur baru. Untuk mengatasi masalah ini, kami mengusulkan kerangka evaluasi berdasarkan GPT-4 untuk mengotomatiskan penilaian kinerja chatbot.
Keterbatasan
Kami memperhatikan bahwa, mirip dengan model bahasa besar lainnya, Vicuna telah batasan tertentu. Misalnya, lembaga ini tidak pandai mengerjakan tugas-tugas yang melibatkan penalaran atau matematika, dan lembaga tersebut mungkin memiliki keterbatasan dalam mengidentifikasi dirinya secara akurat atau memastikan keakuratan faktual dari keluarannya. Selain itu, hal ini belum dioptimalkan secara memadai untuk menjamin keamanan atau memitigasi potensi toksisitas atau bias. Untuk mengatasi masalah keamanan, kami menggunakan
moderasi
OpenAI untuk menyaring masukan pengguna yang tidak pantas dalam demo online kami . Meskipun demikian, kami berharap Vicuna dapat menjadi titik awal yang terbuka untuk penelitian di masa depan guna mengatasi keterbatasan ini.