Vicuna AI Detaljer
Produktinformasjon
Produktbeskrivelse
<p>Vi introduserer Vicuna-13B, en åpen kildekode chatbot trent ved å finjustere LLaMA på brukerdelte samtaler samlet inn fra ShareGPT. Foreløpig evaluering...
Vicuna AI Introduksjon
Vicuna: En åpen kildekode-chatbot som imponerer GPT-4 med 90 %* ChatGPT-kvalitet
Oversikt
Den raske utviklingen av store språkmodeller (LLM) har revolusjonert chatbot-systemer, noe som har resultert i enestående nivåer av intelligens sett i OpenAIs ChatGPT. Til tross for dens imponerende ytelse, er trenings- og arkitekturdetaljene til ChatGPT fortsatt uklare, noe som hindrer forskning og åpen kildekode-innovasjon på dette feltet. Inspirert av Meta LLaMA og Stanford Alpakka-prosjektet introduserer vi Vicuna-13B, en åpen kildekode chatbot støttet av et forbedret datasett og en brukervennlig, skalerbar infrastruktur. Ved å finjustere en LLaMA-basismodell på brukerdelte samtaler samlet inn fra ShareGPT.com, har Vicuna-13B demonstrert konkurransedyktig ytelse sammenlignet med andre åpen kildekode-modeller som Stanford Alpakka. Dette blogginnlegget gir en foreløpig evaluering av Vicuna-13Bs ytelse og beskriver opplærings- og serveringsinfrastrukturen. Vi inviterer også fellesskapet til å samhandle med vår online demo for å teste egenskapene til denne chatboten.Hvor bra er Vicuna?
Etter å ha finjustert Vicuna med 70 000 brukerdelte ChatGPT-samtaler, oppdager vi at Vicuna blir kapabel å generere mer detaljerte og velstrukturerte svar sammenlignet med Alpakka (se eksempler nedenfor), med kvaliteten på nivå med ChatGPT.Online Demo
Prøv Vicuna-13B-demoen her!Trening
Vicuna er laget ved å finjustere en LLaMA-basismodell ved å bruke omtrent 70 000 brukerdelte samtaler samlet fra ShareGPT.com med offentlige APIer. For å sikre datakvalitet, konverterer vi HTML-en tilbake til markdown og filtrerer ut noen upassende prøver eller prøver av lav kvalitet. I tillegg deler vi lange samtaler i mindre segmenter som passer til modellens maksimale kontekstlengde.- Multi-sving-samtaler: Vi justerer treningstapet for å ta hensyn til multi-turn-samtaler og beregner finjusteringstapet utelukkende på chatbots utgang.
- Minneoptimalisering: For å muliggjøre Vicunas forståelse av lang kontekst, utvider vi den maksimale kontekstlengden fra 512 i alpakka til 2048, noe som øker GPU-minnekravene betydelig. Vi takler minnepresset ved å bruke gradientkontrollpunkt og flash-oppmerksomhet.
- Kostnadsreduksjon via Spot Instance: Det 40x større datasettet og 4x sekvenslengden for trening utgjør en betydelig utfordring i treningsutgifter. Vi bruker SkyPilot administrert spot for å redusere kostnadene ved å utnytte de billigere spotforekomstene med automatisk gjenoppretting for forkjøp og automatisk sonebytte. Denne løsningen reduserer kostnadene for opplæring av 7B-modellen fra rundt 140 og 13B-modellen fra rundt 300.
Servering
Vi bygger et serveringssystem som er i stand til å betjene flere modeller med distribuert arbeidere. Den støtter fleksibel plug-in for GPU-arbeidere fra både lokale klynger og skyen. Ved å bruke en feiltolerant kontroller og administrert spot-funksjon i SkyPilot, kan dette serveringssystemet fungere godt med billigere spotforekomster fra flere skyer for å redusere serveringskostnadene. Det er for tiden en lett implementering, og vi jobber med å integrere mer av vår nyeste forskning i den.Hvordan evaluere en chatbot?
Evaluering av AI-chatboter er en utfordrende oppgave, siden det krever å undersøke språkforståelse, resonnement, og kontekstbevissthet. Med AI-chatbots som blir mer avanserte, kan det hende at nåværende åpne benchmarks ikke lenger er tilstrekkelig. For eksempel kan evalueringsdatasettet som brukes i Stanfords Alpakka, selvinstruksjon, effektivt besvares av SOTA chatbots, noe som gjør det vanskelig for mennesker å se forskjeller i ytelse. Flere begrensninger inkluderer forurensning av trenings-/testdata og de potensielt høye kostnadene ved å lage nye benchmarks. For å takle disse problemene foreslår vi et evalueringsrammeverk basert på GPT-4 for å automatisere chatbot-ytelsesvurdering.Begrensninger
Vi har lagt merke til at, i likhet med andre store språkmodeller, har Vicuna visse begrensninger. For eksempel er den ikke god på oppgaver som involverer resonnement eller matematikk, og den kan ha begrensninger i å identifisere seg selv nøyaktig eller sikre den faktiske nøyaktigheten til utdataene. I tillegg er den ikke tilstrekkelig optimalisert til å garantere sikkerhet eller redusere potensiell toksisitet eller skjevhet. For å løse sikkerhetsproblemene bruker vi OpenAI moderasjons-API for å filtrere ut upassende brukerinndata i vår online demo. Ikke desto mindre forventer vi at Vicuna kan tjene som et åpent utgangspunkt for fremtidig forskning for å takle disse begrensningene.Utgivelse
I vår første utgivelse vil vi dele opplærings-, serverings- og evalueringskoden på en GitHub-repo: https://github.com/lm-sys/FastChat. Vi lanserte også Vicuna-13B modellvekter. Det er ingen plan om å frigi datasettet. Bli med på vår Discord-server og følg vår Twitter for å få de siste oppdateringene.Hvor bra er Vicuna?
Etter å ha finjustert Vicuna med 70 000 brukerdelte ChatGPT-samtaler, oppdager vi at Vicuna blir i stand til å generere mer detaljerte og velstrukturerte svar sammenlignet med Alpakka (se eksempler nedenfor ), med kvaliteten på nivå med ChatGPT.
Nettdemo
Prøv Vicuna-13B-demoen her< /a>!
Oversikt
Den raske utviklingen av store språkmodeller (LLMs) har revolusjonert chatbot-systemer, noe som har resultert i enestående nivåer av intelligens som sett i OpenAIs ChatGPT. Til tross for dens imponerende ytelse, er trenings- og arkitekturdetaljene til ChatGPT fortsatt uklare, noe som hindrer forskning og åpen kildekode-innovasjon på dette feltet. Inspirert av Meta LLaMA og Stanford Alpakka-prosjektet introduserer vi Vicuna-13B, en åpen kildekode chatbot støttet av et forbedret datasett og en brukervennlig, skalerbar infrastruktur. Ved å finjustere en LLaMA-basismodell på brukerdelte samtaler samlet inn fra ShareGPT.com, har Vicuna-13B demonstrert konkurransedyktig ytelse sammenlignet med andre åpen kildekode-modeller som Stanford Alpakka. Dette blogginnlegget gir en foreløpig evaluering av Vicuna-13Bs ytelse og beskriver opplærings- og serveringsinfrastrukturen. Vi inviterer også fellesskapet til å samhandle med vår nettbaserte demo for å teste egenskapene til denne chatboten.
Opplæring
Vicuna lages ved å finjustere en LLaMA-grunnmodell med ca. 70 000 bruker- delte samtaler samlet fra ShareGPT.com med offentlige APIer. For å sikre datakvalitet, konverterer vi HTML-en tilbake til markdown og filtrerer ut noen upassende prøver eller prøver av lav kvalitet. I tillegg deler vi lange samtaler inn i mindre segmenter som passer til modellens maksimale kontekstlengde.
Servering
Vi bygger et serveringssystem som er i stand til å betjene flere modeller med distribuerte arbeidere. Den støtter fleksibel plug-in for GPU-arbeidere fra både lokale klynger og skyen. Ved å bruke en feiltolerant kontroller og administrert spot-funksjon i SkyPilot, kan dette serveringssystemet fungere godt med billigere spotforekomster fra flere skyer for å redusere serveringskostnadene. Det er for øyeblikket en lett implementering, og vi jobber med å integrere mer av vår siste forskning i den.
Hvordan Å evaluere en chatbot?
Evaluering av AI-chatboter er en utfordrende oppgave, siden det krever å undersøke språkforståelse, resonnement og kontekstbevissthet. Med AI-chatbots som blir mer avanserte, kan det hende at nåværende åpne benchmarks ikke lenger er tilstrekkelig. For eksempel kan evalueringsdatasettet som brukes i Stanfords Alpakka, self-instruct, effektivt besvares av SOTA chatbots, noe som gjør det vanskelig for mennesker å se forskjeller i ytelse. Flere begrensninger inkluderer forurensning av trenings-/testdata og de potensielt høye kostnadene ved å lage nye benchmarks. For å takle disse problemene, foreslår vi et evalueringsrammeverk basert på GPT-4 for å automatisere chatbot-ytelsesvurdering.
Begrensninger
Vi har lagt merke til at, i likhet med andre store språkmodeller, har Vicuna visse begrensninger. For eksempel er den ikke god på oppgaver som involverer resonnement eller matematikk, og den kan ha begrensninger i å identifisere seg selv nøyaktig eller sikre den faktiske nøyaktigheten til utdataene. I tillegg er den ikke tilstrekkelig optimalisert til å garantere sikkerhet eller redusere potensiell toksisitet eller skjevhet. For å løse sikkerhetsproblemene bruker vi OpenAI moderering API for å filtrere ut upassende brukerinndata i vår online demo . Ikke desto mindre forventer vi at Vicuna kan tjene som et åpent utgangspunkt for fremtidig forskning for å takle disse begrensningene.
Vicuna AI FAQ
- Vanskeligheter med resonnement og matematikk
- Potensielt unøyaktig faktisk nøyaktighet
- Begrensede sikkerhetsgarantier og mulig toksisitet eller skjevhet
Utviklerne jobber med å adressere disse begrensningene gjennom pågående fremtidig forskning.
Vicuna AI Nettstedstrafikk
Besøk
Dato | Besøk |
---|---|
2024-06-01 | 2207473 |
2024-07-01 | 2143625 |
2024-08-01 | 2099531 |
Metrikk
Metrikk | Verdi |
---|---|
Sprettrate | 59.33% |
Sider per besøk | 1.99 |
Gjennomsnittlig besøksvarighet | 177.02 s |
Geografi
Land | Del |
---|---|
🇨🇳 Kina | 14.42% |
🇺🇸 USA | 14.22% |
🇷🇺 Russland | 12.08% |
🇻🇳 Vietnam | 5.55% |
🇩🇪 Tyskland | 5.30% |
Kilde
Kilde | Verdi |
---|---|
Direkte tilgang | 55.07% |
Søk | 33.37% |
Henvisninger | 8.26% |
Sosiale medier | 3.06% |
Betalte henvisninger | 0.16% |
E-post | 0.07% |