Vicuna AI favicon
Vicuna AI

Vicuna AI

Vicuna: En åpen kildekode-chatbot som imponerer GPT-4 med 90 %* ChatGPT-kvalitet

Tilgang

Vicuna AI Detaljer

Produktinformasjon

Sosiale medier

Produktbeskrivelse

<p>Vi introduserer Vicuna-13B, en åpen kildekode chatbot trent ved å finjustere LLaMA på brukerdelte samtaler samlet inn fra ShareGPT. Foreløpig evaluering...

Vicuna AI Introduksjon

Vicuna: En åpen kildekode-chatbot som imponerer GPT-4 med 90 %* ChatGPT-kvalitet

Oversikt

Den raske utviklingen av store språkmodeller (LLM) har revolusjonert chatbot-systemer, noe som har resultert i enestående nivåer av intelligens sett i OpenAIs ChatGPT. Til tross for dens imponerende ytelse, er trenings- og arkitekturdetaljene til ChatGPT fortsatt uklare, noe som hindrer forskning og åpen kildekode-innovasjon på dette feltet. Inspirert av Meta LLaMA og Stanford Alpakka-prosjektet introduserer vi Vicuna-13B, en åpen kildekode chatbot støttet av et forbedret datasett og en brukervennlig, skalerbar infrastruktur. Ved å finjustere en LLaMA-basismodell på brukerdelte samtaler samlet inn fra ShareGPT.com, har Vicuna-13B demonstrert konkurransedyktig ytelse sammenlignet med andre åpen kildekode-modeller som Stanford Alpakka. Dette blogginnlegget gir en foreløpig evaluering av Vicuna-13Bs ytelse og beskriver opplærings- og serveringsinfrastrukturen. Vi inviterer også fellesskapet til å samhandle med vår online demo for å teste egenskapene til denne chatboten.

Hvor bra er Vicuna?

Etter å ha finjustert Vicuna med 70 000 brukerdelte ChatGPT-samtaler, oppdager vi at Vicuna blir kapabel å generere mer detaljerte og velstrukturerte svar sammenlignet med Alpakka (se eksempler nedenfor), med kvaliteten på nivå med ChatGPT.

Online Demo

Prøv Vicuna-13B-demoen her!

Trening

Vicuna er laget ved å finjustere en LLaMA-basismodell ved å bruke omtrent 70 000 brukerdelte samtaler samlet fra ShareGPT.com med offentlige APIer. For å sikre datakvalitet, konverterer vi HTML-en tilbake til markdown og filtrerer ut noen upassende prøver eller prøver av lav kvalitet. I tillegg deler vi lange samtaler i mindre segmenter som passer til modellens maksimale kontekstlengde.
  • Multi-sving-samtaler: Vi justerer treningstapet for å ta hensyn til multi-turn-samtaler og beregner finjusteringstapet utelukkende på chatbots utgang.
  • Minneoptimalisering: For å muliggjøre Vicunas forståelse av lang kontekst, utvider vi den maksimale kontekstlengden fra 512 i alpakka til 2048, noe som øker GPU-minnekravene betydelig. Vi takler minnepresset ved å bruke gradientkontrollpunkt og flash-oppmerksomhet.
  • Kostnadsreduksjon via Spot Instance: Det 40x større datasettet og 4x sekvenslengden for trening utgjør en betydelig utfordring i treningsutgifter. Vi bruker SkyPilot administrert spot for å redusere kostnadene ved å utnytte de billigere spotforekomstene med automatisk gjenoppretting for forkjøp og automatisk sonebytte. Denne løsningen reduserer kostnadene for opplæring av 7B-modellen fra rundt 140 og 13B-modellen fra rundt 300.

Servering

Vi bygger et serveringssystem som er i stand til å betjene flere modeller med distribuert arbeidere. Den støtter fleksibel plug-in for GPU-arbeidere fra både lokale klynger og skyen. Ved å bruke en feiltolerant kontroller og administrert spot-funksjon i SkyPilot, kan dette serveringssystemet fungere godt med billigere spotforekomster fra flere skyer for å redusere serveringskostnadene. Det er for tiden en lett implementering, og vi jobber med å integrere mer av vår nyeste forskning i den.

Hvordan evaluere en chatbot?

Evaluering av AI-chatboter er en utfordrende oppgave, siden det krever å undersøke språkforståelse, resonnement, og kontekstbevissthet. Med AI-chatbots som blir mer avanserte, kan det hende at nåværende åpne benchmarks ikke lenger er tilstrekkelig. For eksempel kan evalueringsdatasettet som brukes i Stanfords Alpakka, selvinstruksjon, effektivt besvares av SOTA chatbots, noe som gjør det vanskelig for mennesker å se forskjeller i ytelse. Flere begrensninger inkluderer forurensning av trenings-/testdata og de potensielt høye kostnadene ved å lage nye benchmarks. For å takle disse problemene foreslår vi et evalueringsrammeverk basert på GPT-4 for å automatisere chatbot-ytelsesvurdering.

Begrensninger

Vi har lagt merke til at, i likhet med andre store språkmodeller, har Vicuna visse begrensninger. For eksempel er den ikke god på oppgaver som involverer resonnement eller matematikk, og den kan ha begrensninger i å identifisere seg selv nøyaktig eller sikre den faktiske nøyaktigheten til utdataene. I tillegg er den ikke tilstrekkelig optimalisert til å garantere sikkerhet eller redusere potensiell toksisitet eller skjevhet. For å løse sikkerhetsproblemene bruker vi OpenAI moderasjons-API for å filtrere ut upassende brukerinndata i vår online demo. Ikke desto mindre forventer vi at Vicuna kan tjene som et åpent utgangspunkt for fremtidig forskning for å takle disse begrensningene.

Utgivelse

I vår første utgivelse vil vi dele opplærings-, serverings- og evalueringskoden på en GitHub-repo: https://github.com/lm-sys/FastChat. Vi lanserte også Vicuna-13B modellvekter. Det er ingen plan om å frigi datasettet. Bli med på vår Discord-server og følg vår Twitter for å få de siste oppdateringene.

Hvor bra er Vicuna?

Etter å ha finjustert Vicuna med 70 000 brukerdelte ChatGPT-samtaler, oppdager vi at Vicuna blir i stand til å generere mer detaljerte og velstrukturerte svar sammenlignet med Alpakka (se eksempler nedenfor ), med kvaliteten på nivå med ChatGPT.

Nettdemo

Prøv Vicuna-13B-demoen her< /a>!

Oversikt

Den raske utviklingen av store språkmodeller (LLMs) har revolusjonert chatbot-systemer, noe som har resultert i enestående nivåer av intelligens som sett i OpenAIs ChatGPT. Til tross for dens imponerende ytelse, er trenings- og arkitekturdetaljene til ChatGPT fortsatt uklare, noe som hindrer forskning og åpen kildekode-innovasjon på dette feltet. Inspirert av Meta LLaMA og Stanford Alpakka-prosjektet introduserer vi Vicuna-13B, en åpen kildekode chatbot støttet av et forbedret datasett og en brukervennlig, skalerbar infrastruktur. Ved å finjustere en LLaMA-basismodell på brukerdelte samtaler samlet inn fra ShareGPT.com, har Vicuna-13B demonstrert konkurransedyktig ytelse sammenlignet med andre åpen kildekode-modeller som Stanford Alpakka. Dette blogginnlegget gir en foreløpig evaluering av Vicuna-13Bs ytelse og beskriver opplærings- og serveringsinfrastrukturen. Vi inviterer også fellesskapet til å samhandle med vår nettbaserte demo for å teste egenskapene til denne chatboten.

Opplæring

Vicuna lages ved å finjustere en LLaMA-grunnmodell med ca. 70 000 bruker- delte samtaler samlet fra ShareGPT.com med offentlige APIer. For å sikre datakvalitet, konverterer vi HTML-en tilbake til markdown og filtrerer ut noen upassende prøver eller prøver av lav kvalitet. I tillegg deler vi lange samtaler inn i mindre segmenter som passer til modellens maksimale kontekstlengde.

Servering

Vi bygger et serveringssystem som er i stand til å betjene flere modeller med distribuerte arbeidere. Den støtter fleksibel plug-in for GPU-arbeidere fra både lokale klynger og skyen. Ved å bruke en feiltolerant kontroller og administrert spot-funksjon i SkyPilot, kan dette serveringssystemet fungere godt med billigere spotforekomster fra flere skyer for å redusere serveringskostnadene. Det er for øyeblikket en lett implementering, og vi jobber med å integrere mer av vår siste forskning i den.

Hvordan Å evaluere en chatbot?

Evaluering av AI-chatboter er en utfordrende oppgave, siden det krever å undersøke språkforståelse, resonnement og kontekstbevissthet. Med AI-chatbots som blir mer avanserte, kan det hende at nåværende åpne benchmarks ikke lenger er tilstrekkelig. For eksempel kan evalueringsdatasettet som brukes i Stanfords Alpakka, self-instruct, effektivt besvares av SOTA chatbots, noe som gjør det vanskelig for mennesker å se forskjeller i ytelse. Flere begrensninger inkluderer forurensning av trenings-/testdata og de potensielt høye kostnadene ved å lage nye benchmarks. For å takle disse problemene, foreslår vi et evalueringsrammeverk basert på GPT-4 for å automatisere chatbot-ytelsesvurdering.

Begrensninger

Vi har lagt merke til at, i likhet med andre store språkmodeller, har Vicuna visse begrensninger. For eksempel er den ikke god på oppgaver som involverer resonnement eller matematikk, og den kan ha begrensninger i å identifisere seg selv nøyaktig eller sikre den faktiske nøyaktigheten til utdataene. I tillegg er den ikke tilstrekkelig optimalisert til å garantere sikkerhet eller redusere potensiell toksisitet eller skjevhet. For å løse sikkerhetsproblemene bruker vi OpenAI moderering API for å filtrere ut upassende brukerinndata i vår online demo . Ikke desto mindre forventer vi at Vicuna kan tjene som et åpent utgangspunkt for fremtidig forskning for å takle disse begrensningene.

Vis mer

Vicuna AI FAQ

Foreløpige evalueringer som bruker GPT-4 som dommer indikerer at Vicuna AI oppnår mer enn 90 % av kvaliteten til ChatGPT og Google Bard. Dette betyr at Vicuna AI kan gi svar som er like nyttige, relevante, nøyaktige og detaljerte som ChatGPT og Bard i de fleste tilfeller.

Vicuna AI ble trent ved å finjustere en LLaMA-grunnmodell på et datasett med 70 000 brukerdelte samtaler samlet inn fra ShareGPT. Disse samtalene ble konvertert til markdown og filtrert for kvalitet før trening.

Vicuna AI har, som andre store språkmodeller, visse begrensninger. Disse inkluderer:
  • Vanskeligheter med resonnement og matematikk
  • Potensielt unøyaktig faktisk nøyaktighet
  • Begrensede sikkerhetsgarantier og mulig toksisitet eller skjevhet

Utviklerne jobber med å adressere disse begrensningene gjennom pågående fremtidig forskning.

Vicuna AI Nettstedstrafikk

Besøk

DatoBesøk
2024-06-012207473
2024-07-012143625
2024-08-012099531

Metrikk

MetrikkVerdi
Sprettrate59.33%
Sider per besøk1.99
Gjennomsnittlig besøksvarighet177.02 s

Geografi

LandDel
🇨🇳

Kina

14.42%

🇺🇸

USA

14.22%

🇷🇺

Russland

12.08%

🇻🇳

Vietnam

5.55%

🇩🇪

Tyskland

5.30%

Kilde

KildeVerdi
Direkte tilgang55.07%
Søk33.37%
Henvisninger8.26%
Sosiale medier3.06%
Betalte henvisninger0.16%
E-post0.07%

Vicuna AI Alternative produkter

Ingen data