Vicuna AI 的局限性是什么？

Vicuna AI 与其他大型语言模型一样，也有一定的局限性。其中包括：<ul><li>推理和数学方面的困难</li><li>事实准确性可能不准确</li><li>有限的安全保证和可能的毒性或偏见</li></ul><br > 开发人员正在通过未来持续的研究来解决这些限制。

Vicuna AI

Vicuna：一个开源聊天机器人，以 90%* ChatGPT 质量给 GPT-4 留下深刻印象

访问

Vicuna AI 详情

产品信息

社交媒体

产品描述

<p>我们介绍 Vicuna-13B，这是一个开源聊天机器人，通过对从 ShareGPT 收集的用户共享对话进行微调 LLaMA 进行训练。初步评估...

Vicuna AI 介绍

Vicuna：开源聊天机器人，以 90%* ChatGPT 质量给 GPT-4 留下深刻印象

概述

大型语言模型 (LLM) 的快速发展彻底改变了聊天机器人系统，带来了前所未有的OpenAI 的 ChatGPT 中显示的智能水平。然而，尽管其性能令人印象深刻，但 ChatGPT 的训练和架构细节仍不清楚，阻碍了该领域的研究和开源创新。受 Meta LLaMA 和斯坦福羊驼项目的启发，我们推出了 Vicuna-13B，这是一个开源聊天机器人，由增强的数据集和易于使用、可扩展的基础设施支持。通过根据从 ShareGPT.com 收集的用户共享对话对 LLaMA 基础模型进行微调，Vicuna-13B 与斯坦福羊驼 (Stanford Alpaca) 等其他开源模型相比，表现出具有竞争力的性能。这篇博文对 Vicuna-13B 的性能进行了初步评估，并描述了其训练和服务基础设施。我们还邀请社区与我们的在线演示互动，以测试该聊天机器人的功能。

Vicuna 有多好？

通过 7 万个用户共享的 ChatGPT 对话对 Vicuna 进行微调后，我们发现 Vicuna 变得有能力与 Alpaca 相比，可以生成更详细、结构良好的答案（请参见下面的示例），其质量与 ChatGPT 相当。

在线演示

在这里尝试 Vicuna-13B 演示！

训练

Vicuna 是通过使用从 ShareGPT.com 和公共 API 收集的大约 7 万个用户共享对话对 LLaMA 基础模型进行微调而创建的。为了保证数据质量，我们将 HTML 转换回 Markdown，并过滤掉一些不合适或低质量的样本。此外，我们将冗长的对话分成适合模型最大上下文长度的较小片段。

多轮对话：我们调整训练损失以考虑多轮对话，并仅根据聊天机器人的输出。
内存优化：为了使 Vicuna 能够理解长上下文，我们将最大上下文长度从 alpaca 的 512 扩展到 2048，这大大增加了 GPU 内存要求。我们通过利用梯度检查点和闪存注意力来解决内存压力。
通过 Spot 实例降低成本：40 倍大的数据集和 4 倍的训练序列长度对训练费用构成了相当大的挑战。我们采用 SkyPilot 托管现货，通过利用更便宜的现货实例以及抢占自动恢复和自动区域切换功能来降低成本。该解决方案将 7B 模型的训练成本从 140 左右削减，13B 模型的训练成本从 300 左右削减。

服务

我们构建了一个服务系统，能够通过分布式为多个模型提供服务工人。它支持来自本地集群和云端的 GPU Worker 的灵活插件。通过利用 SkyPilot 中的容错控制器和托管点功能，该服务系统可以与来自多个云的更便宜的点实例很好地配合，以降低服务成本。目前它是一个轻量级的实现，我们正在努力将更多的最新研究集成到其中。

如何评估聊天机器人？

评估人工智能聊天机器人是一项具有挑战性的任务，因为它需要检查语言理解、推理、和情境意识。随着人工智能聊天机器人变得更加先进，当前的开放基准可能不再足够。例如，斯坦福大学 Alpaca 使用的评估数据集，自我指导，可以由 SOTA 聊天机器人有效回答，这使得人类很难辨别性能差异。更多限制包括训练/测试数据污染以及创建新基准的潜在高成本。为了解决这些问题，我们提出了一个基于 GPT-4 的评估框架来自动化聊天机器人性能评估。

局限性

我们注意到，与其他大型语言模型类似，Vicuna 也有一定的局限性。例如，它不擅长涉及推理或数学的任务，并且在准确识别自身或确保其输出的事实准确性方面可能存在局限性。此外，它还没有经过充分优化来保证安全性或减轻潜在的毒性或偏见。为了解决安全问题，我们使用 OpenAI 审核 API 来过滤在线演示中不适当的用户输入。尽管如此，我们预计 Vicuna 可以作为未来研究解决这些限制的开放起点。

发布

在我们的第一个版本中，我们将在 GitHub 存储库上共享训练、服务和评估代码： https://github.com/lm-sys/FastChat。我们还发布了 Vicuna-13B 模型配重。没有计划发布数据集。加入我们的 Discord 服务器并关注我们的 Twitter 以获取最新更新。

Vicuna 有多好？

通过 7 万个用户共享的 ChatGPT 对话对 Vicuna 进行微调后，我们发现与 Alpaca 相比，Vicuna 能够生成更详细、结构更良好的答案（请参阅下面的示例）），质量与 ChatGPT 相当。

在线演示

在此处 <尝试 vicuna-13b="Vicuna-13B" 演示<="演示<" a="a">!

概述

大型语言模型 (LLM) 的快速发展彻底改变了聊天机器人系统，带来了前所未有的智能水平，如 OpenAI 的 ChatGPT 所示。然而，尽管其性能令人印象深刻，但 ChatGPT 的训练和架构细节仍不清楚，阻碍了该领域的研究和开源创新。受 Meta LLaMA 和斯坦福羊驼项目的启发，我们推出了 Vicuna-13B，这是一个开源聊天机器人，由增强的数据集和易于使用、可扩展的基础设施支持。通过根据从 ShareGPT.com 收集的用户共享对话对 LLaMA 基础模型进行微调，Vicuna-13B 与斯坦福羊驼 (Stanford Alpaca) 等其他开源模型相比，表现出具有竞争力的性能。这篇博文对 Vicuna-13B 的性能进行了初步评估，并描述了其训练和服务基础设施。我们还邀请社区与我们的在线演示互动，以测试该聊天机器人的功能。

训练

Vicuna 是通过使用大约 7 万用户对 LLaMA 基础模型进行微调而创建的 -使用公共 API 从 ShareGPT.com 收集的共享对话。为了保证数据质量，我们将 HTML 转换回 Markdown，并过滤掉一些不合适或低质量的样本。此外，我们将冗长的对话分成适合模型最大上下文长度的较小部分。

服务

我们构建了一个能够通过分布式工作人员为多个模型提供服务的服务系统。它支持来自本地集群和云端的 GPU Worker 的灵活插件。通过利用 SkyPilot 中的容错控制器和托管点功能，该服务系统可以与来自多个云的更便宜的点实例很好地配合，以降低服务成本。它目前是一个轻量级实现，我们正在努力将更多最新的研究集成到其中。

如何评估聊天机器人？

评估人工智能聊天机器人是一项具有挑战性的任务，因为它需要检查语言理解、推理和上下文感知。随着人工智能聊天机器人变得更加先进，当前的开放基准可能不再足够。例如，斯坦福大学Alpaca使用的评估数据集 self-instruct可以通过以下方式有效回答： SOTA 聊天机器人，使人类很难辨别性能差异。更多限制包括训练/测试数据污染以及创建新基准的潜在高成本。为了解决这些问题，我们提出了一个基于 GPT-4 的评估框架来自动化聊天机器人性能评估。

局限性

我们注意到，与其他大型语言模型类似，Vicuna某些限制。例如，它不擅长涉及推理或数学的任务，并且在准确识别自身或确保其输出的事实准确性方面可能存在局限性。此外，它还没有经过充分优化来保证安全性或减轻潜在的毒性或偏见。为了解决安全问题，我们使用 OpenAI 审核 API 过滤掉在线演示中的不当用户输入。尽管如此，我们预计骆驼毛可以作为未来研究解决这些局限性的开放起点。

显示更多

Vicuna AI 常见问题

以 GPT-4 作为评委的初步评估表明，Vicuna AI 达到了 ChatGPT 和 Google Bard 90% 以上的质量。这意味着在大多数情况下，Vicuna AI 可以提供与 ChatGPT 和 Bard 一样有用、相关、准确和详细的响应。

Vicuna AI 是通过微调 LLaMA 基础模型来训练的基于从 ShareGPT 收集的 70,000 个用户共享对话的数据集。这些对话在训练前被转换为 Markdown 并进行质量过滤。

Vicuna AI 与其他大型语言模型一样，也有一定的局限性。其中包括：

推理和数学方面的困难
事实准确性可能不准确
有限的安全保证和可能的毒性或偏见

开发人员正在通过未来持续的研究来解决这些限制。

Vicuna AI 网站流量

访问次数

日期	访问次数
2024-06-01	2207473
2024-07-01	2143625
2024-08-01	2099531

度量

度量	值
跳出率	59.33%
每次访问页面数	1.99
平均访问时长	177.02 s

地理

国家	分享
🇨🇳 中国	14.42%
🇺🇸 美国	14.22%
🇷🇺 俄罗斯	12.08%
🇻🇳 越南	5.55%
🇩🇪 德国	5.30%

来源

来源	值
直接访问	55.07%
搜索	33.37%
引荐	8.26%
社交媒体	3.06%
付费推荐	0.16%
邮件	0.07%

Vicuna AI 替代产品

Yueyin AI(opens in a new tab)

对话式聊天机器人

制片帮悦音是制片帮旗下配音产品品牌，可以在线将文字转成语音的智能配音产品。悦音配音提供男声女声童声、普通话，方言，英文等多语种的真人声音，在您输入文字后直接生成音频。是一款ai智能在线配音语音合成工具软件。为广告宣传片，短视频实现快速配音需求。

16.6K访问次数

34%搜索

TianGong AI(opens in a new tab)

对话式聊天机器人

天工是国内第一款AI搜索引擎，它能够理解用户意图，搜索全网海量信息，并通过人工智能技术，归纳、概括、整合这些信息，输出高质量、无广告的搜索结果，还能够把搜索结果自动整理为脑图和大纲，支持专业的学术科研类搜索。此外，天工还具备聊天、写作、问答、画画的能力。天工通过自然语言与用户进行问答交互，可满足知识问答、文章创作、逻辑推演、数理推算、代码编程、AI画画、虚拟人聊天、情感陪伴等多元化需求。天工还具有大量的智能体，在学习、职场、生活等多类场景中都能辅助你。

812访问次数

46%搜索

AI Headshot(opens in a new tab)

图像生成

发现顶级 AI 头像生成器。为您所爱的人投票并留下有关您的经历的评论。

Jimeng AI(opens in a new tab)

视频创作

通过极萌AI，将简单的文字或图片瞬间转化为高质量视频，轻松将你的灵感转化为令人惊叹的视觉内容。

665访问次数

37%搜索

Addition Tables(opens in a new tab)

博客与文章撰写

问吧！我们的人工智能加法学习助手可以解决您所有的加法问题。此外，还提供免费可打印的加法表

AI Anime Generator(opens in a new tab)

图像生成

照片转动漫、文字转动漫，使用我们的人工智能动漫生成器在线轻松制作动漫。一键在几秒钟内获得您的动漫艺术。

Vicuna AI

Vicuna AI 详情

产品信息

网站

分类

电子邮箱

社交媒体

产品描述

Vicuna AI 介绍

Vicuna：开源聊天机器人，以 90%* ChatGPT 质量给 GPT-4 留下深刻印象

概述

Vicuna 有多好？

在线演示

训练

服务

如何评估聊天机器人？

局限性

发布

Vicuna 有多好？

在线演示

概述

训练

服务

如何评估聊天机器人？

局限性

Vicuna AI 常见问题

Vicuna AI 与 ChatGPT 和 Bard 相比如何？

Vicuna AI 是如何训练的？

Vicuna AI 的局限性是什么？

Vicuna AI 网站流量

访问次数

度量

地理

来源

Vicuna AI 替代产品

Yueyin AI(opens in a new tab)

TianGong AI(opens in a new tab)

AI Headshot(opens in a new tab)

Jimeng AI(opens in a new tab)

Addition Tables(opens in a new tab)

AI Anime Generator(opens in a new tab)