以下文章翻译自generative-ai-act-two
科学家、历史学家和经济学家长期研究创新的“寒武纪大爆炸”所需的最佳条件。在生成式AI领域,我们已经见证了一个现代奇迹,这是我们这一代人的太空竞赛。
这一刻的到来是数十年的积累。摩尔定律(Moore's Law,即集成电路上可容纳的晶体管数目大约每隔两年增加一倍)的六十年使我们拥有了处理艾夫洛普(exaflops,即10的18次方次运算每秒)数据的计算马力。由于COVID的加速,互联网的四十年提供了价值数万亿代币的训练数据。移动和云计算的两十年使每个人的手掌中都拥有一台超级计算机。换句话说,数十年的技术进步已积累到为生成式AI起飞创造了必要的条件。
ChatGPT的崛起是点燃导火索的火花,释放出我们多年未见的创新密度和热情——可能自互联网初期以来。这种令人屏息的兴奋在“Cerebral Valley”尤为强烈,那里的AI研究者成了摇滚巨星,而黑客之家每个周末都挤满了新的自治代理和陪伴聊天机器人。AI研究者从字面上的“车库里的黑客”变成了指挥数十亿美元计算能力的特种部队。arXiv的印刷产量如此之高,以至于研究者们开玩笑地呼吁暂停新的出版物,以便他们赶上。
但很快,AI的兴奋变成了近乎歇斯底里。突然,每家公司都成了“AI副驾驶”。我们的收件箱被“AI Salesforce”、“AI Adobe”和“AI Instagram”等不加区分的宣传充斥。1亿美元的种子轮资金回归。我们发现自己陷入了一个不可持续的筹款、人才战争和GPU采购的狂热之中。
果不其然,裂痕开始显现。艺术家、作家和歌手挑战了机器生成的知识产权的合法性。有关伦理、法规和即将到来的超智能的辩论充斥了华盛顿。也许最令人担忧的是,硅谷开始有传言称生成式AI实际上并不有用。产品远远达不到期望,用户保留率糟糕是明证。许多应用的终端用户需求开始达到平稳。这只是另一个虚假的循环吗?
AI的失落之夏使批评者洋洋得意地跳墓舞,让人想起互联网的早期,那时在1998年,一位著名的经济学家宣称:“到2005年,将明确地看到,互联网对经济的影响不会大于传真机。”
毫无疑问,尽管有噪音、歇斯底里和不确定性及不满的气氛,生成式AI的起步已经比SaaS更成功,仅从初创公司就收入超过10亿美元(SaaS市场需要数年,而不是几个月,才达到同样的规模)。一些应用已经成为家喻户晓的名字:ChatGPT成为了增长最快的应用,尤其在学生和开发者中与市场契合度特别强;Midjourney成为了我们的集体创意灵感来源,据报道仅凭11人的团队就实现了数亿美元的收入;Character则流行化了AI娱乐和陪伴,创建了我们最渴望的消费者“社交”应用——用户平均在应用中花费两小时。
尽管如此,这些初步的成功迹象并没有改变一个事实,即很多AI公司简单地没有产品与市场的契合度或可持续的竞争优势,而整个AI生态系统的过度繁荣是不可持续的。
现在,尘埃已经稍微落定,我们认为现在是一个适当的时机,来对生成式AI进行一个更宏观的反思——我们当前的位置以及我们可能的未来方向。
朝向第二阶段
生成式AI的首年开场——“第一阶段”(Act 1)——是从技术驱动的角度出发。我们发现了一种新的“锤子”(hammer)——即基础模型(foundation models)——并随之推出了一系列具有新颖性的应用,这些应用轻盈地展示了这项酷炫的新技术。
我们现在认为市场正进入“第二阶段”(Act 2)——这将从用户的需求出发。第二阶段将端到端地解决人类问题。这些应用在性质上与第一波推出的应用有所不同。它们倾向于将基础模型作为一个更全面解决方案的组成部分,而不是整体解决方案。它们引入了新的编辑界面,使得工作流程更具黏性并且输出效果更佳。它们往往是多模态的(multi-modal)。
市场已经开始从“第一阶段”过渡到“第二阶段”。进入“第二阶段”的公司示例包括Harvey(为顶级律所构建定制的LLMs)、Glean(爬取并索引我们的工作区,使生成式AI在工作中变得更加相关)以及Character和Ava(它们正在创造数字伴侣)。
市场图谱
以下是我们更新后的生成式AI市场图谱。
与去年的图谱不同,我们选择按照使用案例来组织这张图谱,而不是按照模型的模态。这反映了市场上两个重要的趋势:生成式AI从技术工具的演变到真实的使用场景和价值,以及生成式AI应用的日益多模态特性。
此外,我们引入了一个新的LLM(Low-Level Memory)开发者堆栈,该堆栈反映了公司在生产中构建生成式AI应用程序时所依赖的计算和工具供应商。
重新审视我们的论题
我们的原始论文为生成式AI市场机会提出了一个论题,并对市场的发展提出了一个假设。我们做得怎么样?
以下是我们的误判:
事情发展得很快。去年,我们预计在我们有实习生级别的代码生成、好莱坞质量的视频或不听起来机械化的人类语音之前,几乎需要十年的时间。但通过快速听一下TikTok上的Eleven Labs的声音或Runway的AI电影节,很明显,未来已经快速到来。甚至3D模型、游戏和音乐也迅速变得很好。
供应端是瓶颈。我们没有预料到最终用户的需求会超过Nvidia的GPU供应。很多公司增长的瓶颈很快不是客户需求,而是获得最新的GPU。长时间的等待成为常态,一个简单的商业模型出现:支付订阅费用以跳过队列并获得更好的模型。
纵向分离尚未发生。我们仍然相信“应用层”公司和基础模型提供商之间会有分离,模型公司专门从事规模和研究,应用层公司专门从事产品和UI。实际上,这种分离尚未明确地发生。事实上,最初成功的面向用户的应用程序已经进行了纵向整合。
竞争环境激烈,现有竞争者的反应迅速。去年,竞争格局中存在一些过度拥挤的类别(尤其是图像生成和文案写作),但总体上市场还有很大的空白。今天,许多竞争景观的角落有比机会更多的竞争。现有竞争者的反应迅速,从Google的Duet和Bard到Adobe的Firefly——以及现有竞争者终于决定承担“风险”的意愿——都加剧了竞争压力。即使在基础模型层,我们也看到客户设置他们的基础设施,以在不同的供应商之间保持中立。
壁垒在于客户,而不是数据。我们预测,最好的生成式AI公司可以通过数据飞轮生成可持续的竞争优势:更多使用→更多数据→更好的模型→更多使用。虽然这在某种程度上仍然是真的,特别是在拥有非常专业和难以获得的数据的领域,但“数据壁垒”处于不稳定的地位:应用公司生成的数据并没有创造出无法逾越的壁垒,下一代的基础模型可能很好地摧毁初创公司生成的任何数据壁垒。相反,工作流程和用户网络似乎正在创造更持久的竞争优势来源。
这是我们做对的部分:
生成式AI已经成为现实。突然之间,每一位开发者都开始致力于生成式AI的应用,每一位企业购买者都对其有所要求。市场甚至保留了“生成式AI”这一名称。才能和风险投资资金纷纷涌入这个市场。生成式AI甚至在像“Harry Potter Balenciaga”或由Ghostwriter创作的模仿Drake的歌曲“Heart on My Sleeve”这样的病毒式视频中成为了流行文化现象,该歌曲已经成为了冠军热门歌曲。
首批杀手级应用浮出水面。众所周知,ChatGPT是最快达到1亿MAU(月活跃用户)的应用——而且仅仅在6周内就自然而然地做到了这一点。相比之下,Instagram用了2.5年,WhatsApp用了3.5年,而YouTube和Facebook则用了4年才达到那样的用户需求水平。但ChatGPT并不是一个孤立的现象。Character AI的深度参与度(平均每次使用时间为2小时)、Github Copilot的生产效益提高(提高了55%)以及Midjourney的盈利途径(数亿美元的收入)都表明第一批杀手级应用已经来临。
开发者是关键。Stripe或Unity这样的以开发者为先的公司已经洞察到,开发者的接入会开启你甚至都无法想象的使用场景。在过去的几个季度中,我们收到了各种提案,从音乐生成社区到AI红娘再到AI客户支持代理。
形态正在演进。AI应用的第一版主要是自动完成和初稿,但这些形态现在正变得越来越复杂。Midjourney引入的摄像头平移和填充功能很好地展示了生成式AI优先的用户体验是如何变得更为丰富。总的来说,形态正在从个人生产力到系统级生产力,从人在循环中到执行为主的代理系统进行演进。
版权、伦理和存在的恐惧。这些敏感话题上的辩论持续不断。艺术家、作家和音乐家的意见分歧,一些创作者有充分理由愤怒,因为其他人正从衍生作品中获利,而另一些创作者则欣然接受了新的AI现实(比如Grimes的利润分享提议和James Buckhouse对成为创意基因组一部分的乐观态度)。没有哪个创业公司想成为最终的Spotify(感谢Jason Boehmig)中的Napster或Limewire。规则仍然不清晰:日本已经宣布,用于培训AI的内容没有IP权利,而欧洲已经提议实施严格的法规。
我们现在的情况如何?生成式AI的价值问题
生成式AI并不缺乏使用场景或客户需求。用户渴望AI能够简化他们的工作并提高其工作产出,这就是为什么他们大量涌向这些应用(尽管这些应用缺乏天然的传播途径)。
但是,人们会持续使用它们吗?并不真正如此。下面的图表比较了AI为首的应用与现有公司的第一个月的移动应用保留率。
用户参与度也不尽如人意。一些最好的消费者公司有60-65%的日活用户/月活用户(DAU/MAU);而WhatsApp的是85%。相比之下,生成式AI应用的中位数为14%(值得注意的例外是Character以及“AI伴侣”类别)。这意味着用户还没有在生成式AI产品中找到足够的价值来每天使用它们。
简而言之,生成式AI最大的问题不是寻找使用场景、需求或传播途径,而是证明其价值。正如我们的同事David Cahn所写:“2000亿美元的问题是:你打算用所有这些基础设施来做什么?它将如何改变人们的生活?”建立持久的业务的路径将需要解决保留问题,并为客户产生足够深厚的价值,使他们成为每日活跃用户。
我们不应该感到失望。生成式AI仍然处于它的“尴尬的青春期”。我们可以看到其闪光的瞬间,而当产品未能满足期望时,失败通常是可靠的、可重复的并且可以修复的。我们的工作切割得非常明确。
第二幕:共享的战略手册
创始人们正在着手进行及时的工程开发、细致的调优以及数据集整理,使其AI产品达到出色的水平。他们正在逐步地将引人注目的演示变为完整的产品体验。与此同时,基础模型的底层持续充满研究与创新。
随着公司逐渐找到实现长久价值的路径,一个共享的战略手册正在形成。我们现在拥有了使模型变得有用的共享技术,以及将决定生成型AI第二幕形态的新兴UI范式。
模型开发栈
- 新兴的推理技术,如链式思维(chain-of-thought)、树状思维(tree-of-thought)和反思(reflexion)正在提高模型执行更丰富、更复杂推理任务的能力,缩小了客户期望与模型能力之间的差距。开发者正在使用像Langchain这样的框架来调用并调试更复杂的多链序列。
- 迁移学习技术,如RLHF和微调,变得更加容易获得,尤其是近期GPT-3.5和Llama-2的微调功能的推出,这意味着公司可以将基础模型适应于他们特定的领域并从用户反馈中进步。开发者正在从Hugging Face下载开源模型并进行微调以获得高质量的性能。
- 检索增强型生成正在带入关于企业或用户的上下文,减少幻觉并增加真实性和实用性。像Pinecone这样的公司提供的矢量数据库已经成为RAG的基础设施支柱。
- 新的开发者工具和应用框架为公司提供了可重用的构建模块,以创建更先进的AI应用,并帮助开发者评估、改进并监控生产中的AI模型的性能,包括LLMOps工具,如Langsmith和Weights & Biases。
- 以AI为先导的基础设施公司,如Coreweave、Lambda Labs、Foundry、Replicate和Modal,正在解构公共云,并提供AI公司最需要的东西:以合理的成本提供丰富的GPUs,可以随需应变、高度可扩展,并提供良好的PaaS开发者体验。
总的来说,这些技术应该能够缩小模型的期望与现实之间的差距,同时基础模型也在持续地进步。但让模型变得出色只是半场战斗。生成型AI为先导的用户体验战略手册也在演变中:
新兴产品蓝图
- 生成式接口。文本为基础的对话式用户体验已经成为LLM(大型语言模型)的默认接口。逐渐地,新的形式正在被引入武器库,从Perplexity的生成式用户接口到Inflection AI带来的类似人声的声音模式。
- 新的编辑体验:从Copilot到Director’s Mode。随着我们从零样本(zero-shot)模式向ask-and-adjust(感谢Zach Lloyd)进化,生成式AI公司正在发明一套与传统编辑工作流程完全不同的旋钮和开关。Midjourney的新的平移命令和Runway的Director’s Mode带来了类似摄像机的全新编辑体验。Eleven Labs正在使通过提示来操纵声音成为可能。
- 日益复杂的代理系统。生成式AI应用越来越不仅仅是为人类审核的自动完成或初稿;它们现在有了解决问题的自主权,可以访问外部工具,并代表我们从头到尾解决问题。我们正在稳步从0级进化到5级自主性。
- 系统范围的优化。有些公司不是只集成到单一的人类用户的工作流程中并使该个体更加高效,而是直接解决系统范围的优化问题。你能否选择一部分支持票据或拉取请求,并自主地解决它们,从而使整个系统更加高效?
离别的思考
随着我们接近“frontier paradox”(边界悖论)和“transformers”与“diffusion models”(扩散模型)的新奇性渐渐消退,生成式AI市场的本质正在发生变化。过度炒作和表面的闪光正在让位于真实的价值和完整的产品体验。
在Sequoia,我们始终坚定地相信生成式AI。为这个市场起飞所需的条件在数十年的时间里已经积累起来,而现在这个市场终于来临。杀手级应用的出现以及终端用户需求的巨大规模加深了我们对市场的信念。
然而,Amara's Law(阿玛拉定律)— 一个现象,即我们往往倾向于高估技术在短期内的效应并低估它在长期内的效应 — 正在显现。在我们的投资决策中,我们正运用耐心和判断力,仔细关注创始人是如何解决价值问题的。共享的策略手册,公司用来不断推动模型性能和产品体验的界限,让我们对生成式AI的第二幕持乐观态度。
文中提及的产品和公司如下:
- ChatGPT(https://chat.openai.com/chat)
- Midjourney (https://www.midjourney.com/)
- Character (https://www.character.ai/)
- Ava (https://www.ava.me/)
- Harvey (https://harvey.io/)
- Glean (https://glean.com/)
- Langchain (https://langchain.com/)
- Hugging Face (https://huggingface.co/)
- Pinecone (https://www.pinecone.io/)
- Weights & Biases (https://wandb.ai/)
- Coreweave (https://www.coreweave.com/)
- Lambda Labs (https://lambdalabs.com/)
- Foundry (https://foundrydc.com/)
- Replicate (https://replicate.com/)
- Modal (https://modal.com/)
- Perplexity (https://www.perplexity.ai/)
- Inflection AI (https://www.inflection.ai/)
- Github Copilot (https://copilot.github.com/)
- Eleven Labs (https://elevenlabs.io/)
- Runway (https://runway.com/)