人工智能的机遇：红杉资本AI Ascent 2024开场演讲全文（附Andrej Karpathy+吴恩达现场演讲）

　　文：城主

　　前言：红杉近日组织了他们的 AI Ascent 2024 主题活动。作为 VC 大佬的红杉出手还是很不凡，除了题为“人工智能的机遇” 开场演讲颇有营养外，已经分享出来的 Andrej Karpathy 和吴恩达两位 AI 大神的现场演讲更是不容错过。

　　B 站传送：人工智能的机遇：红杉资本 2024 年 AI Ascent 开幕致辞【中英】-哔哩哔哩】

　　https://b23.tv/sxo67H5

　　Andrej Karpathy 演讲问答：

　　B 站传送：【精校】大神 Andrej Karpathy 最新红杉 AI 活动演讲问答【中英】-哔哩哔哩】

　　https://b23.tv/eBesfcv

　　吴恩达演讲：

　　B 站传送：【精校】吴恩达最新红杉 AI 活动演讲：AI 智能代理工作流的下一步【中英】-哔哩哔哩】

　　https://b23.tv/shjLCQA

　　喜欢图文版的朋友，以下是红杉开场演讲的书面整理全文：

　　我们与红杉资本的所有合作伙伴一起欢迎您来到 AI Ascent。在人工智能的世界中，正在发生许多事情。我们今天在这里的目标是学习一些新知识，结识一些能对我们的旅程有所帮助的人，希望我们能玩得开心。

　　那么，这个机会是什么呢？一年前，我们觉得这个神奇的盒子可以做一些奇妙的事情。我认为在过去的 12 个月里，我们已经经历了这种简化形式的炒作周期。我们的期望值达到了顶峰，然后经历了幻灭的低谷，现在我们正在重新攀升到生产力的高峰期。我认为我们已经意识到，人工智能今天真正给我们带来的是三种不同的能力，可以融入到各种各样的神奇应用中。

　　第一个是创造能力，因此被称为生成人工智能。你可以创建图像，你可以创建文本，你可以创建视频，你可以创建音频，你可以创建各种各样的东西。以前的软件无法做到这一点，所以这很酷。第二是推理能力，可以是一次性的，也可以是多步骤的、代理类型的推理。但同样，软件以前无法做到这一点。因为它可以创造，因为它可以推理，所以我们已经覆盖了右脑和左脑，这意味着软件也可以第一次以类似人类的能力进行交互。这是巨大的，因为这具有深远的商业模式影响，我们将在下一张幻灯片中提到。

　　那么，我们应该如何看待这个问题呢？很多时候，当我们看到新事物时，我们会尝试类比推理。在这种情况下，我们能想到的最好的类比是云转型，虽然这个类比有百万种理由不完美，但仍然有用。在过去的 20 年左右，技术领域发生了重大的结构性转变，带来了新的商业模式、新的应用程序以及人们与技术互动的新方式。

　　如果我们回顾云转型的早期，大约是 2010 年，整个全球软件的总市值约为 3500 亿美元，其中这一小块，只有 60 亿美元，是云软件。快进到去年，总市值从大约 3500 亿增长到 6500 亿，但这部分收入已达到 4000 亿美元。这是 15 年内 40% 的复合年增长率。这是巨大的增长。

　　现在，如果我们要进行类比推理，云正在用软件取代软件。正如我所提到的以类似人类的方式进行交互的能力，人工智能的一大机遇就是用软件取代服务。如果这就是我们要追求的总市值，那么起点就不是数千亿。起点可能是数十万亿。所以你可以真正梦想。关于这有机会变成什么。

　　我们会假设，这是一个假设，就像我们今天所说的一切一样，我们会假设我们正站在人类有史以来最伟大的价值创造机会的悬崖边。为什么现在呢？成为红杉一部分的好处之一是我们拥有悠久的历史，我们已经开始研究不同的技术浪潮，了解它们如何相互作用，并了解它们如何引领我们走向当下。

　　我们将快速回顾一下记忆。因此，在 20 世纪 60 年代，我们的合作伙伴唐·瓦伦丁创立了红杉资本，他实际上是仙童半导体上市公司的负责人，而仙童半导体正是凭借硅基晶体管而得名硅谷。我们必须关注这样一个现象。在 20 世纪 70 年代，我们看到了系统是如何基于这些芯片构建的。到了 20 世纪 80 年代，这些系统通过网络连接起来，以个人电脑作为端点，同时软件包也随之出现。进入 20 世纪 90 年代，这些网络以互联网的形式向公众开放，从而改变了我们的沟通方式和消费方式。到了 2000 年代，互联网已经发展成熟，可以支持复杂的应用程序。2010 年代，所有这些应用程序都以移动设备的形式出现在我们的口袋里，改变了我们的工作方式。

　　那么，我们为什么要费心去完成这个小构建呢？这里的关键在于，每一波新的技术浪潮都是在之前的基础上累积而来的。人工智能的概念并不新鲜，其历史可以追溯到 20 世纪 40 年代，我认为神经网络最初成为一个想法也是在 20 世纪 40 年代。然而，将人工智能从想法、梦想转化为现实，以一种独特且引人注目的方式解决现实世界的问题，并围绕这种方式建立持久的业务，需要具备哪些要素呢？

　　直到过去几年，实现这一目标所需的原料才出现。我们终于拥有了廉价且充足的计算能力，我们拥有快速、高效、可靠的网络。地球上 80 亿人中有 70 亿人的口袋里有一台超级计算机。部分归功于新冠疫情，一切都被迫在线进行，因此，支持所有这些令人愉快的体验所需的数据也变得容易获取。因此，现在是人工智能成为未来 10 年甚至 20 年主题的时刻。因此，我们对一个尚未得到证实的假设抱有尽可能强烈的信念，即未来几十年将是人工智能的时代。

　　这个机会会以什么形式出现呢？再次，我们将类比云过渡和移动过渡。这些徽标位于页面左侧，这些是大多数因这些转型而诞生的公司，这些公司的收入超过了十亿美元。这个名单并不详尽，但这可能是在这些转型中形成的收入超过 10 亿美元的公司的 80% 左右，而不是估值、收入。这张幻灯片最有趣的是右侧。并不是存在的东西，而是不存在的东西。视野开阔。机会是巨大的。我们想，如果 10 或 15 年后我们站在这里，右侧将有 40 或 50 个徽标。很有可能，这个房间里有一堆公司的标志。这就是机会，这就是我们兴奋的原因。这样，我就把它交给索尼娅了。

　　谢谢，帕特。

　　多么美好的一年啊。ChatGPT 于一年半前问世。我认为这对这里的每个人来说都是一阵旋风。可能感觉我们所有人都在不停地前进，脚下的地面不断变化。因此，让我们暂停一下，缩小范围，评估一下迄今为止发生的事情。去年，我们讨论了人工智能将如何彻底改变所有这些不同领域并提供惊人的生产力提升。一年后，它开始成为人们关注的焦点。

　　这里有谁看过 Klarna 的 Sebastian 的这条推文？举手。这太不可思议了。Klarna 现在使用 OpenAI 处理三分之二的客户服务查询。他们已经实现了相当于 700 名全职代理工作的自动化。我们认为，全球有数以千万计的呼叫中心代理，而我们已经看到，人工智能在客户支持市场这一最令人兴奋的领域找到了适合的市场。

　　法律服务也是如此。一年前，法律被认为是技术最不先进的行业之一，也是最不可能冒险的行业之一。然而现在，像 Harvey 这样的公司正在自动化律师所做的许多工作，从日常繁重的工作和苦差事一直到更高级的分析。

　　再比如软件工程。我相信在座的很多人最近都看到了 Twitter 上流传的一些演示。值得注意的是，我们已经从一年前理论上由人工智能编写代码，转变为完全独立的人工智能软件工程师。我认为这真的很令人兴奋。

　　未来将会有更多的软件。人工智能并不只是彻底改变工作，它已经在提高我们的生活质量。前几天，我和帕特在 Zoom 中，我注意到他看起来有点可疑。全程没有说话。经过更多反思，我很确定他确实发送了他的虚拟人工智能化身，并且实际上正在去健身房，这可以解释很多事情。

　　这是由 HeyGen 提供的。这真是太神奇了。这就是科技在一年内取得的进步。只是，想想就觉得可怕。想想这一切在未来十年将如何发展，既令人恐惧又令人兴奋。”

　　两年前，当我们认为生成式人工智能可能会迎来下一个伟大的技术转变时，我们不知道会发生什么。真正的公司会想出来吗？真正的公司会从中脱颖而出吗？实际收入会实现吗？我认为用户拉动和收入增长的巨大规模几乎让所有人都感到惊讶。

　　我们认为，生成式人工智能目前的总收入约为 30 亿美元，这还不包括F.A.N.G.公司和云人工智能提供商产生的所有增量收入。以 30 亿美元为例，SaaS 市场花了近十年的时间才达到这一收入水平。生成式人工智能在第一年就实现了这一目标。因此，巨大变化的速度和幅度让我们非常清楚，生成式人工智能将继续存在。

　　客户对人工智能的吸引力并不局限于一两个应用程序。它无处不在。我相信每个人都知道 ChatGPT 有多少用户，但是当你看看很多 AI 应用程序的收入和使用量时，无论是消费者公司还是企业公司，初创公司还是老牌公司，许多 AI 产品实际上都引起了共鸣与客户合作，并开始寻找适合跨行业的产品市场。因此，我们发现用例的多样性开始变得非常令人兴奋。

　　去年的融资环境至少让我感到惊讶的第一件事是融资份额的不平衡。如果你将生成式人工智能视为一个分层蛋糕，底部有基础模型，上面有开发人员工具和基础设施，然后顶部有应用程序。一年前，我们曾预计，由于基础层的新使能技术，应用层将出现寒武纪大爆发。相反，我们实际上发现新公司的组建和资本的形成是相反的。越来越多的基础模型不断涌现，并筹集了大量资金，而应用程序层似乎才刚刚起步。

　　我们的合作伙伴 David 去年就在这里，在他的文章《人工智能 2000 亿美元的问题》中提出了一个发人深省的问题。如果你观察各大公司目前在图形处理器（GPU）上的投资额度，你会发现，去年我们在 NVIDIA GPU 上的投资达到了约 500 亿美元。人们常常认为，只要你建造了某样东西，人们就会自然而然地来使用。人工智能无疑是一个充满梦想的领域。然而，至今为止，我们需要记住的是，在上一张幻灯片中，我们已经确认了大约 30 亿美元的人工智能收入，以及来自云供应商的变化。我们已经投入了 500 亿美元在地面设施上，再加上能源和数据中心的成本等等。我们已经发布了三个产品。对我来说，这意味着数学还没有完全成为数学。建造这些设施所需的资金远远超过了迄今为止的投资。因此，我们还有一些实际问题需要解决。

　　尽管人工智能的使用情况、收入和用户数量看起来令人难以置信，但使用数据表明我们还处于早期阶段。因此，如果你看看每日活跃用户与每月活跃用户的比率，或者如果你看看一个月的留存率，生成式人工智能应用程序仍然远远落后于移动应用。对我来说，这既是一个问题，也是一个机遇。这是一个机会，因为人工智能现在对大多数人来说，仍然是一种每周一次、每月一次的修补现象。但我们有机会使用人工智能来创建人们每天都想使用的应用程序。

　　当我们采访用户时，他们不坚持使用人工智能应用程序的最大原因之一是期望与现实之间的差距。因此，当你发现该模型不够智能，无法可靠地完成你要求它做的事情时，那些看似神奇的 Twitter 演示就会变得令人失望。好消息是，去年 GPU 的支出超过了 500 亿美元，我们现在可以构建越来越智能的基础模型。就在上个月，我们看到了 Sora，我们看到了 Claude 3，我们在周末看到了 Grok。因此，随着基线智能水平的提高，我们应该预期人工智能产品的市场契合度会加速。

　　因此，与市场未来非常不明朗的某些市场不同，人工智能的好处在于，你可以非常清晰地界定这些应用程序将如何变得越来越好。让我们记住，成功需要时间。我们在去年的 AI Ascent 上说过这一点，我们还会再说一遍。如果你看看 iPhone，你会发现 App Store V1 中的一些首批应用程序是啤酒饮用应用程序、光剑应用程序、翻盖杯应用程序或手电筒，这些都是有趣、轻量级的新技术演示。这些最终要么成为本机应用程序，如手电筒等，要么成为实用程序和噱头。iPhone 于 2007 年问世，App Store 于 2008 年问世。直到 2010 年，你才看到 Instagram 和 DoorDash 2013 年。因此，公司需要时间才能以我们尚无法想象的创造性方式发现和利用 iPhone 的全新功能。

　　我们认为同样的事情也在人工智能领域上演。我们认为我们已经看到了下一批传奇公司可能会是什么样子。以下是最近引起我们注意的一些用例，但我认为它比本页上的用例集要广泛得多。正如我所提到的，我们认为客户支持是真正影响企业产品市场契合度的第一批用例之一。

　　正如我在克拉纳故事中提到的，我不认为这是例外，这是规则。我认为这就是规则。对我们许多人来说，人工智能友谊是最令人惊讶的应用之一。我认为我们花了几个月的时间来思考。但我认为这个类别的用户和使用指标意味着非常强烈的用户喜爱。接下来，我们将讨论的是企业知识的横向应用。稍后，我们将听到格琳和杜斯克的更多见解。我们认为，企业知识正在逐步被解锁。以下是我们对未来一年可能发生的情况的一些预测。

　　首先，我们预测到 2024 年，真正的应用程序将从 Copilot（为你提供建议并协助你）转变为真正能够让人类完全脱离循环的代理。人工智能将更像是一个同事，而不仅仅是一个工具。我们看到它开始在软件工程、客户服务等领域发挥作用，今天我们将听到更多关于这个主题的信息。我了解到，吴恩达和哈里森·蔡斯都计划对此发表讲话。

　　其次，我们预测，对于 LLM 来说，最大的问题之一是，它们似乎在重复文本中的统计模式，而实际上并没有花时间对手头的任务进行推理和计划。然而，随着推理时间计算和游戏风格值迭代等许多新研究的出现，这种情况开始发生变化。当你给模型时间来实际思考要做什么时，会发生什么呢？我们认为这是许多基础模型公司的主要研究方向，我们预计它将在明年让人工智能更有能力执行更高级别的认知任务，例如规划和推理。今天晚些时候，我们将从 OpenAI 的 Noam Brown 那里听到更多相关信息。

　　第三，我们预测，我们正在看到从有趣的消费者应用程序或产消者应用程序的演变，在这些应用程序中，你并不真正关心人工智能是否偶尔会说一些错误或疯狂的事情，到真正的企业应用程序，其中风险非常高，例如医院和国防。好消息是，有各种工具和技术不断涌现，可以帮助这些 LLM 有时达到五个九的可靠性范围，从 RLHF 到即时训练到矢量数据库。我相信你们今天晚些时候可以就这一点进行交换意见。我认为这个房间里的很多人都在做非常有趣的事情，以使 LLM 在生产中更加可靠。

　　最后，我们预计 2024 年将看到大量人工智能原型和实验投入生产。当你这样做时会发生什么呢？这意味着延迟很重要。这意味着成本很重要。这意味着你关心模型所有权。你关心数据所有权。这意味着我们预计计算的平衡将开始从预训练转向推理。因此，2024 年将是一个重要的年份。在过渡到生产环境时，一些应用程序将面临巨大的压力和期望。我们必须做对事情。接下来，我将把话题交给康斯坦丁，他将帮助我们在更长的时间范围内探索人工智能的可能性。

　　谢谢你，索尼娅。感谢大家今天的参与。

　　那么，帕特刚刚提出了什么问题？为什么这个问题如此重要？为什么我们都在这个房间里？索尼娅刚刚向我们介绍了现在该怎么办？人工智能目前处于什么阶段？接下来我们将讨论什么？我们将退后一步，思考这在更广泛的技术和整个社会概念中意味着什么。

　　因此，技术革命有很多种类型。出现了像电话这样的通信革命。出现了像机车这样的交通革命。生产力革命正在发生，例如粮食收割的机械化。我们认为人工智能主要是一场生产力革命。这些革命遵循一种模式。它从一个拥有工具的人类开始，转变为拥有机器助手的人类。最终，这将转移到具有机器网络的人类身上。我们将在本节中讨论的两个预测都与人类使用机器网络的概念有关。

　　让我们来看一个历史例子。镰刀作为人类的工具已有一万多年的历史。机械收割机是人类和机器助手于 1831 年发明的，由人类使用的单一机器系统。今天，我们生活在一个拥有联合收割机的时代。联合收割机由数以万计的机器系统组成，形成一个复杂的网络。我们已经开始使用人工智能的语言来描述某些事物。例如，我们可以将系统中的单个机器参与者称为“代理”。今天，我们就这个话题进行了深入的讨论，包括代理的拓扑结构以及信息在代理之间的传输方式。我们开始将这种传输方式称为“推理”。本质上，我们正在人工智能基元之上构建非常复杂的抽象层。

　　今天，我将举两个例子，这两个例子是我们在知识工作中正在经历的。首先，我们来看看软件。软件开发最初是一个非常手动的过程。艾达·洛夫莱斯（Ada Lovelace）用笔和纸编写了逻辑编程，能够完成计算，但没有机器的帮助。现在，我们生活在一个拥有重要的计算机器助手的时代，不仅有计算机，还有集成开发环境和越来越多的技术来加速软件开发。我们正在进入一个新时代，这些系统在复杂的机器网络中协同工作。你所看到的是一系列协同工作的过程，以产生复杂的工程系统。你在这里看到的是代理一起工作来生成代码，不是一次一个，而是实际上是一致和谐的。

　　同样的模式在写作中也很常见。写作是一个人类的过程，是人类，也是一种工具。随着时间的推移，这已经发展为人类和机器助手的合作。现在我们有了一个人，他实际上利用的不是一个助手，而是一个助手网络。我会在我自己的个人工作流程中告诉你，现在，每当我呼叫人工智能助手时，我不仅仅是呼叫 GPT-4，我呼叫 Mistral-Large，我呼叫 Claude-3，我正在呼叫他们共同努力，也相互对抗，以获得更好的答案。这就是我们眼前所看到的未来。

　　那么，这种类型的革命对在座的每个人意味着什么？坦率地说，这对房间外面的每个人都有影响。从冷酷的经济角度来看，这意味着显着降低成本。这张图表显示了标准普尔 500 强公司产生 100 万收入所需的员工数量，这个数字正在迅速下降。我们正在进入一个这种情况将继续下降的时代。这意味着什么？更快、更少。好消息是，这并不是让我们可以做得更少，而是让我们可以做得更多。我们将在下一组预测中讨论这一点。

　　同样幸运的是，我们过去取得此类进展的所有领域都出现了通货紧缩。我会举计算机软件和配件为例。由于我们不断地相互构建，计算机软件的流程实际上随着时间的推移而降低了成本。电视也在这里，但对我们社会来说最重要的一些事情，如教育、大学学费、医疗、住房，它们的增长速度远远快于通货膨胀。人工智能有望帮助降低这些和许多其他关键领域的成本，这也许是一个非常令人高兴的巧合。

　　因此，这是关于人工智能作为生产力革命的巨大成本驱动因素的长期未来的第一个结论，它将能够帮助我们在社会的一些最关键领域用更少的资源做更多的事情。第二个结论与它真正在做什么有关？一年前，我们在舞台上让黄仁勋做出了一个强有力的预测。他说，未来，像素将不再被渲染，而是被生成。任何给定的图像，甚至信息都会被生成。他这话是什么意思？

　　好吧，正如在座的每个人都知道的那样，从历史上看，图像一直被存储为死记硬背的记忆。让我们考虑一下字母 A，ASCII 字符编号 97。好的，如果我们使用非常简单的黑白，将其存储为像素矩阵，无论是存在还是不存在。这些像素是否存在。好吧，我们正在进入一个时期，在这个时期，我们已经在表示像字母 A 这样的概念，不是作为死记硬背的存储，不是作为像素的存在或不存在，而是作为一个概念，一个多维点。我们需要考虑的是字母A的概念图像，这个概念可以扩展到任何给定的字母A的格式。在这个多维空间中，有无数种不同的字体，我们就坐在这个空间的中心。那么，我们接下来应该去哪里呢？

　　令人惊叹的是，计算机现在开始理解的不仅仅是这个多维空间的点，不仅仅是如何获取它、渲染它并生成像黄仁勋所说的那样的图像。我们现在正处于一个阶段，能够将这种理解置于具体的情境中。计算机将理解字母A，能够渲染它，理解它是一个字母，理解它是一个英文字母，并理解它在这个渲染的更广泛的上下文中意味着什么。计算机会看到“多维”这个词，甚至不会考虑A，而是理解为什么要提出这个词的完整背景。

　　令人惊奇的是，这个未来就是我们的思维方式，人类的思维方式。我们不再存储计算机内存中的死记硬背像素。我们不是这么想的。我没有被告知字母A代表页面上像素的存在或不存在。相反，我们会将其视为一个概念。强有力的是，这就是我们数千年来对它的哲学思考。2500 年前，我的希腊同胞柏拉图曾说过，柏拉图形式的理念是我们所有人都认同的，也是我们所有人都在努力追求的。在字母A的例子中，你有这个概念，或者我们实际上能够围绕它构建模型的软件工程概念。

　　那么，现在我们已经讨论了第二种模式，即我们将在计算本身内部进行泛化的想法。这对我们每个人意味着什么？这对公司建设意义重大。今天，我们已经将其集成到特定流程和 KPI 中。刚刚提到 Clarne 如何利用这一点来加快他们围绕客户支持的 KPI。他们知道他们有某些可以推动实现的 KPI，并且他们可以拥有一个能够实际检索信息、产生良好客户体验的系统。明天，这已经与新的用户界面一起发生。对于实际支持的沟通方式，这可能是一个不同的界面。

　　这就是我个人感到非常兴奋的地方，因为这个未来将呈现概念，因为这个未来将生成一切，最终整个公司可能会开始像神经网络一样工作。让我用一个具体的例子来解释一下。这是一幅漫画。与本演示中的所有内容一样，实际上，一切都是连续的。这些都是离散的。这是客户支持流程的漫画。您的客户服务具有特定的 KPI。这些是由文本到语音、语言生成、客户个性化等驱动的。这会输入到您正在优化的子模式、子树中。最终，你实际上会在这里得到一个完全连接的图。实际上，您将获得从语言生成到最终客户服务 KPI 的反馈。在某种程度上，这将成为一个抽象层，由神经网络管理、优化和改进客户支持。

　　现在，让我们考虑一下独特的客户，这是建立业务的重要工作的另一部分。好吧，再说一次，你拥有从语言生成到增长引擎的人工智能基元，以添加定制和优化。这一切都将再次相互融合。这里强有力的结论是，最终这些抽象层将变得可互操作，使整个公司能够像神经网络一样运作。一人公司的崛起由此而来。一个人的公司将使我们不仅做得更少，而且做得更多。更多的问题可以由更多的人来解决，从而创造一个更美好的社会。