美联储主席鲍威尔:支持银行提供加密服
320 2025-01-30
来源:量子号
金融界大约在一个月后才开始对 DeepSeek 感到恐慌,但当这种恐慌真的出现时,英伟达的市值就缩水了超过 5000 亿美元(约合 3.6 万亿元人民币),相当于一整个星际之门。不仅仅是英伟达,特斯拉、谷歌、亚马逊和微软的市值都出现了下滑。
据 Scale AI 首席执行官亚历山大·王称,DeepSeek 相继发布的两个人工智能模型,可与美国实验室的最佳模型相媲美。而且 DeepSeek 似乎是在有限的条件下工作的,这意味着它的训练成本要比美国同行低得多。据说,其最近的一个模型的最终训练成本仅为 560 万美元(约合 4060 万元人民币),这与美国人工智能专家的薪水差不多。去年,Anthropic 公司首席执行官达里奥·阿莫代伊表示,训练模型的成本从 1 亿美元(约合 7.25 亿元人民币)到 10 亿美元(约合 72.51 亿元人民币)不等。据首席执行官萨姆·奥特曼称,OpenAI 的 GPT-4 成本超过 1 亿美元(约合 7.25 亿元人民币)。DeepSeek 似乎颠覆了我们对人工智能成本的看法,并可能对整个行业产生巨大影响。
这一切都发生在短短几周内。圣诞节当天,DeepSeek 发布了一个推理模型(v3),引起了广泛关注。其第二个模型 R1 于上周发布,被风险投资家、特朗普总统顾问马克·安德森称为“我见过的最令人惊叹、最令人印象深刻的突破之一”。特朗普的人工智能和加密专家大卫·萨克斯表示,DeepSeek 模型的进步表明,“人工智能竞赛将非常激烈” 。除了训练数据外,这两个模型都是部分开源的。
DeepSeek 的成功让人质疑,是否真的需要数十亿美元的计算能力才能赢得人工智能竞赛。传统观点一直认为,大型科技公司将在人工智能领域占据主导地位,原因很简单,因为它们有闲钱来追逐进步。现在看来大型科技公司只是在烧钱。计算出这些模型的实际成本有点棘手,因为正如 Scale AI 的王指出的那样,由于制裁,DeepSeek 可能无法如实说出它拥有哪种和多少 GPU。
Hugging Face 研究主管莱昂德罗·冯·维拉表示,即使批评者是正确的,DeepSeek 也没有如实说明其拥有的 GPU 数量(餐巾纸数学表明他们使用的是优化技术,这意味着他们说的是实话),开源社区也用不了多久就会发现。他的团队上周末开始复制和开源 R1 配方,一旦研究人员能够创建自己的模型版本,“我们很快就会发现数字是否正确。”
DeepSeek 成立两年,由首席执行官梁文锋领导,是中国首屈一指的人工智能初创公司。该公司由浙江大学工程师创立的对冲基金分拆而来,专注于“可能改变游戏规则的架构和算法创新”,以打造通用人工智能(AGI)——至少梁文锋是这么说的。与 OpenAI 不同的是,该公司还声称自己已经盈利。
2021 年,梁开始购买数千块英伟达 GPU(就在美国对芯片实施制裁之前),并于 2023 年推出 DeepSeek,目标是“探索通用人工智能的本质”,即与人类一样聪明的人工智能。与 OpenAI 首席执行官奥特曼和其他行业领袖一样,梁也有很多高谈阔论。“我们的目标是通用人工智能,”梁在接受采访时说,“这意味着我们需要研究新的模型结构,以有限的资源实现更强的模型能力。”
DeepSeek 正是这样做的。该团队采用了一些创新的技术方法,使其模型能够更高效地运行,并声称 R1 的最终训练运行成本为 560 万美元(约合 4060 亿元人民币)。这比 OpenAI 的 o1 降低了 95%。DeepSeek 并没有从零开始,而是以现有的开源模型为起点来构建人工智能——具体来说,研究人员使用 Meta 的 Llama 模型作为基础。虽然该公司的训练数据组合没有披露,但 DeepSeek 确实提到它使用了合成数据或人工生成的信息(随着人工智能实验室似乎遇到数据瓶颈,这一点可能会变得更加重要)。
在没有训练数据的情况下,我们并不清楚这在多大程度上是对 o1 的“复制”——DeepSeek 是否使用了 o1 来训练 R1?在 12 月第一篇论文发布时,奥特曼发文称“复制你知道有效的东西(相对)容易”,而“在你不知道是否有效的情况下,做一些新的、冒险的、困难的事情是极其困难的。”因此,DeepSeek 的说法是,它不会创建新的前沿模型;而只是复制旧模型。OpenAI 投资者乔舒亚·库什纳似乎还说,DeepSeek“是根据硅谷领先的前沿模型训练出来的”。
OpenAI 前政策研究员迈尔斯·布伦戴奇称,R1 使用了两个关键的优化技巧:更高效的预训练和思维链推理强化学习。DeepSeek 找到了使用更便宜的 GPU 来训练人工智能的更聪明的方法,其中一部分帮助是使用一种较新的技术,要求人工智能通过反复试错(强化学习)一步步“思考”问题,而不是模仿人类。这种组合让模型在使用更少计算能力和资金的情况下,实现了 o1 级的能力。
“DeepSeek v3 以及之前的 DeepSeek v2 基本上是与 GPT-4 相同的模型,只是采用了更巧妙的工程技巧,以便在 GPU 方面获得更多的回报,”布伦戴奇说。
需要说明的是,其他实验室也采用了这些技术(DeepSeek 使用了“专家混合”技术,只针对特定查询激活模型的部分功能。GPT-4 也采用了这种方法)。DeepSeek 版本通过创建更精细的专家类别并开发更有效的交流方式,对这一概念进行了创新,从而使训练过程本身更加高效。DeepSeek 团队还开发了一种称为 DeepSeekMLA(多头潜意识)的技术,通过压缩模型存储和检索信息的方式,大大减少了运行人工智能模型所需的内存。
令世界震惊的不仅仅是这些模型的架构,而是它能在几个月内如此迅速地复现 OpenAI 的成就,而不是通常人工智能重大进步之间需要一年以上的时间,布伦戴奇补充道。
OpenAI 将自己定位为在构建先进人工智能方面具有独一无二的能力,而这一公众形象刚好赢得了投资者的支持,以打造全球最大的人工智能数据中心基础设施。但 DeepSeek 的快速复现表明,技术优势不会持续太久——即使公司试图对其方法保密。
“在某种程度上,这些封闭型公司显然依靠人们认为他们正在做最伟大的事情而生存,这就是他们维持估值的方法。也许他们为了筹集更多资金或建立更多项目而夸大了一点,”冯·维拉说。“至于他们是否夸大了自己的内部实力,没人知道,但这显然对他们有利。”
自 2022 年 OpenAI 发布 ChatGPT 以来,投资界一直对人工智能抱有幻想。问题不在于我们是否正处于人工智能泡沫之中,而在于“泡沫真的是好事吗?”(“泡沫被赋予了不公平的负面含义,”深水资产管理公司在 2023 年写道。)
目前还不清楚投资者是否了解人工智能的工作原理,但他们还是希望人工智能至少能广泛地节约成本。普华永道于 2024 年 12 月发布的一份报告显示,在接受调查的投资者中,有三分之二的人预计人工智能将提高生产率,还有类似数量的人预计利润也会增加。
从炒作周期中获益最多的上市公司是英伟达,该公司生产人工智能公司使用的复杂芯片。人们认为,在人工智能淘金热中,购买英伟达股票就是投资制造铲子的公司。无论谁在人工智能竞赛中占主导地位,他们都需要大量英伟达芯片来运行模型。12 月 27 日,英伟达的股价收于 137.01 美元(约合 993.42 元人民币)——几乎是 2023 年 1 月初英伟达股价的 10 倍。
DeepSeek 的成功颠覆了推动英伟达股价飙升的投资理论。如果该公司确实在更有效地使用芯片(而不是简单地购买更多芯片),那么其他公司也会开始这样做。这可能意味着英伟达最先进的芯片的市场规模会缩小,因为各家公司都在努力削减开支。
“英伟达的增长预期确实有点‘乐观’,所以我认为这是必要的反应,”Databricks 人工智能副总裁纳文·拉奥说。“英伟达目前的营收不太可能受到威胁;但过去几年的大幅增长可能会受到影响。”
受这一投资理念推动的公司不止英伟达一家。2023 年,英伟达、Meta、亚马逊、特斯拉、苹果、微软和字母表这“七巨头”的表现超过了市场上的其他公司,价值增长了 75%。他们在 2024 年延续了这一惊人的牛市,除微软外,其他公司的表现都优于标准普尔 500 指数。其中,只有苹果和 Meta 没有受到 DeepSeek 事件的影响。
这股热潮并不局限于公开市场。随着风险投资公司纷纷向该领域投入资金,OpenAI 和 Anthropic 等初创公司也创下了令人眼花缭乱的估值——分别达到 1570 亿美元(约合 11384 亿元人民币)和 600 亿美元(约合 4350 亿元人民币)。盈利能力并不是一个大问题。OpenAI 预计 2024 年亏损 50 亿美元(约合 363 亿元人民币),尽管它的预计收入为 37 亿美元(约合 268 亿元人民币)。
DeepSeek 的成功表明,仅仅投入大量资金并不像许多公司和投资者想象的那样具有保护作用。它暗示,小型初创企业与巨头相比更有竞争力——甚至可以通过技术创新颠覆已知的领军者。因此,虽然这对巨头来说是个坏消息,但对小型人工智能初创企业来说可能是个好消息,尤其是因为其模型是开源的。
因此,虽然这对巨头来说是个坏消息,但对小型人工智能初创企业来说可能是个好消息,尤其是因为其模型是开源的。Hugging Face 的冯·维拉认为,更便宜的训练模型实际上不会减少 GPU 需求。“如果你能在较小的规模上建立一个超级强大的模型,为什么不再次扩大规模呢?”他问道。“你所做的自然是你想出了如何做更便宜的东西,为什么不扩大它的规模,并构建一个虽然还要花更多钱但更好的版本呢。”
但 DeepSeek 不仅扰乱了投资格局,也是一记明确信号。DeepSeek 模型所取得的进步表明,即使实施出口管制,竞争对手国家也能轻而易举地赶上美国最先进的技术。
兰德公司专家伦纳特·海姆和牛津大学专门研究产业政策的博士生黄思浩(音)认为,对最先进芯片的出口管制于 2023 年 10 月正式开始,相对较新,其全部影响尚未显现。
DeepSeek 表明,尽管计算能力有限,你仍然可以通过优化实现创新,而美国则在原始能力上押下重注——从奥特曼与特朗普合作的价值 5000 亿美元(约合 36254 亿元人民币)的“星际之门”项目就可见一斑。
“像 DeepSeek 的 R1 这样的推理模型需要使用大量 GPU,正如 DeepSeek 在为更多用户提供应用服务时很快就遇到了麻烦一样,”布伦戴奇说。“鉴于这一点,以及扩大强化学习将使 DeepSeek 的模型比现在更强大这一事实,美国对 GPU 实施有效的出口管制比以往任何时候都更为重要。”
有些人对 DeepSeek 的成就是否如描述的那样表示怀疑。“我们质疑 DeepSeek 的成就是在没有使用先进 GPU 进行微调和/或构建最终模型所基于的底层大型语言模型的情况下取得的,”花旗分析师阿蒂夫·马利克在一份研究报告中说。“‘DeepSeek 以 500 万美元复现 OpenAI’ 的说法似乎是完全错误的,我们认为这确实不值得进一步讨论,”伯恩斯坦分析师史黛西·拉斯冈在自己的报告中表示。
对于其他人来说,出口管制似乎适得其反:非但没有减缓竞争对手国家的发展速度,反而迫使其进行创新。虽然美国限制了先进芯片的获取,但 DeepSeek 和阿里巴巴旗下的通义千问等公司找到了创造性的解决方法——优化训练技术,利用开源技术,同时开发自己的芯片。
毫无疑问,有人会想知道这对通用人工智能意味着什么,最精明的人工智能专家都认为,通用人工智能只是为了吸引资本的空中楼阁。(去年 12 月,OpenAI 的奥特曼明显降低了通用人工智能的标准,从可以“提升人类”的东西降低到“比人们想象的要无足轻重得多”的东西。)由于人工智能超级智能在很大程度上还只是一种想象,因此我们很难知道它是否有可能实现——更不用说 DeepSeek 已经朝着这个方向迈出了合理的一步。从这个意义上说,该公司的鲸鱼标志是正确的;这是一个充满“亚哈”(《白鲸》中的虚构人物)的行业。人工智能的终局谁也说不准。
人工智能一直是个过度发展的故事:数据中心消耗的能源相当于一个小国的规模,训练耗资数十亿美元,而且只有科技巨头才能玩这个游戏。对很多人来说,DeepSeek 的出现似乎完全颠覆了这种观点。
虽然 DeepSeek 这样的模型似乎可以通过降低训练成本来解决破坏环境的人工智能问题,但遗憾的是,事情并没有那么简单。布伦戴奇和冯·维拉都认为,更高效的资源意味着公司可能会使用更多的计算能力来获得更好的模型。冯·维拉还表示,这意味着规模较小的初创公司和研究人员将能更容易地获得最佳模型,因此对计算的需求只会增加。
DeepSeek 对合成数据的使用也不是革命性的,不过它确实表明,人工智能实验室有可能在不破坏整个互联网的情况下创造出一些有用的东西。但这种破坏已经造成;互联网只有一个,而且它已经训练出了对下一代具有基础意义的模型。合成数据并不能完全解决寻找更多训练数据的问题,但它是一种很有前途的方法。
DeepSeek 所做的最重要的事情就是:更便宜。你不必精通技术也能明白,强大的人工智能工具可能很快就会变得更加经济实惠。人工智能领导者已经作出承诺,进步将很快到来。一个可能的变化是,现在有人可以在自己的车库里制造前沿模型了。
通用人工智能竞赛很大程度上只是一种想象。然而,钱却是实实在在的。DeepSeek 已经有力地证明,仅仅有钱并不能让一家公司占据该领域的领先地位。其长期影响可能会重塑我们所熟知的人工智能产业。