<time lang="w4kNExO"></time><var date-time="aEQeF"></var><legend lang="XWHHt"></legend><area lang="2toA"></area><i lang="kysfBaD6"></i><sub id="Lrn25p"></sub><u dir="27irK"></u>

硅谷效仿DeepSeek 开始蒸馏

2025-03-04 12:03

imToken - 全球领先的去中心化钱包

推荐下载 领取价值高达 6,0000 元的数字货币盲盒,享受 20%手续费减免。提供安全、可信赖的非托管钱包服务!

来源:量子号

在全球人工智能竞赛中,OpenAI、微软和 Meta 等领先的人工智能公司正在采用一种名为“蒸馏”(Distillation)的开发流程,用以构建更便宜的人工智能模型,以便消费者和企业采用。

DeepSeek 利用该技术构建的人工智能模型强大而高效,该模型以竞争对手 Meta 和阿里巴巴发布的开源系统为基础,已经在业界引起了广泛关注。这一突破使人们对硅谷人工智能领导地位的信心产生了动摇,一度造成美国大型科技公司的股票大跌。

通过蒸馏技术,公司们采用大型语言模型(称为“老师”模型)来生成语句中下一个可能的单词。由老师模型生成数据,然后训练较小的“学生”模型,帮助快速地将较大模型的知识和预测转移到较小的模型。

虽然蒸馏技术多年来一直被广泛使用,但最近的进展让业内专家相信,对于那些寻求以便宜且有效的方式的初创企业来说,基于该技术来构建应用程序将越来越成为一种福音。

“蒸馏技术非常神奇,”OpenAI 平台产品负责人奥利维尔·戈德门特说。“这个过程本质上是采用一个大型的智能前沿模型,用它来训练一个较小的模型……这个小模型在特定任务上能力非常强,而且价格便宜、执行速度非常快。”

像 OpenAI 的 GPT-4、谷歌的 Gemini 和 Meta 的 Llama 这样的大型语言模型,需要大量的数据和计算能力来开发和维护。虽然这些公司没有透露训练大型模型的具体成本数额,但很可能高达数亿美元。

通过蒸馏技术,开发者和企业就能以极低的价格使用这些模型的能力,这样一来,应用程序开发者就能够在笔记本电脑和智能手机等设备上快速运行人工智能模型。

开发者可以使用 OpenAI 的平台进行蒸馏,从驱动 ChatGPT 等产品的大型语言模型中学习。在向 OpenAI 投资近 140 亿美元(约合 1020 亿元人民币)之后,作为商业合作的一部分,该公司最大的支持者微软使用 GPT-4 蒸馏了其小型语言模型系列 Phi。

然而,OpenAI 称它认为 DeepSeek 蒸馏了它的模型来训练其竞争对手产品,此举违反了其服务条款。DeepSeek 尚未公开回应这一说法。

虽然可以使用蒸馏技术来构建高性能模型,但专家补充说,它们的局限性也不小。

“蒸馏技术提出了一个非常有趣的权衡;如果你把模型做得更小,你就不可避免地会降低它们的能力,”微软研究院的艾哈迈德·阿瓦达拉说。他表示,蒸馏后的模型可以用来总结电子邮件,“但它在其他方面真的不太擅长。”

IBM 研究部人工智能模型副总裁大卫·考克斯表示,大多数企业并不需要庞大的模型来运行他们的产品,精简的模型就足够强大,可以用于客户服务聊天机器人等场景,或者在手机等小型设备上运行。

“只要你能降低成本,而且能获得你想要的能力,有什么理由不去做呢?”他补充说。

这对很多领先的人工智能公司的商业模式提出了挑战。即使开发者使用 OpenAI 等公司的精简模型,它们的运行成本也要低得多,构建成本也比较低,所以产生的收入也会比较少。像 OpenAI 这样的模型开发商通常对使用精简模型收费较低,因为它们需要的计算量更少。

然而,OpenAI 的戈德门特认为,大型语言模型仍然将用于“高智能和高风险任务”,因为“企业愿意为高水平的准确性和可靠性付出更多成本。”他补充说,大型模型也需要用来发现新能力,然后将其蒸馏为较小的能力。

尽管如此,该公司仍然在努力防止其大型模型被提取出来用于训练竞争对手产品。OpenAI 有团队对使用情况进行监控,如果它怀疑有用户正在生成大量数据以导出和训练竞争对手,它可以删除该用户的访问权限,就像它已经对它认为与 DeepSeek 有关的账户所做的那样。但这些行动大多是事后进行的。

“OpenAI 长期以来一直在努力防止数据被蒸馏,但要完全避免是非常困难的,”为企业打造信息检索工具的初创公司 Contextual AI 的首席执行官杜韦·基拉说。

蒸馏技术也是开放模型倡导者的胜利,开放模型的技术可以免费供开发者使用。DeepSeek 也向开发者开放了它的最新模型。

“我们将立即使用蒸馏技术并将其融入到我们的产品中,”Meta 首席人工智能科学家杨立昆说。“这就是开源的理念。只要这些流程是开放的,你就可以从其他人的发展中受益。”

蒸馏技术还意味着模型开发者可以花费数十亿美元来提升人工智能系统的能力,但仍然要面临竞争对手的追赶,DeepSeek 最近发布的数据就证明了这一点。这引起了人们对构建大型语言模型的先发优势的质疑,因为现在大型语言模型的能力可以在几个月内复制。

“在这个瞬息万变的世界里……你实际上可能会花很多钱,以非常艰难的方式做这件事,很快这个领域的其他人就会紧随其后,”IBM 的考克斯说。“所以这是一个有趣但又很棘手的商业环境。”

imToken - 全球领先的去中心化钱包

推荐下载 领取价值高达 6,0000 元的数字货币盲盒,享受 20%手续费减免。提供安全、可信赖的非托管钱包服务!
下一篇:一对鸳鸯如何只手空拳偷走40亿美元?
上一篇:一文教你看懂Ripple:技术未来与金融民粹
相关文章
返回顶部小火箭