<time lang="2IVnE"></time><var date-time="aV7fm"></var><legend lang="6ftUSu"></legend><area lang="eRJTd"></area><i lang="O4uzsDbT"></i><sub id="nXqt"></sub><u dir="4jaJwU1"></u>

两位AI先驱获图灵奖

2025-03-06 14:42

imToken - 全球领先的去中心化钱包

推荐下载 领取价值高达 6,0000 元的数字货币盲盒,享受 20%手续费减免。提供安全、可信赖的非托管钱包服务!

来源:量子号

据《纽约时报》报道,2025 年图灵奖授予了两位人工智能先驱安德鲁·巴托和理查德·萨顿,他们开发了强化学习技术,该技术对 ChatGPT 等聊天机器人至关重要。

马萨诸塞大学阿默斯特分校的安德鲁·巴托(Andrew Barto,左)和理查德·萨顿(Richard Sutton)的研究在当今的人工智能系统中发挥着关键作用。(图源:via Association for Computing Machinery)

1977 年,安德鲁·巴托作为马萨诸塞大学阿默斯特分校的一名研究员,开始探索一种新理论,即神经元的行为类似于享乐主义者。其基本观点是,人类大脑由数十亿个神经细胞驱动,每个神经细胞都在努力将快乐最大化,将痛苦最小化。

一年后,另一位年轻的研究员理查德·萨顿加入了他的团队。他们一起用这个简单的概念来解释人类智能,并将其应用于人工智能。他们的成果就是“强化学习”(Reinforcement Learning),这是一种让人工智能系统从数字世界中学习快乐和痛苦的方法。

本周三,全球最大的计算机专业协会——美国计算机协会宣布,巴托博士和萨顿博士因他们在强化学习方面的研究成果获得了今年的图灵奖。图灵奖于 1966 年设立,通常被称为计算机界的诺贝尔奖。这两位科学家将分享该奖项的 100 万美元(约合 725.96 万元人民币)奖金。

过去十年来,强化学习在人工智能的崛起中发挥了至关重要的作用,包括谷歌的 AlphaGo 和 OpenAI 的 ChatGPT 等突破性技术。这些系统的技术源于巴托博士和萨顿博士的研究成果。

“他们是强化学习领域无可争议的先驱,”华盛顿大学计算机科学名誉教授、艾伦人工智能研究所创始人兼首席执行官奥伦·埃齐奥尼说。“他们提出了关键的想法,并撰写了有关该主题的著作。”

他们的著作《强化学习:导论》(Reinforcement Learning: An Introduction)一书于 1998 年出版,至今仍是对这一想法的权威探索,许多专家认为这一想法才刚刚开始发挥其潜力。

长期以来,心理学家一直在研究人类和动物从经验中学习的方式。20 世纪 40 年代,英国计算机科学家先驱艾伦·图灵提出,机器也能以类似的方式学习。

但巴托博士和萨顿博士开始探索这种学习方式的数学原理,他们以为政府工作的计算机科学家 A·哈里·克洛普夫提出的理论为基础。巴托博士随后在马萨诸塞大学阿默斯特分校建立了一个实验室,专门研究这一想法,而萨顿博士则在加拿大阿尔伯塔大学建立了一个类似的实验室。

“当你谈论人类和动物时,这是一个显而易见的想法,”萨顿博士说,萨顿博士同时还是人工智能初创公司基恩科技(Keen Technologies)的研究科学家,也是加拿大三大国家人工智能实验室之一阿尔伯塔机器智能研究所的研究员。“当我们复兴它时,它是关于机器的。”

直到 2016 年 AlphaGo 出现之前,这仍然是一项学术追求。大多数专家认为,还需要 10 年时间才会有人研制出能够在围棋比赛中击败世界顶级选手的人工智能系统。

但在韩国首尔举行的一场比赛中,AlphaGo 击败了过去十年最优秀的围棋选手李世石。其中的秘诀在于,该系统已经与自己对弈了数百万盘,通过不断尝试和犯错来学习。它学会了哪些招式会带来成功(快乐),哪些招式会带来失败(痛苦)。

构建该系统的谷歌团队由大卫·西尔弗领导,他是一位研究员,曾在阿尔伯塔大学师从萨顿博士研究强化学习。

许多专家仍然质疑强化学习是否可以在游戏之外发挥作用。游戏胜利取决于分数,这使得机器很容易区分成功和失败。

但强化学习在在线聊天机器人中也发挥了重要作用。

在 2022 年秋天 ChatGPT 发布之前,OpenAI 聘请了数百人使用早期版本,并提供精确建议,以磨练聊天机器人的技能。他们向聊天机器人展示了如何回答特定问题,对其回答进行评分并纠正其错误。通过分析这些建议,ChatGPT 学会了如何成为一个更好的聊天机器人。

研究人员称之为“从人类反馈中进行强化学习”(简称 RLHF),这也是当今聊天机器人能做出令人惊讶的逼真反应的关键原因之一。

(《纽约时报》已起诉 OpenAI 及其合作伙伴微软侵犯与人工智能系统相关的新闻内容的版权。OpenAI 和微软否认了这些指控。)

最近,OpenAI 和 DeepSeek 等公司开发了一种强化学习方式,使聊天机器人能够自我学习——就像 AlphaGo 一样。例如,通过解决各种数学问题,聊天机器人可以了解哪些方法可以得出正确答案,哪些方法不能。

如果用大量问题重复这个过程,聊天机器人就能学会模仿人类的推理方式——至少在某些方面。结果就是所谓的推理系统,比如 OpenAI 的 o1 或 DeepSeek 的 R1。

巴托博士和萨顿博士表示,这些系统暗示了未来机器的学习方式。他们说,最终,配备人工智能的机器人将像人类和动物一样,在现实世界中通过反复试错来学习。

“通过强化学习来学习控制身体——这是非常自然的事情,”巴托博士说。

imToken - 全球领先的去中心化钱包

推荐下载 领取价值高达 6,0000 元的数字货币盲盒,享受 20%手续费减免。提供安全、可信赖的非托管钱包服务!
下一篇:比特币收复9.2万美元 但市场情绪仍陷于“极度恐惧”
上一篇:以太坊站上2300美元/枚,日内涨2.67%
相关文章
返回顶部小火箭