×

注意!页面内容来自https://www.ibm.com/cn-zh/think/news/stanford-hai-2025-ai-index-report,本站不储存任何内容,为了更好的阅读体验进行在线解析,若有广告出现,请及时反馈。若您觉得侵犯了您的利益,请通知我们进行删除,然后访问 原网页

斯坦福大学《2025 年 AI 指数报告》主要结论

某人手指着电脑显示器上的趋势线数据图

基准测试、推理成本、创新:AI 如何重塑我们的社会?今年,斯坦福大学《2025 年 AI 指数报告》新增了多个覆盖领域,以此展现 AI 在我们生活各方面日益重要的作用。

IBM Think 与斯坦福大学以人为本人工智能研究所的研究项目主任 Vanessa Parli 以及 IBM 技术内容经理 Ash Minhas,共同解读了这份报告中的若干核心趋势。

超越基准

若要评选当下最热门的话题,基准测试无疑位列其中。随着 AI 能力飞速发展,其迭代速度已持续超越现有测评工具的跟进节奏,基准测试也因此成为行业核心争议点。

“每年我们都会关注算法在各类基准测试中的表现,而每年这些算法似乎都能突破测试指标,” 报告作者之一的 Vanessa Parli 在接受IBM Think 采访时表示,“今年也不例外,即便是最新推出的基准测试,也未能幸免被算法超越的情况。”

该报告指出,研究人员于 2023 年推出新的基准测试 MMMUGPQASWE-bench 来测试先进 AI 系统的极限。仅一年后,AI 模型表现大幅上升:据报告,MMMU、GPQA 和 SWE-bench 上的分数分别上升了 18.8、48.9 和 67.3 个百分点。

此事在研究界引发了关于大语言模型 (LLM) 基准测试真实意义与核心价值的争议。Paril 提出了若干亟待审慎思考的关键问题:“我们当前衡量的指标是否准确?这些基准测试是否已失去公信力?科学界又应如何建立更有效的模型评估体系?”

展望未来,Ash Minhas 也对基准测试的未来前景表示疑问。“这种情况何时才能停止?”他在接受 IBM Think 采访时问,“图灵测试是否必须始终是不断移动的球门柱?人类终极测试当真就是最终考验吗?”

同时,专家提醒大家当心过拟合的风险,在这种现象中,AI 模型学会在特定的基准测试中表现出色,但可能无法推广到现实世界的应用程序中新的、未见过的数据。“我们训练模型是否只是为了通过基准测试?”他补充道,“MMMU 是很好的基准测试,但这是因为模型知道如何响应基准测试吗?”

Minhas 同时警示道,当下社会对技术进步的狂热追捧与追逐,可能正凌驾于对伦理、公平及偏见的审慎考量之上。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

科学中的 AI

去年,诺贝尔物理学奖与化学奖分别授予了致力于人工神经网络研究、蛋白质设计与预测研究的科研团队。这一重磅事件让我们无法忽视 AI 在医疗领域日益凸显的重要意义。报告指出,获得 FDA 批准的 AI 医疗器械数量呈指数级增长:2023 年获批的器械有 223 个,而 2015 年只有 6 个。

“AI 增强科学发现的领域可以对社会产生很大影响。”Parli 说道。

Minhas 认为,这一发展态势既彰显了创新的迅猛步伐,也引发了深层思考:“我们是否拥有足够专业的人才与适配的技能,来对这些新型器械和产品开展有效的测试工作?”

AI 的商业繁荣

AI 一直是 2024 年重大投资背后的关键力量。该报告指出,获得新增投资的生成式 AI 初创企业数量近乎增至原来的三倍;且在经历多年的缓慢应用阶段后,2024 年生成式 AI 的商业应用进程实现了显著提速。

AI 已从边缘成为商业价值的核心驱动因素。2024 年,企业对 AI 的投资总额达到 2523 亿美元,其中私人投资同比增长 44.5%,并购增长 12.1%。这有利于美国蓬勃发展的生态系统,预计到 2024 年,美国私人 AI 投资将达到 109.1 亿美元。

在职场场景中,AI 同样扮演着关键角色,不少人正期待着 agentic AI 对企业工作流程产生的影响

然而,企业的变革节奏与技术创新的迭代速度往往并不同步。“科技在飞速发展,但人员和流程需要时间来改变,”Minhas 说。

他认为,AI 对投资回报率的影响仍然存在争议。“目前行业对经济效益的认知尚不成熟,”Minhas 表示,“关于投资回报率,既没有统一的衡量标准,也没有人能给出确切答案。”

Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

全球推动

报告强调,各个国家或地区也在加大对基础设施的投资;当然,中国多款高性能大模型的相继发布,也足以说明美国的领先地位并非无可撼动。

“我认为,不能想当然地认为美国将始终高居榜首,我们需要继续思考计算、人才、数据这些 AI 组成部分,”Parli 说道,“如果我们想保持过去在创新领域的领先地位,就应该继续投资,并确保我们拥有实现这一目标所需的正确要素。”

不过,报告还指出了另一个有趣且看似矛盾的趋势:像美国这样在 AI 领域投入最多的国家,对 AI 产品及服务的疑虑远多于那些 AI 技术预算相对有限的国家。

报告给出的数据显示,印度尼西亚 80% 的受访者认为 AI 产品利大于弊,而美国的这一比例仅为 39%。

“在许多国家,AI 让人们得以获取某些特定资源,比如医疗服务。我认为,这种情况以及文化差异的存在,可能会让这些国家的民众对人工智能更持乐观态度,”Parli 解释道,“此外,不同文化在隐私、安全以及数据隐私等问题上的观念差异,也会影响人们对 AI 的看法。”

展望未来:物理空间中的 AI

最后,AI 将更多地出现在物理空间中。

报告发现,从 2013 年到 2023 年,全球安装的工业机器人数量大约增加了两倍,2023 年安装的工业机器人数量达到 54.1 万台。

“借助部分 AI 工具,你可以用自然语言与机器人交流,也能通过动作与它们互动,”Parli 表示,“你能与机器人建立更紧密的协作关系,合作过程也会变得更加便捷。我认为,医疗健康领域将是机器人技术取得更大突破的重要方向。”

相关解决方案
IBM® watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

深入了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的 AI 专业知识和解决方案组合,让 AI 在您的业务中发挥作用。

深入了解人工智能解决方案
人工智能 (AI) 咨询服务

IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示