×
注意!页面内容来自https://www.ibm.com/cn-zh/think/news/stanford-hai-2025-ai-index-report,本站不储存任何内容,为了更好的阅读体验进行在线解析,若有广告出现,请及时反馈。若您觉得侵犯了您的利益,请通知我们进行删除,然后访问 原网页
基准测试、推理成本、创新:AI 如何重塑我们的社会?今年,斯坦福大学《2025 年 AI 指数报告》新增了多个覆盖领域,以此展现 AI 在我们生活各方面日益重要的作用。
IBM Think 与斯坦福大学以人为本人工智能研究所的研究项目主任 Vanessa Parli 以及 IBM 技术内容经理 Ash Minhas,共同解读了这份报告中的若干核心趋势。
若要评选当下最热门的话题,基准测试无疑位列其中。随着 AI 能力飞速发展,其迭代速度已持续超越现有测评工具的跟进节奏,基准测试也因此成为行业核心争议点。
“每年我们都会关注算法在各类基准测试中的表现,而每年这些算法似乎都能突破测试指标,” 报告作者之一的 Vanessa Parli 在接受IBM Think 采访时表示,“今年也不例外,即便是最新推出的基准测试,也未能幸免被算法超越的情况。”
该报告指出,研究人员于 2023 年推出新的基准测试 MMMU、GPQA 和 SWE-bench 来测试先进 AI 系统的极限。仅一年后,AI 模型表现大幅上升:据报告,MMMU、GPQA 和 SWE-bench 上的分数分别上升了 18.8、48.9 和 67.3 个百分点。
此事在研究界引发了关于大语言模型 (LLM) 基准测试真实意义与核心价值的争议。Paril 提出了若干亟待审慎思考的关键问题:“我们当前衡量的指标是否准确?这些基准测试是否已失去公信力?科学界又应如何建立更有效的模型评估体系?”
展望未来,Ash Minhas 也对基准测试的未来前景表示疑问。“这种情况何时才能停止?”他在接受 IBM Think 采访时问,“图灵测试是否必须始终是不断移动的球门柱?人类终极测试当真就是最终考验吗?”
同时,专家提醒大家当心过拟合的风险,在这种现象中,AI 模型学会在特定的基准测试中表现出色,但可能无法推广到现实世界的应用程序中新的、未见过的数据。“我们训练模型是否只是为了通过基准测试?”他补充道,“MMMU 是很好的基准测试,但这是因为模型知道如何响应基准测试吗?”
Minhas 同时警示道,当下社会对技术进步的狂热追捧与追逐,可能正凌驾于对伦理、公平及偏见的审慎考量之上。
去年,诺贝尔物理学奖与化学奖分别授予了致力于人工神经网络研究、蛋白质设计与预测研究的科研团队。这一重磅事件让我们无法忽视 AI 在医疗领域日益凸显的重要意义。报告指出,获得 FDA 批准的 AI 医疗器械数量呈指数级增长:2023 年获批的器械有 223 个,而 2015 年只有 6 个。
“AI 增强科学发现的领域可以对社会产生很大影响。”Parli 说道。
Minhas 认为,这一发展态势既彰显了创新的迅猛步伐,也引发了深层思考:“我们是否拥有足够专业的人才与适配的技能,来对这些新型器械和产品开展有效的测试工作?”
AI 一直是 2024 年重大投资背后的关键力量。该报告指出,获得新增投资的生成式 AI 初创企业数量近乎增至原来的三倍;且在经历多年的缓慢应用阶段后,2024 年生成式 AI 的商业应用进程实现了显著提速。
AI 已从边缘成为商业价值的核心驱动因素。2024 年,企业对 AI 的投资总额达到 2523 亿美元,其中私人投资同比增长 44.5%,并购增长 12.1%。这有利于美国蓬勃发展的生态系统,预计到 2024 年,美国私人 AI 投资将达到 109.1 亿美元。
在职场场景中,AI 同样扮演着关键角色,不少人正期待着 agentic AI 对企业工作流程产生的影响
然而,企业的变革节奏与技术创新的迭代速度往往并不同步。“科技在飞速发展,但人员和流程需要时间来改变,”Minhas 说。
他认为,AI 对投资回报率的影响仍然存在争议。“目前行业对经济效益的认知尚不成熟,”Minhas 表示,“关于投资回报率,既没有统一的衡量标准,也没有人能给出确切答案。”
报告强调,各个国家或地区也在加大对基础设施的投资;当然,中国多款高性能大模型的相继发布,也足以说明美国的领先地位并非无可撼动。
“我认为,不能想当然地认为美国将始终高居榜首,我们需要继续思考计算、人才、数据这些 AI 组成部分,”Parli 说道,“如果我们想保持过去在创新领域的领先地位,就应该继续投资,并确保我们拥有实现这一目标所需的正确要素。”
不过,报告还指出了另一个有趣且看似矛盾的趋势:像美国这样在 AI 领域投入最多的国家,对 AI 产品及服务的疑虑远多于那些 AI 技术预算相对有限的国家。
报告给出的数据显示,印度尼西亚 80% 的受访者认为 AI 产品利大于弊,而美国的这一比例仅为 39%。
“在许多国家,AI 让人们得以获取某些特定资源,比如医疗服务。我认为,这种情况以及文化差异的存在,可能会让这些国家的民众对人工智能更持乐观态度,”Parli 解释道,“此外,不同文化在隐私、安全以及数据隐私等问题上的观念差异,也会影响人们对 AI 的看法。”
最后,AI 将更多地出现在物理空间中。
报告发现,从 2013 年到 2023 年,全球安装的工业机器人数量大约增加了两倍,2023 年安装的工业机器人数量达到 54.1 万台。
“借助部分 AI 工具,你可以用自然语言与机器人交流,也能通过动作与它们互动,”Parli 表示,“你能与机器人建立更紧密的协作关系,合作过程也会变得更加便捷。我认为,医疗健康领域将是机器人技术取得更大突破的重要方向。”