| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 智能>

AI“推理”模型基准测试成本飙升 为什么?

2025-04-15 15:02 作者:IT之家 来源:IT之家 关注: 编辑:GuiGu 【搜索试试

IT之家 4 月 13 日消息,随着人工智能(AI)技术的不断发展,所谓的“推理”AI 模型成为了研究热点。这些模型能够像人类一样逐步思考问题,在特定领域,如物理学中,被认为比非推理模型能力更强。然而,这种优势却伴随着高昂的测试成本,使得独立验证这些模型的能力变得困难重重。

据第三方 AI 测试机构“人工智能分析”(Artificial Analysis)提供的数据显示,评估 OpenAI 的 o1 推理模型在七个流行的 AI 基准测试(包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500)中的表现,需要花费 2767.05 美元(IT之家注:现汇率约合 20191 元人民币)。而评估 Anthropic 的 Claude 3.7 Sonnet 这一“混合”推理模型的成本为 1485.35 美元(现汇率约合 10839 元人民币),相比之下,测试 OpenAI 的 o3-mini-high 则只需 344.59 美元(现汇率约合 2514 元人民币)。尽管有些推理模型的测试成本相对较低,例如评估 OpenAI 的 o1-mini 只需 141.22 美元(现汇率约合 1030 元人民币),但从整体来看,推理模型的测试成本仍然比较高昂。截至目前,“人工智能分析”已经花费了约 5200 美元(现汇率约合 37945 元人民币)来评估大约十几种推理模型,这一金额接近该公司分析超过 80 种非推理模型所花费的 2400 美元的两倍。

OpenAI 在 2024 年 5 月发布的非推理 GPT-4o 模型,其评估成本仅为 108.85 美元,而 Claude 3.6 Sonnet(Claude 3.7 Sonnet 的非推理前身)的评估成本为 81.41 美元。“人工智能分析”联合创始人乔治・卡梅伦(George Cameron)向 TechCrunch 表示,随着越来越多的 AI 实验室开发推理模型,该组织计划增加其测试预算。“在‘人工智能分析’,我们每月进行数百次评估,并为此投入了相当可观的预算,”卡梅伦说,“我们预计随着模型的频繁发布,这一支出将会增加。”

“人工智能分析”并非唯一面临 AI 测试成本上升的机构。AI 初创公司“通用推理”(General Reasoning)的首席执行官罗斯・泰勒(Ross Taylor)表示,他最近花费了 580 美元用大约 3700 个独特的提示词评估了 Claude 3.7 Sonnet。泰勒估计,仅对 MMLU Pro(一套旨在评估模型语言理解能力的问题集)进行一次完整的测试,成本就会超过 1800 美元。“我们正在迈向一个世界,在这个世界里,一个实验室在一项基准测试中报告 x% 的结果,而他们在其中花费了 y 数量的计算资源,但学者们的资源远远小于 y,”泰勒在 X 上最近的一篇帖子中写道,“没有人能够复制这些结果。”

那么,为什么推理模型的测试成本如此之高呢?主要原因在于它们生成了大量的 token。token 代表原始文本的片段,例如将单词“fantastic”拆分为音节“fan”、“tas”和“tic”。据“人工智能分析”称,在该公司的基准测试中,OpenAI 的 o1 生成了超过 4400 万个 token,大约是 GPT-4o 生成量的八倍。大多数 AI 公司都是按 token 收费的,因此成本很容易就会累积起来。

此外,现代基准测试通常会从模型中引出大量 token,因为它们包含涉及复杂、多步骤任务的问题。Epoch AI 的高级研究员让-斯坦尼斯拉斯・德内恩(Jean-Stanislas Denain)表示,这是因为今天的基准测试更加复杂,尽管每个基准测试的问题数量总体有所减少。“它们通常试图评估模型执行现实世界任务的能力,例如编写和执行代码、浏览互联网以及使用计算机,”德内恩称。德内恩还指出,最昂贵的模型随着时间的推移,每个 token 的成本也在增加。例如,Anthropic 在 2024 年 5 月发布的 Claude 3 Opus 是当时最昂贵的模型,每百万输出 token 的成本为 75 美元。而 OpenAI 今年早些时候推出的 GPT-4.5 和 o1-pro,每百万输出 token 的成本分别为 150 美元和 600 美元。

“尽管随着时间的推移,模型的性能有所提高,达到给定性能水平的成本也确实大幅下降,但如果你想在任何特定时间评估最大最好的模型,你仍然需要支付更多,”德内恩说。许多 AI 实验室,包括 OpenAI,为测试目的向基准测试组织提供免费或补贴的模型访问权限。但一些专家表示,这会影响测试结果的公正性 —— 即使没有操纵的证据,AI 实验室的参与本身就可能损害评估评分的完整性。

【对“AI“推理”模型基准测试成本飙升 为什么?”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
·AI应用突围,中小企业的新周期已至
·OpenAI对马斯克提起反诉 称其试图拖慢OpenAI的发
·消息称谷歌付钱让部分 AI 员工赋闲一年,以防其
·刘慈欣谈AI与科幻文学:未来AI或可替代作家,应
·微软CTO预判:未来一年AI智能体记忆能力将有重大
·消息称微软销售线酝酿组织调整,多个AI相关解决
·通义+夸克,阿里AI要ToC
·智启云川:开启AI算力轻资产时代,助力企业数智
头条
降价!免费!圈地!大模型价格战卷到飞起 降价!免费!圈地!大模型价格战卷到飞起
巨头接连下场!降价!免费!属于大模型赛道的价格战,已彻底陷入疯狂。 近日,百度和……
·OpenAI对马斯克提起反诉 称其试图拖慢OpenAI
·消息称谷歌付钱让部分 AI 员工赋闲一年,以防
·消息称微软销售线酝酿组织调整,多个AI相关解
·比尔·盖茨谈AI:十年内显著改变传统任务,三
·OpenAI营收将迎爆发式增长,高投入下前景与挑
图文
降价!免费!圈地!大模型价格战卷到飞起
降价!免费!圈地!大模型价格战卷到飞起
OpenAI再度拉响安全警报:又一高层离职揭示巨大风险
OpenAI再度拉响安全警报:又一高层离职揭示
ZAO隐私风险 你的脸已经不仅仅是你的脸了
ZAO隐私风险 你的脸已经不仅仅是你的脸了
九号机器人,这次想用AI运载机器人送快递送外卖
九号机器人,这次想用AI运载机器人送快递送
热点
·AI又出了偏门应用:用算法“脱掉”女性衣服
·ZAO隐私风险 你的脸已经不仅仅是你的脸了
·美的AIR空间站|你用过能管理空气的空调吗?
·新橙派果汁机器人引爆中国独角兽孵化合作大会
·民宿房东的辛酸史 用安伴门锁实现了合规运营
旧闻
·扎克伯格:Meta AI有望在年底前成为全球使用
·谋求“同股不同权”架构,旷视赴港上市渐近
·e成科技:推动AI技术落地,“AI技术+HR知识”
·共探新质生产力,“AI+成就数智药企—医药行
·你知道全球销售超2亿台GPS的智能手表品牌吗?
广告
硅谷精选
降价!免费!圈地!大模型价格战卷到飞起
降价!免费!圈地!大模型价格战卷到飞起
OpenAI再度拉响安全警报:又一高层离职揭示巨大风险
OpenAI再度拉响安全警报:又一高层离职揭示巨大风险
内容与技术“双引擎”驱动,芒果探索全链路AI创新
内容与技术“双引擎”驱动,芒果探索全链路AI创新
全球AI人才报告曝光:清华第三,北大第六
全球AI人才报告曝光:清华第三,北大第六
外媒称微软将向“欧洲版OpenAI”投资1500万欧元 但面临欧盟审查
外媒称微软将向“欧洲版OpenAI”投资1500万欧元 但面
新春送龙蛋,小度推出龙年首个大模型AI年宠
新春送龙蛋,小度推出龙年首个大模型AI年宠
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2020 硅谷网. 版权所有. All Rights Reserved. <京ICP备12003855号-2>