| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 智能>

爆火的DeepSeek引发成本、技术质疑,未来算力还重要吗?

2025-02-10 17:15 作者:文/卞海川 来源:TechWeb 关注: 编辑:GuiGu 【搜索试试

TechWeb文/卞海川

近期,DeepSeek在AI大模型领域引发热议,凭借其惊人的性能表现和低成本训练模式,迅速吸引了全球关注,且热度一直不减。但随之而来的,对其成本、技术以及为未来作为大模型基础设施的算力也引发了争议。

DeepSeek陷成本误区?

提及成本,DeepSeek发表的原始报告中有详细解释这笔成本的计算:“在预训练阶段,每兆个token上训练DeepSeek-V3仅需要180K H800 GPU小时,也就是说,在我们拥有2048个H800 GPU的丛集上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,耗费2664K GPU小时。加上上下文长度扩充所需的119K GPU小时和后制训练所需的5K GPU小时,DeepSeek-V3的完整训练仅需2.788M GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元,我们的总训练成本仅为557.6万美元。”

对此,近日知名的SemiAnalysis公开发布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的报告中称:DeepSeek论文中提到的600万美元成本仅指预训练运行的GPU成本,这只是模型总成本的一小部分,他们在硬件上的花费远高于5亿美元。例如为了开发新的架构创新,在模型开发过程中,需要投入大量资金来测试新想法、新架构思路,并进行消融实验。开发和实现这些想法需要整个团队投入大量人力和GPU计算时间。例如深度求索的关键创新—多头潜在注意力机制(Multi-Head Latent Attention),就耗费了数月时间。

无独有偶,据外媒报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用,使用了16张英伟达H100 GPU,耗时26分钟就完成了训练,成功“打造”出了一个名为s1-32B的人工智能推理模型。

有业内观点认为,DeepSeek模型低成本并不客观。

武汉大学计算机学院教授、中国人工智能学会心智计算专委会副主任蔡恒进对TechWeb表示,DeepSeek在生成模型的成本在报告中已经写的很清晰了,过于纠结前期的投入,有多少实际成本是不重要的,特别是对于国内产业成本很低的情况下,前期做研究的成本也会比美国低很多。

蒸馏业内通行做法,是非公婆各有理

除了上述的成本外,业内对于DeepSeek争议最大的还有就是其是否使用了蒸馏技术,如果使用,究竟使用了谁家的?

最先提出质疑的是,是在DeepSeek R1发布之初,OpenAI和微软均向媒体证实,已掌握疑似DeepSeek通过“蒸馏”(distillation)技术,利用OpenAI专有模型来训练其AI大模型。这使得DeepSeek能够以较低的成本在特定任务上达到类似的效果。OpenAI虽未进一步提供证据的细节,但根据其服务条款,用户不得“复制”任何OpenAI的服务,或“利用输出结果开发与OpenAI竞争的模型”。

对于DeepSeek爆火之下,马斯克一直罕见地并未发表评论,却在最近点赞了一则推文。推文中提到了DeepSeek大量依赖模型蒸馏技术,需要借助ChatGPT-4o和o1才能完成训练。尽管模型蒸馏是一项常见的技术手段,能够将OpenAI中的大量数据迅速提炼重点并快速理解和应用,但这种模式只能让DeepSeek接近OpenAI,而难以真正超越OpenAI。

除了国外,国内关于DeepSeek V3曾在测试中出现过异常:该模型自称是OpenAI的ChatGPT,并能提供OpenAI的API使用说明。专家认为,这很可能是由于训练数据中混入了大量由ChatGPT生成的内容(即“蒸馏”数据),导致模型发生了“身份混淆”。

此外,由中国科学院深圳先进技术研究院、北京大学、01.AI、南方科技大学、Leibowitz AI等多个知名机构的研究团队联合发表的《Distillation Quantification for Large Language Models(大语言模型的蒸馏量化)》论文则显示DeepSeek V3的蒸馏过程可能主要来自GPT4o,且蒸馏程度较高。

该论文提出了一个系统化的框架,量化并评估大模型蒸馏的过程及其影响,采用了“响应相似性评估(RSE)”和“身份一致性评估(ICE)”两个量化指标。RSE实验结果显示,DeepSeek V3的蒸馏程度与GPT4o接近,评分为4.102,远高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE实验中,DeepSeek V3也显示出较高的蒸馏程度,属于可疑响应数量最多的模型之一。

对于蒸馏技术的争议,蔡恒进对TechWeb表示,DeepSeek完全蒸馏GPT的说法是错误的,ChatGPT的模型是闭源的,而DeepSeek展示了思考过程,这是抄不出来的。“DeepSeek技术上是有创新的,过于纠结蒸馏这方面完全没有意义。”蔡恒进说道。

蔡恒进认为DeepSeek有着独特的技术路径优势,它可以从底层优化,可以绕开英伟达CUDA生态,可以大幅提升国产芯片做预训练的性能。

打破算力魔咒,未来算力还重要吗?

基于我们前述成本的优势,有业内观点认为,DeepSeek的出现,打破了英伟达等科技巨头“堆积算力”的路径,也就是说,美国AI巨头们认定的那个靠钱、靠更高算力芯片才能堆出来的更好的模型,不需要那么高昂的门槛了。

蔡恒进对TechWeb表示,原来我们一直认为不断“堆积算力”才能提高AI模型能力,但Deepseek的出现走出了另一条路,即不一定要提升很高的参数规模就能实现很高的性能,可能对算力需求至少降到10倍以上。“堆算力”本身没有错,但随着Deepseek的出现我们会发现这条路的性价比不高。

DeepSeek-V3极低的训练成本预示着AI大模型对算力投入的需求将大幅下降,但也有观点认为,DeepSeek表现固然优秀,但其统计口径只计算了预训练,数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。

此外,在训练上做降本增效不代表算力需求会下降,只代表大厂可以用性价比更高的方式去做模型极限能力的探索。

业内在讨论算力时,常引用蒸汽时代的杰文斯悖论来类比。这一悖论由经济学家威廉•斯坦利•杰文斯提出,核心观点是:当某种资源的使用效率提高、获取变得更容易时,其总体使用量往往不减反增。以蒸汽机为例,燃油效率的提升降低了单位工作量所需的煤炭成本,反而刺激了更多的工业活动,导致煤炭的总体消耗量上升。蒸汽机效率的提升,不仅没有减少对蒸汽机的需求,反而因为技术的推广和应用场景的扩大,进一步增加了市场对蒸汽机的需求。DeepSeek 的发展也呈现出类似的趋势:算力效率的提升并未减少对算力的需求,反而推动了更多高算力应用的落地,使得行业对算力的需求持续增长。

对此,中信证券研报也指出,近日,DeepSeek-V3的正式发版引起AI业内广泛高度关注,其在保证了模型能力的前提下,训练效率和推理速度大幅提升。DeepSeek新一代模型的发布意味着AI大模型的应用将逐步走向普惠,助力AI应用广泛落地;同时训练效率大幅提升,亦将助力推理算力需求高增。

而Bloomberg Intelligence最近的一篇报告显示,企业客户可能会在2025年进行更大规模的AI投资,而AI支出增长将更侧重于推理侧,以实现投资变现或提升生产力。

那么上述存有争议的事实究竟如何?俗话说:让子弹再飞一会吧!

【对“爆火的DeepSeek引发成本、技术质疑,未来算力还重要吗?”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
·天罡智算交易平台正式上线 并携手沙利文发布人工
·AI算力升级,存储将扮演什么角色?
·AI算力大战爆发:英特尔、谷歌推出最强芯片挑战
·AI芯片需要破解落地难题 才能加速算力的迭代优化
头条
降价!免费!圈地!大模型价格战卷到飞起 降价!免费!圈地!大模型价格战卷到飞起
巨头接连下场!降价!免费!属于大模型赛道的价格战,已彻底陷入疯狂。 近日,百度和……
·Meta开发非入侵式脑机技术,利用AI读取大脑信
·人形机器人厂商Figure终止与OpenAI合作 因自
·AI产业预计2029年将达到2180亿美元,生成式AI
·马云:接下来10年变化可能超出想象,未来的世
·消息称零一万物对预训练和Infra团队裁员,阿
图文
降价!免费!圈地!大模型价格战卷到飞起
降价!免费!圈地!大模型价格战卷到飞起
OpenAI再度拉响安全警报:又一高层离职揭示巨大风险
OpenAI再度拉响安全警报:又一高层离职揭示
ZAO隐私风险 你的脸已经不仅仅是你的脸了
ZAO隐私风险 你的脸已经不仅仅是你的脸了
九号机器人,这次想用AI运载机器人送快递送外卖
九号机器人,这次想用AI运载机器人送快递送
热点
·AI又出了偏门应用:用算法“脱掉”女性衣服
·ZAO隐私风险 你的脸已经不仅仅是你的脸了
·美的AIR空间站|你用过能管理空气的空调吗?
·新橙派果汁机器人引爆中国独角兽孵化合作大会
·民宿房东的辛酸史 用安伴门锁实现了合规运营
旧闻
·傅盛、朱啸虎朋友圈“吵”起来了 创业究竟该
·2019中国人工智能峰会落幕,企业共议智能+新
·GMIC2019 平安科技解读“AI+云”的渐进与突变
·这些字儿也太太太太太太难认了,AI能不能拯救
·未名清风WM360净化智能新风机,专为孩子家庭
广告
硅谷精选
降价!免费!圈地!大模型价格战卷到飞起
降价!免费!圈地!大模型价格战卷到飞起
OpenAI再度拉响安全警报:又一高层离职揭示巨大风险
OpenAI再度拉响安全警报:又一高层离职揭示巨大风险
内容与技术“双引擎”驱动,芒果探索全链路AI创新
内容与技术“双引擎”驱动,芒果探索全链路AI创新
全球AI人才报告曝光:清华第三,北大第六
全球AI人才报告曝光:清华第三,北大第六
外媒称微软将向“欧洲版OpenAI”投资1500万欧元 但面临欧盟审查
外媒称微软将向“欧洲版OpenAI”投资1500万欧元 但面
新春送龙蛋,小度推出龙年首个大模型AI年宠
新春送龙蛋,小度推出龙年首个大模型AI年宠
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2020 硅谷网. 版权所有. All Rights Reserved. <京ICP备12003855号-2>