
12月1日晚,DeepSeek又上新了两款新模型,DeepSeek-V3.2和DeepSeek-V3.2-Speciale石家庄塑料挤出机厂家,在理能力上全球先。
两款模型有着不同的定位。DeepSeek-V3.2的目标是平衡理能力与输出长度,适日常使用,例如问答场景和通用智能体任务场景。9月底DeepSeek发布了实验版V3.2-Exp,此次是正式版更新。在公开理测试中,V3.2达到了GPT-5的水平,仅略低于谷歌的Gemini3 Pro。
DeepSeek-V3.2-Speciale则是此次的重头戏,其目标是“将开源模型的理能力向致,探索模型能力的边界”。据介绍,Speciale是V3.2的长思考增强版,同时结了DeepSeek-Math-V2的定理证明能力,该模型具备出的指令跟随、严谨的数学证明与逻辑验证能力。
据DeepSeek公布的数据石家庄塑料挤出机厂家,Speciale在多个理基准测试中越谷歌先进的Gemini3 Pro。具体来看,在美国数学邀请赛、哈佛MIT数学竞赛、国际奥林匹克数学竞赛等测试中,V3.2-Speciale都过了Gemini3 Pro,但在编程、理工科博士生测试中略逊于谷歌。
同时,Speciale模型斩获了IMO(国际数学奥林匹克)、ICPC World Finals(国际大学生程序设计竞赛全球总决赛)及IOI(国际信息学奥林匹克)金牌。其中,ICPC 与 IOI 成绩分别达到了人类选手二名与十名的水平。
尽管取得了这些成就,但在技术报告中,DeepSeek承认,与Gemini3 Pro等前沿闭源模型相比,自家模型仍存在一定的局限。先,V3.2的世界知识广度仍落后于先的有模型,其次在令牌(Token)率方面,V3.2通常需要更多的令牌才能达到像Gemini3 Pro这样的模型输出质量。在解决复杂任务方面也不如前沿模型。
DeepSeek称石家庄塑料挤出机厂家,团队计划在未来通过增加预训练计算量来填补知识空白,并注于优化模型理链的智能密度以提高率,进一步改进基础模型和训练后方案。
值得一提的是,在技术报告中,DeepSeek还谈到当前开源与闭源模型的差距在拉大。
DeepSeek表示,理模型的发布是大模型发展的关键转折点,动了整体能的大幅跃升。自这一里程碑事件以来,大模型能力在快速发展。然而,过去几个月中出现了明显的分化:尽管开源圈持续取得进步,但闭源有模型如海外谷歌、OpenAI、Anthropic的能增长速度却显著更快。
“闭源模型与开源模型之间的能差距并未缩小,反而日益扩大,有系统在复杂任务中展现出越来越强的优势。”DeepSeek认为,其中有三个关键的缺陷。
一方面,在架构层面石家庄塑料挤出机厂家,塑料管材设备对标准注意力机制的过度依赖严重制约了长序列处理的率;其次,在资源分配方面,开源模型在后训练阶段的计算投入不足,限制了模型在高难度任务上的表现;后,在AI智能体域,开源模型在泛化能力和指令遵循能力上与业模型相比存在明显差距,影响实际部署果。
为了突破这些限制,DeepSeek在9月底发布实验版V3.2-Exp时,提出了稀疏注意力机制(DSA),希望大幅降低计算复杂度。在经过两个月的实验后,DeepSeek确认了稀疏注意力机制的有,并表示,在不牺牲长上下文能的前提下,团队解决了关键的计算复杂问题。
此次发布的两款模型均引入了这一机制。据DeepSeek,除了在多个理基准测试中,V3.2的能大幅提升外,在智能体场景中,V3.2也成为一种具有成本益的替代方案,不仅缩小了开源模型与前沿有模型之间的能差距,成本也显著降低。
目前,DeepSeek的官方网页端、App 和 API 均已更新为正式版 DeepSeek-V3.2,但增强的Speciale版本目前仅以临时API服务形式开放,供社区评测与研究。
Q Q:183445502在海外社媒上,有网友认为,DeepSeek 此次发布是了不起的成就石家庄塑料挤出机厂家,“匹配 GPT-5和Gemini3 Pro的开源模型出现了,差距正式消除。”DeepSeek不断证明,严谨的工程设计可以越单纯的参数规模。但如同DeepSeek所述的那样,我们仍需正视开源与闭源在整体能上的差距,不断突破开源的边界。
举报 一财经广告作,请点击这里此内容为一财经原创,著作权归一财经所有。未经一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。一财经保留追究侵权者法律责任的权利。如需获得授权请联系一财经版权部:banquan@yicai.com 文章作者刘晓洁
猛龙(13-32):巴恩斯24分11篮板7助攻、巴雷特23分8篮板4助攻、布歇23分5篮板
黄蜂(12-30):鲍尔25分5篮板7助攻、布里奇斯22分6篮板3助攻、赛斯-库里16分4篮板、约什-格林13分、米西奇11分4助攻、迪亚巴特9分13篮板
凯尔特人(32-14):塔图姆24分6篮板3助攻、怀特23分5篮板4助攻、杰伦-布朗22分8篮板6助攻、波尔津吉斯18分4篮板5助攻、霍勒迪17分3篮板4助攻
步行者(25-20):哈利伯顿28分3篮板4助攻、西亚卡姆23分11篮板3助攻3盖帽、内姆哈德15分8篮板9助攻3抢断、特纳14分3盖帽、马瑟林13分3篮板、麦康纳12分5篮板5助攻、布莱恩特10分3篮板3抢断
勇士(22-23):库里17投4中得到13分9助攻、维金斯20分6篮板3助攻、波杰姆斯基17分3篮板5助攻、小佩顿12分6篮板、希尔德10分4篮板、穆迪10分、施罗德10分3助攻
相关阅读 AI周报 | DeepSeek开源奥数金牌水平模型;前OpenAI 联创称规模扩展时代已终结英伟达反击“大空头”言论;百度新设两大AI部门。
216 11-30 08:31 从跟跑,到并跑:中国AI这五年|“十四五”规划收官AI创业者表示,“十四五”时期是我国人工智能产业从“跟跑”向“并跑”“跑”转变的关键阶段,也是新质生产力概念孕育并形成实践成果的重要时期。
9 323 10-23 11:31 AI进化速递 | 特斯拉牵手豆包大模型与DeepSeek阿里发布编程平台Qoder;可灵AI出基于2.1模型的全新尾帧功能;Meta与谷歌云签署6年100亿美元作协议。
141 08-22 20:55 特斯拉牵手豆包大模型与DeepSeek,均通过火山引擎接入特斯拉牵手豆包大模型与DeepSeek,均通过火山引擎接入
209 08-22 14:39 大模型落地企业端:开源闭源之争未终结 | 海斌访谈对于大模型初创企业石家庄塑料挤出机厂家,一些商业模式是不健康的
5 116 08-08 16:48 一财热 点击关闭