DeepSeek R1模型重大更新
DeepSeekR1模型重大更新:开源685B参数巨模,性能逼近国际顶尖水平
一、技术升级与开源策略
DeepSeek于2025年5月29日宣布对R1模型完成小版本升级,新版本DeepSeek-R1-0528基于2024年12月发布的DeepSeekV3Base模型,通过增加后训练算力投入,显著提升了模型的思维深度与推理能力。此次升级后,模型参数量达到6850亿(685B),延续了DeepSeek一贯的开源策略,采用MIT许可证开放商业使用权。
二、性能突破:数学与编程能力接近国际顶尖
数学推理能力
在AIME2025测试中,R1-0528准确率从旧版的70%提升至87.5%,平均每题使用23Ktokens进行深度思考,远超旧版的12Ktokens,表明其推理过程更加详尽。
蒸馏模型DeepSeek-R1-0528-Qwen3-8B在AIME2024中表现仅次于R1-0528,超越Qwen3-235B。
编程与代码生成
R1-0528在LiveCodeBench等编程基准测试中表现优异,代码生成性能接近OpenAI的o3-high模型,甚至在部分任务中超越o3-mini。用户实测显示,其单次可生成1000多行无bug代码,编程能力被认为可与Claude4一较高下。
三、幻觉问题优化:输出可靠性显著提升
新版R1针对**“幻觉”**(即生成不实信息)问题进行专项优化:
改写润色、摘要生成等场景的幻觉率降低45%-50%,输出准确性大幅提升。
根据第三方测评,旧版R1幻觉率约21%,新版优化后已接近非推理模型的平均水平(13.52%)。
四、多场景能力扩展与工具调用
创意写作
新版支持长篇议论文、小说、散文等文体创作,输出内容更完整、结构更贴近人类偏好。
工具调用
支持API工具调用(不支持在思考过程中调用),Tau-Bench测评成绩达airline53.5%/retail63.9%,与o1-high相当。
前端开发与角色扮演
在HTML/CSS/JavaScript开发及角色扮演任务中表现增强,可生成现代简约风格的交互应用。
五、开源生态与部署灵活性
上下文长度:官方渠道提供64Ktokens支持,第三方平台可调用128K版本。
轻量化模型:通过蒸馏技术推出参数从15亿到700亿的衍生模型(如R1-Distill-Qwen-32B),兼顾成本与性能。
六、未来展望:R2与技术普惠
尽管此次升级未涉及R2,但DeepSeek通过R1-0528展示了低成本、高性能的AI开发路径。其训练成本仅约600万美元,且未使用英伟达高端芯片,引发行业对AI基础设施投入的重新思考。用户期待R2在跨语言推理、代码生成等领域进一步突破。
DeepSeekR1-0528通过开源策略与技术创新,成为兼具学术研究价值与工业应用潜力的标杆模型。其在数学、编程、幻觉控制等领域的突破,标志着中国AI技术在全球竞争中占据重要地位。