小红书开源大模型

发布时间：2025-06-09 09:05 浏览次数：次作者：小编

小红书开源大模型

1. 模型架构与性能

参数规模：采用 1420亿参数的专家混合模型（MoE），推理时仅激活 140亿参数，在保持高性能的同时显著降低训练和推理成本。

训练数据：使用 11.2万亿token的非合成高质量数据，这在开源大模型中极为罕见，为中文场景的高表现提供了数据基础。

中文测试表现：在中文任务测试中，平均分达91.3，超越DeepSeek开源的V2、V3版本，以及阿里开源的Qwen2.5 32B和72B模型。

2. 技术亮点与优势

MoE架构优势：通过动态激活部分参数，平衡了模型性能与资源消耗，适合大规模部署。

非合成数据价值：高质量的非合成训练数据（如用户生成内容）能显著提升模型对真实场景的理解能力，尤其在中文语义处理上表现突出。

开源意义：提供 14个训练checkpoint，推动技术共享与社区协作，降低开发者使用门槛。

3. 行业对比与影响

与竞品对比：相较于DeepSeek和阿里Qwen的开源版本，dots.llm1 在中文任务中展现出更强的泛化能力和专业性，可能成为中文场景的首选模型之一。

开源生态竞争：小红书此举进一步丰富了开源大模型生态，与阿里、DeepSeek等厂商形成差异化竞争，加速AI技术普惠。

4. 潜在应用场景

中文内容生成：适合电商、社交等场景的文案创作、对话交互。

垂直领域优化：非合成数据特性使其在用户行为分析、个性化推荐等领域具备潜力。

多模态扩展：未来或可结合小红书的图文数据，探索多模态能力。

热门标签

​小红书开源大模型