DeepSeek新模型信息流出:MODEL1代码暗示全新架构,最快或于2月推出

2026-02-14 12:28:06来源: 网络作者:admin

1月21日消息,据The Information本月初的爆料,DeepSeek计划于今年2月中旬农历新年前后推出其新一代旗舰AI模型DeepSeek V4,该模型将拥有更为出色的代码编写能力。

1月20日,恰逢DeepSeek-R1发布一周年之时,有开发者留意到DeepSeek在GitHub上更新了一批FlashMLA相关代码,在涉及的114个文件里,有28处都提及了尚未明确的“MODEL1”大模型标识。

这段文本可修改为:该标识符常与已有的“V32”模型(也就是DeepSeek-V3.2)一同被提及或进行区分。从代码的上下文来看,“MODEL1”大概率是指一个和现有架构不同的新模型。

开发者分析指出,“MODEL1”和“V32”在关键技术层面存在差异,具体表现在键值(KV)缓存的布局形式、稀疏性的处理方法以及对FP8数据格式的解码兼容等方面。这些不同之处意味着新架构或许在内存优化与计算效率上采取了针对性的设计策略。

此前,DeepSeek研究团队已先后发表两篇技术论文,其一阐述了名为“优化残差连接(mHC)”的全新训练方式,其二则介绍了受生物学启发的“AI记忆模块(Engram)”。这一系列动作让用户纷纷猜测,DeepSeek正在研发的新模型或许会融合这些前沿研究成果。让我们拭目以待。

免责声明:文章图片应用自网络,如有侵权请联系删除

热门推荐

更多
最新 热门