去年跌下神坛的DeepSeek，二月中旬将发布新一代模型V4

管理员 2026-01-10 文末可点击分享

去年跌下神坛的DeepSeek，二月中旬将发布新一代模型V4(图1)

去年7月，下载量从高峰期的8000多万急剧暴跌，降至2000多万，下滑幅度达72.2%，如此一来“跌落神坛”便成了当时互联网上最热门的话题。

然而，依据多位知晓内情之人所透露信息，乃是即将再度登上王者之位。他们有着这样的规划，即在二月中旬的时候，发布新一代的模型-V4 。

即是在农历2026年新年那段时间，距离前一代那个模型-R1它的发布恰好是一年。

这次发布的重点是代码生成和处理能力。

依据内部所开展的基准测试，V4于编程任务之中的表现，超越了当下市场里的主流竞品，涵盖了相关的和那些GPT系列。

据报道称，于即将去发布之新模型里面，团队把诸多长期以来困扰着AI发展的那些技术难题给解决好了。大概极有可能会绝对彻底地去改变Vibe产业。

报道里提及了一件事情，那件事情是，“-V4模型在整个训练的进程当中，对于数据模式的理解能力也有了一定程度的改进，并且其性能并没有出现衰减的情况。”。

这句话有些难以理解，我们不妨拆开来解读。

先是前半句，它所指的是，模型并非仅仅是机械地记住数据，而是能够洞察数据背后所蕴含的规律以及逻辑。

-R1有个具代表性的例子，就是让模型数里有几个r。

由于那时的模型没办法理解“数”（count）这个概念，仅能依据训练时的数据把答案输出。然而这个数据恰恰是错的，所以不管怎样思考，它给出的答案多数情形下都是2，可不是正确的3 。

去年跌下神坛的DeepSeek，二月中旬将发布新一代模型V4(图2)

而且-V4会将这个情况完全杜绝掉，然而其出现有一个前提条件，那就是在训练的进程当中，要使得模型对某一件事情有透彻的理解。

后半句所提到的性能退化，是就 AI 训练而言的，当模型持续学习新内容，或者训练时长有所增加时，常常会出现这样的状况，即“学了新的却忘掉了旧的”，又或者模型变得不稳定。

在业内，这种现象被称作“灾难性遗忘”，或者被叫做“模型坍塌”（Model）。

这么一来，V4在持续朝着变聪明、变复杂的方向发展进程里，始终维持着极高度的稳定性，同时其原有能力的完整程度也得以保持，并未出现哪怕任何一丝一毫的种种“副作用”现象，也不存在能力倒退的情况。

这恰恰是构建编程Agent的前置条件。

于现代软件工程里，一个细微的改动，或许会影响到数个文件，以及数千行代码的依赖关联。

可是，以前的模型常常被界定于上下文窗口，或者注意力机制的衰减所束缚，所以，没办法针对庞大的项目予以修改。

V4极有可能是一个为“Agent时代”量身定制的模型。

一年之前，-R1 予以发布，此发布的确在行业以内引发了较为显著的波动，那款以推理能力作为主打内容的模型证实了低成本研发途径具备可行性。

但是，在一年之后的当下，那个现今的状态之时，人工智能领域的受到高度重视的聚焦之点，已然出现了明显的转变。仅仅只是简单的文本生成的情况，或者是逻辑推理的情形，已经不再是那独一无二的具有竞争力的关键所在之地，代码生成的状况，正逐步发展演变成为大型模型所具备的能力的一种检验标准。

当下的开发环境里，“Vibe ”成了新趋势，这要求AI，它得不仅能够补全代码，而且还要能理解开发者的意图流（Flow），进而实现从自然语言到复杂工程逻辑的无缝转化。

似乎已经准备好在新赛道上狂飙了。

当我们针对团队以及核心人物梁文锋在R1发布之后的这一年时间，去进行深入细致的梳理，以找寻其学术轨迹的时候，我们可从中发现，存在着一条清晰明了且坚实稳固的技术演进路线。

这些公开发表的那一些论文，还有那些技术报告，不只是针对于过去所取得成果的一种总结，而且它更是V4具备强大能力的一种注脚，同时也是相关方面的预演。

在2025年9月的时候，-R1方面有着关联的相关论文，成功地登上了顶级学术期刊《》的封面呈现，而梁文锋署名成为通讯作者。

面临着审稿人针对是不是运用了模型输出开展蒸馏训练的十分尖锐的质疑，团队于回应当中给出了明确的予以否认，并且首次公开了让人感到十分惊讶的低成本数据，从V3 - Base训练到R1，仅仅花费了29.4万美元。

当然，这项成本单单指的是，R1的后训练阶段所产生的成本，它并不涵盖，V3-Base基础模型本身大约600万美元的训练投入。

数据实施公开之后，还有《》针对此专门撰写而成的社论，它们这般的情况标志着在学术严谨性方面获得了国际最高的认可，也标志着在技术原创性方面收获了国际最高的认可，进而把外界针对中国大模型“套壳”或者“跟随”的刻板印象给彻底洗刷掉了。

然而，切实能够证实-V4于代码层面存在大幅度突破的依据呢，是在2025年那最终的一天，团队所发表的一篇名为《mHC：流形约束超连接》的论文。

代码生成的任务，对模型的逻辑深度，有着很高的要求，对模型的上下文跨度，也有着很高的要求，这通常需要规模更大的模型参数，还需要更深的网络结构。

可是，传统的那种超连接，也就是Hyper-架构，在模型规模不断扩大的这个情况下，会遭遇相当严重的信号增益方面的问题，最终致使训练过程极其不稳定，甚至走向崩溃。

团队在这篇论文中，提出了一种全新的架构mHC，目的是解决这一阻碍模型扩容的问题，此问题是根本性的物理难题。

简言之，它针对狂奔的信号增添了一道精密的阀门，把信号增益严谨地控制于1.6倍左右。

有迹象表明，在针对3B、9B以及18B参数规模的模型展开的测试里，特定模型采用了mHC架构，该模型于BIG-推理基准方面实现了2.1%的提升幅度，相关数据源自论文。

这一项有梁文锋联合署名的研究成果，事实上解决了大模型在“做大”进程里的稳定性难题，还解决了大模型在“做复杂”进程中的稳定性难题。

这就表明，V4模型极有可能性采用了此种全新架构，进而当其拥有更为庞大的参数量以及更深层推理能力之际，依旧维持了高效的训练效率以及极高的稳定性。

去年跌下神坛的DeepSeek，二月中旬将发布新一代模型V4(图3)

不仅会这样，在2026年1月初的时候，会静悄悄地把arXiV上的R1论文，从原本的22页，大幅度扩充到86页。

这超出原本的六十多页内容，极为细致地揭示了R1的整套训练流程，涵盖冷启动，与推理相关的强化学习，拒绝采样以及再次微调，还有基于对齐的强化学习这四个重要步骤。；。

业界广泛进行推测，这种于春节前夕呈现“清库存”样式的技术披露，经常意味着下一代更为强大的技术已然成熟。

鉴于R1的技术细节已然不再属于关键壁垒范畴，所以即将问世的V4必定实实在在地拥有了更高层面的防守措施。

就在2026年的元旦，另一股来自量化界的力量也加入了战局。

由九坤投资创始团队所发起成立的至知创新研究院，发布了一款名为 -Coder-V1的开源代码大模型，我们曾于文章《又是量化基金，第二个时刻到来了？》里中了做其对此报道标点符号不要忘记，句末标点务必保证。

这支团队同样出身于量化背景，他们拥有一个仅有40B参数的模型，在SWE - 测试当中，斩获了81.4%的高分，一举达到了某种水平，达到了和前述水平相同的水平。

而在Vibe 的战场上，国内互联网大厂的动作同样不容小觑。

早在2025年初，字节跳动的豆包开发推出了Trae编程工具，该工具在AI编程功能上得以拥有，实现了HTML预览，以及运行，还有完整项目生成等各项能力，凭借这些能力，开发者能够于一个界面之内，完成从构思一直到部署的整个流程。

于12月26日那天，阿里的通义千问得到更新，更新到了Qwen Code v0.5.0版本。

此回更新的最为突出的亮点在于，能够支持于终端窗口里同时让四个Qwen Code实例去运行，可并行地对智能问答、实时翻译、原型设计、创意绘图等不一而不同的任务予以处理，达成了AI编程“跳脱出命令行”的突破。

不过，真正引发行业震动的，是豆包在硬件终端上的突破性尝试。

在2025年12月1日这一天，字节跳动跟中兴通讯展开合作，推出了搭载豆包手机助手的努比亚M153工程样机，其售价是3499元，首批大概有3万台，在当天就快速售完了，甚至在二手市场还被炒出了高价。

这款手机助手的关键能力在于跨越应用进行操作，只用自然语言下达指令，AI就能自动跳转好多应用，完成诸如点外卖这种复杂任务，完成订机票这种复杂任务，完成比价购物这种复杂任务，。

这一系列动作的背后，所折射出来的，是AI大模型的战略转型，其从云端朝着终端迈进，又从工具朝着入口转变。

说不定手机也不远了。

去年跌下神坛的DeepSeek，二月中旬将发布新一代模型V4(图4)

与此同时，资本市场也迎来了大模型行业的收获季。

中国AI行业历经过“百模大战”的喧嚣，当下正加速朝着头部汇聚，智谱AI已成功上市，还有两家公司也成功上市。

智谱于1月8日在港交所敲响了上市钟声，其发行价被设定为116.2港元每股，在上市首日便给市场带来了一个惊喜，开盘价为120港元，收盘价是131.5港元，首日涨幅达13.17%，市值瞬间攀升至578.9亿港元，从而成为了“全球大模型第一股”，上市首日获得成功。

次日开盘，直接以137.2港元起步，收盘时为158.6港元，相较于首日收盘价而言，又上涨了20.6%，市值随之增长到698.21亿港元，从发行价算起，历经两天已然上涨了近37%，全然没有给空头以机会。

比比智谱晚一日，然风头却更强劲，发行价为每股165港元，且是在顶格来定价，它在上市前一天的暗盘已然出现了增长，所增长跨度为25%至29%，呈报区间是205.60港元到212.60港元。

于上市当日，开盘之时为235.4港元，呈现出上涨态势，涨幅为42.7%，此后趋势为一路不断飙升，在盘中达到了最高值351.8港元，最终的收盘价格是345港元，相较于发行价格出现了极为大幅度的暴涨，涨幅达到109.09%，进而市值成功达到1054亿港元，由此成为了千亿市值俱乐部的新成员。

尽管高额研发投入致使两家公司当下仍处于亏损情形，然而强劲的增长曲线证实了市场针对高质量AI模型的付费意愿正渐渐形成，。

AI在中国正处于方兴未艾的态势，然而此时全球的目光已再度会聚于其上。一年前，那个借低碳成本路径颠覆行业认知的团队，马上就要在春节时间段交出全新的答卷了。

能否第二次“震惊全世界”，只要再等几天就会知晓。

分享更多

<<国晟科技停牌核查结果公布，复牌在即，跨界投资锂电有何风险？

1月10日闫学晶账号被禁关注，咋回事？还能复出吗？>>

去年跌下神坛的DeepSeek，二月中旬将发布新一代模型V4

您可能还会对下面的文章感兴趣：

随便看看