月之暗面研究员透露：为了省钱，未能更早将“长思维链”作为高优选项-新闻动态-北京科技股份有限公司

月之暗面研究员透露：为了省钱，未能更早将“长思维链”作为高优选项

时间：2025-02-17 20:38:50 浏览：505

2月17日，人工智能初创公司月之暗面在其官方微信公众号分享了其前段时间刚刚发布的Kimi k1.5多模态思考模型诞生的过程。

月之暗面研究员透露：为了省钱，未能更早将“长思维链”作为高优选项

这款模型与DeepSeek-R1同日发布，但由于后者过于火爆，使得前者的发布消息几乎被淹没。在热潮日渐平静之际，月之暗面研究员Flood Sung在分享中透露，长思维链的有效性其实在一年多前就已经知道了，但为了省钱，他们优先选择攻关长文本而不是长思维链（Long-CoT：Long Chain of Thought）；在去年9月OpenAI o1推出后，月之暗面决定出手长思维链(liàn)。

据(jù)月(yuè)之(zhī)暗(àn)面(miàn)官(guān)方(fāng)介(jiè)绍(shào)，新(xīn)推(tuī)出(chū)的(de)k1.5多(duō)模(mó)态(tài)思(sī)考(kǎo)模(mó)型(xíng)实(shí)现(xiàn)了(le)SOTA（state-of-the-art，指(zhǐ)最(zuì)佳(jiā)技(jì)术(shù)或(huò)最(zuì)高(gāo)水(shuǐ)平(píng)模(mó)型(xíng)）级(jí)别(bié)的(de)多(duō)模(mó)态(tài)推(tuī)理(lǐ)和(hé)通(tōng)用(yòng)推(tuī)理(lǐ)能(néng)力(lì)。在(zài)长思维链模式下，kimi K1.5的数学、代码(mǎ)、多(duō)模(mó)态(tài)推(tuī)理能力，也达到长思考SOTA模型OpenAI o1正式版水平(píng)。

“长(zhǎng)思(sī)维链的有效性其实在一年(nián)多(duō)前(qián)就(jiù)已(yǐ)经(jīng)知(zhī)道(dào)了(le)，月(yuè)之暗面Kimi联合创始人Tim周昕宇很早就验证过，使用很小的模型，训练模型做几十位的加减乘除运算，将细粒度的运算过程合成出来变成很长的思维链数据做监督微调（Supervised Fine-Tuning），就(jiù)可(kě)以(yǐ)获(huò)得(de)非(fēi)常好的效果。我依然记得当时看到那个效果的震撼。”Flood Sung表示。

Flood Sung称，他们意识到长上下文的重要性，但优先考虑把文本搞长，对长思维链这件事情不够重视。“主要还是考虑了成本问题”，他表示，长上下文主要做的是长文本输入，有预填充，有Mooncake（Kimi底层的推理平台，已逐步开源）加持，成本速度可控，而长思维链是长文本输出，成本高很多，速度也要慢很多。在这种情况下，把输出搞长就没有成为一个高优选项(xiàng)。

长(zhǎng)思维链技术(shù)路线(xiàn)是(shì)一(yī)种(zhǒng)基于思维链（Chain-of-Thought, CoT）的推理增强技术，旨在通过生成更长的推理链来提升大型语言模型（LLM）在复杂推理任务中的性能。与传统的短推理链（Short CoT）相比，长思维链能够处理更复杂的任务，因为它允许模型在生成最终答案之前进行更深入的思考。

OpenAI o1模型验证了长思维链在数学和编码等推理任务中的有效性。在长思考（long thought）的帮助下，大语言模型（LLM ）倾向于探索、反思和自我改进推理过程，以获得更准确的答案。

“OpenAI o1发布，震撼，效果爆炸，Long-CoT的有效让我陷入反思。”

但还有什么比性能更重要呢？Flood Sung认为，成本和速度有摩尔定律加持，可以不断下降，只要把性能搞上去，剩下的都不是主要问题。“所以，我们得搞长思维链，搞o1。”

他还提到在实际训练的过程中有了重要的发现：模型会随(suí)着(zhe)训(xun)练(liàn)提(tí)升性能也不断增加token数，也就是这是RL（强化学习）训练过程中模型可以自己涌现的，“这个和友商 Deepseek的发现几乎是一样的。”

Flood Sung称，AGI（Artificial General Intelligence，通(tōng)用(yòng)人(rén)工(gōng)智(zhì)能(néng)）确(què)实(shí)就(jiù)是(shì)近(jìn)在(zài)眼(yǎn)前(qián)的(de)事(shì)情(qíng)，如(rú)今(jīn)他重新开始思考ASL（Artificial Super Intelligence，超级人工智能）。对于做强化学习（RL）的人来说，从来都不会把实现AGI作为目标，现在给AI一个可衡量的目标，然后让AI自己去探索，通过强化学习来提升模型，未来不过是把这一过程不断地复制到更复杂的场景中去。