深度揭秘:Kimi的100小时“卧底”观察

天才社长4 小时前

a3JwycNgRuxIql9Z9ovtBBl1L57eDWQQN1jWceUC.jpeg

如果你想在公司完成任何一项需要他人协助的工作,非常简单:直接问。不需要通过领导,不需要任何批示,不需要协调会,更不需要打破任何「部门墙」。Kimi没有部门墙,甚至连部门都没有。

杨植麟的个性签名只有四个字:直接沟通。

作者:刘墨,来源:公众号《人物》

2026年的春天偏爱Kimi。从收入、融资、估值连破纪录,到以17岁高中实习生为一作的论文被马斯克等硅谷大佬高度评价,再到被500亿美金估值的美国公司Cursor「套壳」,Kimi几乎同时完成了资本、技术和商业的美丽三重奏。这家成立仅三年、估值超1200亿元人民币的创业公司,在全球AI的叙事版图里逐渐显影。

而月之暗面,始终神秘。

我被允许在公司总部深度观察100个小时。作为独立作者,我可以访谈任何愿意开口的员工,旁听任何不涉及商业机密的会议,创作不受干涉,也不会得到报酬——这确实是这家公司的风格。

当你站在公司内部,像是处于风暴中心。风眼之内,万物静止。工位安静,键盘声零落,偶尔会有笑声传来。外界的喧嚣,那些流言、争论、追捧与模仿,在这里找不到任何回响。

300多人,平均年龄不到30岁,每人肩上扛着近4亿估值。这里80%的同事是I人(内倾型人格)——人们并排坐着,却更习惯打字,而非交谈。在这里,内向不是缺陷,而是一种组织协议。

我想起2024年第一次做客这家公司,在那个风暴开始酝酿的夜晚,我对月之暗面的第一印象并非太好。

4SNk32djcQaW2svUzklkXUlxdZ99Mk0eavqH6U9X.jpeg

「DeepSeek救了我们」

2024年12月24日的晚上,对大多数中国人来说,是一个不太会被注意到的平安夜,却是Julian毕生难忘的至暗时刻。她26岁,刚从北大毕业两年,没有任何行业经验,已是Kimi入职最早的员工之一。这位又年轻又资深的女孩,坐在Radiohead会议室的长桌边,面对三十多位同事,眼泪止不住地往下流。

她始终无法交付符合联合创始人标准的节日营销方案。在离春节还有一个月的情况下,要继续升级,甚至全盘推翻已经修改过6次的最新方案,并保证产研团队协同实现,本身就是小概率事件。但公司对2025年春节的增长期望巨大:正是去年春节,Kimi以「200万字长文本」出圈,C端用户激增,甚至在资本市场衍生出「Kimi概念股」。

那场周会漫长而令人绝望:二十位像Julian一样没有经验的年轻同事们轮流汇报,从社媒投放到用户运营,从国内公关到海外营销,事无巨细,集体讨论,由联创决策。Kimi如同一个身处青春期、不知所措的少年,即便手握单月几千万的投放预算,面对来势汹汹的对手,也不免手忙脚乱。

最终,会议在凌晨4点前准时结束。

没有人知道Julian后来的方案是否成功。因为一个月后,当全世界第一次知道DeepSeek这个名字时,一切都变得不再重要。

增长团队的Hayley回到温州老家,亲戚朋友都在问:你知道DeepSeek吗?仿佛Kimi是来自上个世纪的名字。Hayley过了一个最难熬的年。她说,整个公司的沉寂震耳欲聋。

年会往往选在春节后的3月召开,允许所有员工挑战老板。那年的问题几乎都围绕DeepSeek展开。最尖锐的发问来自HR团队,他们以一种绝对真诚的姿态捅破那层窗户纸:我们应该如何回答候选人的那个问题——

「DeepSeek也给我发了offer,我凭什么来Kimi?」

但并非所有人都这么思考。算法团队的Alex回忆,如果说自己在DeepSeek时刻感受到了什么强烈情绪的话,只有一种:兴奋。

这种兴奋不只代表他一个人,而是整个算法团队的心态。他们看到了另外的可能性:成本更低的策略,开源的方式,以及一个过去无人相信的事实——只要技术足够领先,模型足够扎实,一家默默无名的中国创业公司,也能得到全世界的尊重。

产品团队也并不焦虑。Kevin是入职最早的产品同事,他有着明确和清晰的信心:DeepSeek是靠模型出圈,但当Kimi的模型能力跟上来之后,他们在产品端能做的锦上添花的事情将会更多。

没有人知道联合创始人们经历了怎样的讨论。但这家公司以迅疾的方式完成战略调整和再聚焦,并达成了真正意义的全员共识。如果你找任何一个同事问公司最重要的事情是什么,他都会不假思索地告诉你:模型。

从此,你能够感受到公司中蔓延的对DeepSeek的尊重,一方面是基于同行视角的惺惺相惜,另一方面,正如Alex说的那句话:「其实,是DeepSeek救了我们。」

vLkaCouk5th4lyXKkBmJ9afdcqW0uXeBM1nsAFtH.jpeg

Taste is all you need

「你怎么穿这样的鞋子?」

Ezra惊讶地问完这句话后,我比她更感到惊奇。在她所处的办公楼层,几乎每个人桌子底下都会放一双拖鞋,因为舒服的穿着能让人更松弛,更专注,也更有创造力。

这是聪明人的Dress Code。

我见过很多学霸,但这里的「好学生」极其不同。Ezra读小学时就试图入侵自家的电脑,仅仅因为爸妈不肯告诉她密码;初中她又开始对比特币产生兴趣,那时候仅需300元一枚,她劝母亲给点零花钱用于投资,妈妈告诉她那是骗人的;高中第一次坐出租车时,她画出网约车的产品模型,可惜当时没有AI工具,否则可能很早就上线了;大学终于有了自己的零花钱,她选择进入股市,在A股赔掉了90%。

炒股滑铁卢使她深刻反思人类的局限性,从而解锁了对AI的兴趣。

她对AGI(通用人工智能)的理解很朴素,就是要创造N个爱因斯坦,解决人类所有的难题。从那时起,她决心要找到一家公司,探索AGI的极限。尽管她已在A股赚回了本钱。

由于学术背景扎实,她拿到了各大公司的offer。选择加入Kimi,仅仅因为在面试中,创始人杨植麟对技术的深刻理解和对细节的认真态度打动了她。她认为,杨植麟是真正关心模型的人。他没有聪明人身上的浮躁,也没有生意人身上的功利,直到面试结束,她都不知道他是公司的创始人。

Karen从小叛逆,会和老师吵架,也从来不听父母的话,在读书的时候非要出国,留学毕业后又偏要创业,大厂稳定优渥的生活让他绝望。他不要一眼看到头的人生。

我问他,如果100%的60分,和1%的100分,你会选择哪个?

他毫不犹豫地选择后者。不是受不了60分,只是讨厌那个100%。

这样的创业者基因构成集体的某种底色。据不完全统计,月之暗面里至少有50人,创办或加入过创业公司。

显然,Kimi喜欢雇佣CEO们。

更准确的说法是,这里正庇护着一批又一批流浪的天才。天才未必是学霸,或是好学生,重要的是,他们在某个维度里,拥有一双穿透时间的眼睛。

在这个80%的员工拥有「985」和「211」高校学历的公司里,Yannis的履历并不出彩,但早在2023年,他就已经在工程师社区里预见到DeepSeek和Kimi的崛起,那是一个模型公司还没有产品的年代。这种预见被另一位00后同事发现,把他引荐到公司里。

Karen说,太多的聪明人,被困在体系的桎梏里。从家庭,到学校,再到职场,他们无意识地服从着集体,看不到自己内心的真正需要。只有一小部分人试图逃离,又常常不被世界看到。而Kimi的使命之一,便是看到他们。

如果没有这种看到,就不会有17岁的高中生能作为Kimi的实习生与团队合作,发表出让马斯克赞赏的论文。把他放在第一作者的人,正是当初找到他的「伯乐」Bob。

天才和疯子只有一步之遥。当一个不被理解的疯子来到月之暗面,他可能突然成为改变世界的天才;或是那些尚未面世的天才,在这里才能疯狂绽放。Bob告诉我,某种程度上,Ego大不是问题,甚至可能是好事。把Ego当作内驱力,认定自己必须参与某个伟大事业,才是真正疯狂的天才,也是他们决不愿错过的人。

天才偏执。

在这个团队里,训练顶级AI模型被称为「炼丹」,而炼丹本质上就是不断修BUG。在启动Flagship Run(旗舰模型训练任务)后,Bob和同事们养成了一个改不掉的习惯,每天睁眼的第一件事,是刷新十几万个内部监控指标,屏幕上任何一条曲线的异常上扬,都会引起警觉:是优化出了问题?架构设计有缺陷?还是数值精度没对齐?

他们像训练有素的动物一样敏锐。有人甚至会从训练语料中筛选出那些梯度极值过大的token(词元),把它们逐个打印出来,逐字审问:你为什么跳动得如此剧烈?

每个真正参与过这场「接生」的人,都经历过这种紧张到夜不能寐的日子。他们并非焦虑,而是好奇心在驱动。偏执的警觉,把这个模型推向行业顶尖水平。

天才扎堆。

过去一年里,Kimi招聘的人员有超过100人来自内推,要么是朋友,或者朋友的朋友。这种招聘模式被内部称为“人传人”。基于这种本就深度连接的关系网络,信任成为天然的组织资产。

本质上,Kimi把组织管理的难度转嫁到了人才招募上。通过举荐吸引来的人「气味相投」,这也正呼应几乎所有人都在强调的关键词:TASTE(品味)。

2025年9月的一个晚上,几位工程师随手启动了一个内部小项目,取名「Ensoul」(意为“赋予灵魂”)。这个名字本身就像一句诗——他们想让沉睡的代码文件“活”过来,在命令行里变成一个能对话的智能助手。

这种对名字的敏感不是偶然。他们曾有个框架叫「YAMAHA」,其实是「Yet Another Moonshot Agent」的缩写;而最核心的底层被命名为「Kosong」——马来语里“空”的意思,取自“空即是色”的禅意,寓意它像一张白纸,不预设任何功能,却蕴含一切可能。

正是这样的品味,决定了产品的长相。

当别人都在把聊天窗口硬塞进命令行时,他们认为这太丑了:真正的程序员打开终端是为了输入命令,不是为了聊天。于是Kimi CLI被设计成更像一个“聪明的Shell”——它懂你输入的指令,但不会强行变成一个对话窗口。

这种极简也体现在代码里。整个核心逻辑只有400行Python,像一首短诗,删掉了所有不必要的装饰。模块之间解耦得干干净净,用户不仅能自己定制功能,还能把Kimi拆成零件,组装出自己的应用。

就连Kimi Agent早期也曾以“OK Computer”自居——尽管后者终因传播门槛过高而被迫更改。但命名者似乎从不在意流量最大化的互联网法则,只服从于私人的音乐趣味与语言洁癖。

有人半开玩笑地说,若以会乐器的人员比例计,Kimi在AI公司中可能排在第一。

Taste成为最高,也最难达到的招聘标准。它无法量化,却无处不在。

4MoY5HFbboCUbu5udEC98i6z2P9IWpOYRTrj8HpQ.jpeg

泛化,然后进化

你可能永远搞不清Kimi的每个人在干什么。

公司喜欢使用「团队」这个词来形容分工。整体上,算法、产研、增长、战略、职能等方向大概明确,可一旦细化到所谓的「部门」甚至是具体分工,没有任何人说得清楚——

因为你面对的是一个没有部门、没有职级、没有Title(头衔)、没有OKR(目标与关键成果法)和KPI(关键绩效指标)的组织,甚至所有汇报线都简单得不真实。

这对本硕毕业于清华、曾在硅谷巨头和中国「大厂」担任过管理层、打造了10亿美金创业公司的Brandon来说,实在不可理喻。他浸淫行业多年,以技术管理见长,曾带过近千人的团队,本想在AI领域延续经验以大展拳脚,却被联合创始人张予彤告知公司并非如此运作,因为能够给到他带的团队人数是——2个人左右。

出于某种对未来的直觉,他还想再进一步聊聊。

于是,在2025年1月,某个怀疑蔓延、人心动荡的长夜里,Brandon见到了自己的清华师弟,创始人杨植麟。前者当时不会知道,后者的名字将在今天如此频繁地和马斯克、黄仁勋被媒体一并提及。他唯一记住的是,这位师弟在寒暄后张嘴说的第一句话:

「师兄,RL(强化学习)才是未来。」

此后,这场对话更像是杨植麟的喃喃自语——他在自己的思考中沉浸得很深,以至于Brandon并不能听懂其中大多数中文。但他无法否认的是,自己第一次意识到过去二十年建构的知识结构和思维模式,正在一场革命前夜分崩离析,连同他所有的Ego。至于最终下定决心加入公司的原因,他略显神秘地告诉我:杨植麟可能成为一个伟大的预言家,因为他足够有远见,并足够纯粹。

后来,当这个不流行Title的公司因为实在不好给他定岗而有些犹豫时,他坚定的回应不像在开玩笑:「哪怕让我扫厕所,我也来。而且,我要扫到最好。」

并不是所有大厂的管理者和专家都能在这里如鱼得水。Phoebe是从增长团队转岗到产研团队的00后女孩,自称「什么都不懂的黄毛丫头」,她认真地告诉我,在这家公司,丰富的经验和深厚的履历可能成为负担——AI行业太新,变化太快,一个资深专家可能不如她这个「黄毛丫头」学习和成长得更快。

她至少看到有三位大厂中高层到公司Landing(入职适应)失败。有一位最后决定去另一个行业安度余生,原因是觉得身边的人极度年轻、极度聪明,他在被一次次碾压后彻底破防——这不是属于自己的时代和行业,不如认命躺平。

自DeepSeek时刻后,Phoebe也产生了深深的危机感,决心彻底放弃研究投放,想转而在产品和研发上帮助公司,便开始无休无止的知识恶补,甚至去B站直播学习,长达几百个小时。但令她惊讶的,是公司在一开始就毫无忧虑地给予她转岗的机会。

事实上,仅在受访的三十位同事里,就有一半以上的人工作职责发生过多次变化。如果跟他们上一份工作的内容相比,这个变化的比例恐怕达到80%——这意味着,几乎每个人都在Kimi做着与之前完全不同的事情。

Kimi喜欢有泛化能力的人。

在AI的语境中,泛化能力是指模型在训练数据之外的新场景下依然有效的能力——它不是死记硬背答案,而是捕捉底层的规律结构。而那些大厂的中高层,在巨头特定的KPI体系、汇报话术、资源博弈规则中训练得太久,算法已过度拟合了局部最优解。当环境变量彻底改变时,他们的能力在适应新分布的过程中就可能失效了。

如果说传统大厂员工像专用模型,那么月之暗面追求的个体像基础模型:通过SFT(监督微调)掌握基本规则后,用RL(强化学习)在多元任务中自我对弈,最终获得跨域迁移的能力。

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场