| 天人地 |
2025-12-12 09:24 |
“2023 年初,有巨头说全世界只会有几个大模型,这就像 1943 年,IBM 董事长曾说全球不需要超过 5 台主机。”
文丨程曼祺 今年 11 月,清华大学、开源组织 OpenBMB 与面壁智能的联合研究登上《自然·机器学习》封面——Densing Laws of LLMS(《大模型的密度法则》:每 3.5 个月,模型的能力密度翻一倍。
此图描述了 2023 年 4 月之后,主要开源模型的能力密度的变化。能力密度是衡量单位参数 / 算力下,模型能力的指标。目前版本的密度法则总结了预训练大语言模型的密度变化,o1、R1 等后训练强化学习对能力密度的提升尚未体现在指标里。
ChatGPT 出现之后(图中 2023 年 1 月的时间线),能力密度上升的斜率变陡。
过去几年,大模型演进的明线是 “规模法则”(Scaling Law)带来的能力跃迁。大模型在编程、生图、设计等能力上,达到甚至超越了人类水平。另一方面,模型性能竞赛也带来巨大的资源消耗,连 OpenAI 也因资源不足出现分歧。 密度法则,就是关注如何用更少计算和数据资源,更高效地得到更多智能。对密度目标的追求,会加速手机、汽车、机器人等端侧智能发展,促进分布式智能和每个人的 “专属大模型”。 本期《晚点聊》,我们和密度法则的研究者,清华大学计算机系副教授、面壁智能首席科学家刘知远,以及清华博士后、面壁智能 MiniCPM 系列文本模型负责人肖朝军讨论了: - 密度法则的背景和核心洞察; - 提升模型能力密度的具体方法; - 强化学习还没有出现 Scaling Law,由此引起的两个探索方向; - 自主学习与分布式端侧智能的未来。 2023 年全国端侧算力(主要是手机)是数据中心算力的 12 倍。过去几十年的信息化,本质上是一个分布式算力和分布式信息的结构。 刘知远认为,智能未来也会分布式存在。这个过程中,密度法则指引的效率提升尤为重要。 2023 年初有巨头说 “全球只需要几个大模型”,这和 1943 年 IBM 董事长说 “世界只需要五台计算机” 如出一辙。 但未来的智能大概率是分布式存在的,每个人都有一个属于自己的智能体。如果模型具备自主学习能力,那么终端上的模型就能基于用户的个人数据持续成长,最终形成一个 “个人大模型”,成为你最懂你的那个助手。 大模型时代的 “摩尔定律” 晚点:最近赶上中美新模型密集发布,尤其 Gemini 3 热度很高;从这些新进展里,你们看到了哪些亮点? 肖朝军:我感受到两个明显趋势。第一,所有大模型都在强化 “智能体” 能力,直观表现是,每次模型发布后,大家都会测代码任务,模型在 agent 任务上的表现显著提升。 第二,从 Nano Banana Pro 中可以看到,Google 的多模态模型的文字生成准确度非常高,这在此前的 diffusion(扩散)模型里很难看到,只在 OpenAI 的 GPT-4o 中有一点苗头。这让我看到一种新的 Scaling 方向:过去我们一直说更多数据、更大模型、更强能力,但多模态数据一直没有真正带来 “智能跃迁”,而现在这种 “统一的自回归式” 的视觉-语言生成可能带来突破。当然,Gemini 3 的模型细节未公开,还不能完全判断,现在的能力更多来自产品优化,还是架构上的真正整合,可能要再看看后续版本。 刘知远:现在几乎每周的进展,都相当于我读研时一年的进展,总结下来有两条主线: 一是能力变强,它对应 “规模法则”:从 2018 年预训练模型出现后,每隔几年模型能力就会跳一次: - 2022 年底 ChatGPT 通过指令微调(instruction tuning)让模型 “听懂人话”; - 2024 年底到 2025 年初,大规模强化学习后训练让模型具备更深的思考能力。 模型正变得更通用,甚至开始接近或超越人类在某些领域的能力。 第二是能效更高,我们这次提出的 “密度法则”,本质上就是对 “如何让能力与成本之比不断提高” 的定量描述。任何想真正改变世界的技术,都必须追求更高效率,大模型也会在能力 + 成本两个方向上同时进化。 晚点:一般大家更关注的是能力变强,在第二条主线 “能效更高” 上,近期有哪些进展? 肖朝军:核心的 AI Lab 也都在追求效率提升。在开源侧,Qwen 3、DeepSeek V3.2、Llama 3,以及面壁自己的 MiniCPM 系列都在做 MoE(混合专家系统)、 Sparse Attention(稀疏注意力)、Efficient Attention(更有效率的注意力机制)等架构优化。在闭源侧,OpenAI 推出了 Mini 系列;Google 也在 Gemini 3 之前发布了 Gemini Diffusion,宣称它的文本生成速度比其他模型快了很多很多倍, 所以无论开源还是闭源,大家都在追求 “效率”,因为资源永远不够——连 OpenAI 都是如此,甚至会因此有重大分歧,比如 Ilya 离职时提到的 “资源不足”。 刘知远:规模法则和密度法则就像大模型演进的明线和暗线,之前信息革命也是如此:明线是,设备越来越小,大型机→小型机→个人电脑→手机→其它智能终端;暗线是芯片行业的高效进化,也就是摩尔定律。我们提出密度法则,就是想寻找大模型时代的 “摩尔定律”。 晚点:模型的训练和推理效率越来越高,这不是不言自明的吗?为什么要特别来做这个研究? 刘知远:我们是在 2023 年底开始着手这个研究的。回到那一年,包括后面的 2024 年,全球主导的话语体系都是规模法则,一些国际机构甚至宣称:只有拥有十万张 GPU 的组织才有资格训练大模型。 这种叙事下,很多人,包括政策决策层也会误以为规模法则是唯一的第一性原理,这有误导性。密度法则就是希望纠正行业叙事,让大家看到效率同样是主线。 当时,大部分团队的目标都是复现 ChatGPT。国内一线团队大概在 2023 年 9~10 月完成了复现,80B 级别的模型就能做到 ChatGPT 的效果。 接下来一个自然的选择是追 GPT-4,我们测算,这需要把模型做到 140B 左右,训练成本得上千万元。但以当时的节奏,24 年上半年,国内至少会有五家团队做到 GPT-4 水平,那我们怎么收回投入? 所以我们把重点转向了 “模型风洞”——系统性评估架构、数据、训练策略对效率的提升。它带来的第一个成果,是 2024 年 1 月的 MiniCPM-1:以 2.4B 参数做到了当时 LLaMA-2-13B、Mistral-7B 的效果。2.4B 是手机可跑的规模,这让我们意识到,技术创新可以大幅提升模型的效率,也因此我们开始坚定投入 “端侧大模型”。 我们也在追问:这种效率跃迁背后有没有更底层的规律?受摩尔定律启发,我们提出了 “知识密度”,并在 2024 年围绕训练各环节的创新如何提升能力密度做了系统研究。至少在面壁内部,“密度法则” 已是一个明确的目标指引。 晚点:从 2023 年秋天之后,面壁就一直追求高效的大模型,但为什么并没有形成 25 年 1 月 DeepSeek R1 那样的影响力? 刘知远: 公众关注的是谁家模型能力更强,那往往意味着训练几千亿、上万亿参数的超大模型。但大部分公司还是要考虑商业后果。AGI 在未来五到十年一定会到来,你当然可以像互联网时代的 Google 一样,在云端做公开服务,但 AGI 也会发生在端侧。既然端侧有这么大的潜力,而关注它的人又不多,我们提前布局,反而更适合初创公司的禀赋和节奏。最近看到一句话很好:“别人得到的,不一定是你失去的。” 提升能力密度的四个环节,强化学习还未出现 Scaling Law 晚点:密度法则的核心洞察是什么? 肖朝军:核心观点不是我们观察到的模型能力密度 “每 3.5 个月翻倍” 这个数字本身,而是提出一个目标:我们应追求单位计算带来的智能最大化,而不是盲目追求模型规模。 规模法则与密度法则也并不对立。前者是 “算力与能力之间的对应关系”;后者是 “单位算力到智能的转化率”,是追求更高的斜率。 晚点:有哪些提升模型能力密度的具体方法? 刘知远:分四个部分——模型架构、数据、学习算法、软硬一体的协同优化。密度法则提出后,我们正在尝试定量描述这些维度的影响,已经有一些经验性结果。 肖朝军:第一就是模型架构。Transformer 核心就两块:FFN(Feed-Forward Network,前馈网络) 和 attention(注意力机制)。 现在基本的共识是,FNN 要做稀疏化的 MoE 架构——就是把 FNN 这块很大的 “稠密矩阵变换” 切成很多 “专家”,每次前向计算只激活其中一小部分专家,这比激活全局的算力消耗更少,效率更高。DeepSeek 的一个重要贡献,就是证明了 MoE 在大规模模型上也能有很好的效果。 而在注意力机制上,今年开源、闭源都在做各种效率改进:比如 Gemini 系列里滑动窗口注意力 + 稠密注意力的混合架构,Qwen3-Next 和 Kimi Linear 用了 DeltaNet(一种线性注意力)混合稠密注意力的架构,还有 DeepSeek 近期发布的 DSA 等等。这些改进都是为了顺应大模型从 “短模型” 变成 “长模型” 的趋势,而这又来自 Agent 化和深思考的需求,Agent 既需要长输入,也需要长输出。 长文本未来一定会面向深思考和 Agent 场景,它会有更多长输出。而现在面向长输出的线性注意力的验证是远远不够的。 所以,MiniMax 为什么从 M1 的 lightning attention(注:lighting attention 采用了线性注意力混合 full attention 的架构),到现在 M2 全部用 full attention?我猜测一个很重要的原因是,M2 想主打 agent,但是直接用 lighting attention 在一些更复杂的 agent 任务上有性能缺失。 晚点:年初我们聊注意力改进时,你就提到过 Agent 任务下,要更多关注长输出。这在现在也不是共识吗? 肖朝军:我观察到,大家还是习惯把长文本等同于长输入,而思维链和多步推理其实对长输出有更多需求。比如一个 agent 规划了 5 个步骤:你不能做到第五步时忘掉第一步,然后再倒回去重做,模型需要记住自己之前输出了什么。这是长文本的新挑战。 我们今年 6 月开源的 InfLLM 2,就有针对这个问题的改进。核心变化是做了 “原生稀疏”:在预训练阶段就引入稀疏注意力变,而不是像第一版那样在推理阶段才做。这带来两个好处:一是训练明显加速;二是稀疏度显著降低——InfLLM 1 在推理阶段,大概有 50% 的注意力开销(相比 full attention 的 50%),而 InfLLM 2 在训练阶段的稀疏度只有不到 5%,即在 128K 上下文长度下,只需要关注 4–6K token。 我们这个算子也同时支持长输出。在 Agent 和深度思考场景,这个方法都比较实用。 晚点:架构之后,在数据维度,业界在如何提高模型的能力密度? 肖朝军:数据上,接下来两个点非常关键:一是合成数据,二是更高质量的数据清洗与治理。现在几乎所有顶级团队都在投入这两件事,因为它们直接决定模型能力的上限,也决定下一阶段能否继续把密度做上去。 刘知远:我们内部其实有一套分层的 pipeline(流程),从 L0 到 L4,对应不同的处理阶段。 L0 收集,通过抓取、采买获得原料; L1 过滤,清理掉重复数据和垃圾数据; L2 精选,进一步挑出我们认定的高质量数据; L3 合成,不只是对现有数据加工,而是生成这个世界上原本不存在的内容,比如改写、扩写、任务化等; L4 验证,通过形式化或人工方式,确认这一层的数据达到了高质量。 比如最近我们用这套 pipeline ,精炼了很有名的预训练数据集 FineWeb,得到一个容量不到原始数据 1/10 的版本,叫 Ultra-FineWeb。结果用 Ultra-FineWeb 训练出的模型效果反而比直接用 FineWeb 更好,训练成本自然也能降到十分之一,这只是预训练阶段的数据治理带来的效果。 后训练同样如此——无论是 SFT(监督微调)还是强化学习,数据的合成质量都强烈影响模型的能力上限和效率。比如交大刘鹏飞老师最近做的 “Less is More” 系列,就是用更少、更精的数据获得更强效果的例子。 我们接下来也会开源这套比较完整的数据治理体系,包括数据样例和整个 pipeline 的结构。一个更根本的问题是:达到某个能力水平的 “最小的数据集” 究竟长什么样?这个问题也能帮我们追问智能的本质。 晚点:接下来是算法的改进,今年的重点明显转向了 RL。 肖朝军:是的,但强化学习做到现在,仍然没有出现清晰的 scaling law。 预训练的 scaling law 非常清晰:几十万亿 tokens、几十万步训练,有稳定的 scaling law 可循。而现在做 RL,大多数团队也就训到几千步;OpenAI o1 的技术报告里,一些任务不到一万步就停了,效果不错,但离跑通 RL scaling 还差得很远。换句话说,如何让强化学习持续稳定地训下去?这仍是整个行业在探索的方向。 晚点:你说 “RL 还没有 scaling”,具体是指什么? 肖朝军:行业说 “RL 的 scaling” 主要指两块:环境能否扩展,reward(激励)是否可验证。 前 OpenAI 研究员 Jason Wei 认为,RL 关键在于构建一个 “unhackable environment”——一个模型不能投机取巧,能持续学习的环境。但 Ilya 则认为这种环境几乎不存在,人类学习本身也不是在这样的环境里完成的,这也关系到我们如何定义下一阶段的 AGI。 在 reward 上,目前真正可验证的 reward 基本只有数学和代码。但代码领域的 RL 目前主要是在竞赛题上很强,真正的软件开发要复杂得多,reward 很难构建,这是 RL scaling 的核心瓶颈。 不过 RL 至少已经证明:只要有足够的数据和反馈,它能在任何任务上做到人类前 0.1% 甚至 0.01% 的水平。很多团队已经实现数学竞赛、编程竞赛的国际金牌水平。所以完全可以想象,未来一个公司如果能在某个垂直场景积累足够的数据,就能用 RL 打造出该领域的 “超级专家模型”。 晚点:现在就有 RL to B 的趋势——针对某个真实商业环境去做强化学习,比如 Thinking Machines Lab 可能在探索这个方向。 肖朝军:所以我们之前叫 prompt engineering,现在是 reward engineering 或 environment engineering,这都是 RL 带来的新产物。 不过只到这一步,还不是我们真正想要的 AGI。因为人类的学习非常高效,在一个新任务下,只需要少量反馈、少量尝试就能学会。现在 RL 离这种学习效率还有巨大差距。 接下来可能有两条路: 一是继续把 RL 做 scaling:不停扩大环境规模、增加可验证的 reward,看能不能像预训练那样,随着规模扩展自然出现更强的泛化能力。 我们正在研究更高效的 RL scaling 框架,让模型在 RL 训练时把算力吃满,把训练步数拉到足够大,比如做到几万步,让模型真正经历更长的思考。 更往前走是开放域的强化学习——不仅是数学、代码,而是像 “写一篇论文什么算好”“计划一个复杂任务什么算完成” 这种 reward。这个方向还没有成熟范式,大家都还在摸索开放域的 reward 怎么定义,怎么稳定训练? 二是寻找更高效的新的学习方式:提高 sample efficiency(样本效率)——让模型能更像人那样,在少量反馈下就能学会新任务,而不是依赖大量人工标注和大量环境交互。 晚点:我们不能构造一个很复杂的、包含多种激励的环境吗?人所处的真实环境就是如此,我们面临的任务很多样,在不同情境和场景里,我们也会自己切换目标和激励。 肖朝军:这很难。人能在现实世界中高效学习,是因为我们能从各种微弱而连续的信号里获得反馈。比如聊天时,我见你表情变严肃,自然会意识到可能哪里不太对——这是一种细腻的反馈。 但在强化学习里,反馈必须被离散成 “+1 或 -1” 这种形式化的 reward。如何把现实世界这种丰富、连续、多维的反馈压缩成一个 reward?本身就极其困难。 这对应到 Ilya 说的 value function(价值函数)——要给模型一个描述 “什么是好、什么是坏” 的价值函数。但构造这样的 value function 和构造一个完整的世界模型一样难。 甚至这是一个 “鸡生蛋、蛋生鸡” 的悖论:如果我真能对世界建模得那么好,能有一个足够强的 reward model 去评估所有行为,那这个 reward model 本身就已经是 AGI 级别的难度了。相当于你先有一个 AGI,才能用它去训练 AGI。 从大模型上车、上手机,到随身携带的 “个人 NAS” 晚点:密度法则在业界的更多反馈和影响是什么? 刘知远:DeepSeek-3 发布后,“成本、能效” 已经变成全行业核心词。其中一个有意思的现象是,很多具身智能(embodied AI)领域的朋友特别喜欢引用我们的研究成果,因为端侧设备对延迟与能耗极度敏感。 在《自然·机器学习子刊》的这篇论文之前,我们还有一篇发在《自然通讯》上的论文,是关于 MiniCPM-V(注:指论文 Efficient GPT-4V level multimodal large language model for deployment on edge devices),其中有张经典的图,就是描述密度法则结合硬件演进,能让端侧设备承载原来云端服务器上跑的模型才有的能力;具身智能团队最关心的就是,端侧的大脑什么时候可行。
达到 GPT-4V 水平的模型参数规模随时间增长迅速缩减,而端侧算力快速增强,当芯片电路密度(摩尔定律)和模型能力密度(密度法则)两条曲线交汇,端侧设备将能运行以往只能在云端运行的大模型。
晚点: 你们看到的具体时间表是? 刘知远:结合模型能力密度的提升速度,和全球一线芯片厂的制程路线图,推估端侧芯片的算力、缓存等规格,我们预测:2030 年左右,端侧可部署 60B+ 参数的模型,激活大小可到达 8B+。这是基于现在发展的线性推测,未来也可能有非线性突破。5 年内,端侧很可能能承载 GPT-4〜GPT-5 能力的模型。 晚点:不同终端设备的进展速度是怎样的?目前来看,车、手机、电脑应该是第一批,也是各家布局端侧 AI 的公司的重点。 刘知远:对,今年车端模型量产速度非常快,车的空间大,本身对算力、功耗的限制相对小。我们已经在和长安马自达、吉利的一些车型合作,明年会有 6 款以上车型接入我们的模型。 晚点:现在大语言模型和多模态模型在车上具体能做什么?相比之前的语音助手,新增体验是什么? 刘知远:主要是智能座舱的多模态交互,包括感知车内、车外环境,对坐在不同位置的多乘客的识别和理解等等。不同车企的功能定义其实差别挺大的,有的高端座舱的功能点会超过 100 个。 晚点:之前的 AI 技术在用到车等终端时需要做定制开发,这关系到这种服务的商业效率和规模化能力,大模型现在要去适配这么多功能点,需要做哪些额外的开发? 刘知远:主要是做一些微调,我们自己来做。我们本身很强调标准化,有一套 SFT 工具链和数据合成规范,所以效率挺高的。 晚点:那么接下来在手机,乃至眼镜这种更小的硬件上,AI 和端侧模型会怎么发展? 刘知远:我们认为 2027 年是关键节点,这时可以做到,在手机上实现大规模的强化学习。这就意味着,每个人能用自己的数据来给这个模型提供学习环境,让它能逐渐成为个人的 “专属大模型助理”。而眼镜,它不需要自己跑大模型,它更像是手机的外设。 或者说,未来的入口不也不是手机,而是一个随身的个人计算终端,类似能随身携带的的家庭 NAS(一种计算与存储服务器);眼镜、耳机、手表或各种新的传感设备,会通过各种方式获得数据,再给到个人计算终端,支持模型持续学习。 智能会分布式存在,AGI 的雏形是 “AI 造 AI” 晚点:目前的密度法则是描述现有预训练范式的效率提升,现在业界也都在讨论,预训练 +RL 后训练之后,下一个大的方法改进是什么?你们会重点探索哪个方向? 肖朝军:我认为是自主学习(self-learning),也可以说是自我进化、持续学习,现在的名词很多。背景还是我们前面聊到的——强化学习已能在单一任务上做到很强,但它还不够泛化。 未来的模型,首先应该是一个很好的学习者:它放在你的终端或其它设备上,可以根据你的需求持续学习你擅长或需要的任务。就像带一个实习生——你教它写代码、写稿或做研究,它会逐渐掌握这些能力。 而目前的预训练和强化学习都做不到这一点,因此才会出现世界模型,想给模型提供一个足够好的反馈环境;才会强化学习之父 Rich Sutton 说当前大模型无法通向 AGI 。核心还是,海量数据驱动的这种学习方式可能会阻碍更高效地习得新技能。 接下来,是有了自我学习能力的模型之间的协作。比如有的人培养出了 AI Researcher 专家模型,有的培养出了 Infra 专家模型,他们怎么合作,让模型发展得更快。 再往后,最高阶的就是创造能力,比如真的像爱因斯坦等科学家那样,不仅在人已经定义好的符号里学习,也有能力创造新的符号间的关系,乃至新的符号系统。 所以总结一下,就是自主学习→能自主学习的 AI 之间的协作→创新。 刘知远:这是明线,背后也有一条暗线,是智能在设备上的分布方式。 按中国信通院的统计,2023 年全国端侧算力,主要是手机的加总,是数据中心算力的 12 倍。云上算力看起来很大,但架不住全国十几亿台设备同时在跑。所以过去几十年的信息化,本质上是一个分布式算力和分布式信息的结构。 我认为智能化也会如此。2023 年初有巨头说 “全球只需要几个大模型”,这和 1943 年 IBM 董事长说 “世界只需要五台计算机” 如出一辙。但未来的智能大概率是分布式存在的,每个人都有一个属于自己的智能体。 如果模型具备自主学习能力,那么终端上的模型就能基于用户的个人数据持续成长,最终形成一个 “个人大模型”,成为你最懂你的那个助手。云端则会存在一系列 “专家大模型”:懂外卖的美团模型、懂出行的是滴滴模型、懂内容的是抖音模型…… 端侧和云端模型的协同工作,就会形成 “智能体的互联网”。在这个分布式智能体系里,密度法则会非常关键,它能让端侧模型能以极低成本运行,用户几乎无感,让智能属于每个人。 晚点:未来一年:你们最想观察、验证的问题是什么? 肖朝军:强化学习到底能走多远?自主学习以什么形式存在?还有,最早出现的 “AGI 形态” 会是什么样?这其实是这样一个问题:自主学习、协作和创造这些能力,会先落在一个什么样的模型或产品形态上? 我的直觉是,AGI 的形态可能不是面向用户的 to C 产品,而是面向生产的 to B 系统。比如说,你让它 “做一个自动驾驶模型”,它就能生产数据、构建环境、训练模型、优化架构,最终把模型在目标算力上部署起来。也就是说,最早的 AGI 不需要什么都会,而是先会 “自己生产 AI”。 刘知远: 从历史来看,第一次工业革命的标志是 “机器生产机器”。智能时代的本质也是 “AI 造 AI”。自主学习,就是最早的 “AI 造 AI” 的雏形:模型能在环境中自己成长。我非常期待明年或后年出现真正具备这种能力的系统。
|
|