武当休闲山庄 - 稳定,和谐,人性化的中文社区

查看完整版本: [-- 密度法则和智能的分布式未来 --]

武当休闲山庄 -> 数码讨论 -> 密度法则和智能的分布式未来 [打印本页]

登录 -> 注册 -> 回复主题 -> 发表主题

天人地

2025-12-12 09:24

“2023 年初，有巨头说全世界只会有几个大模型，这就像 1943 年，IBM 董事长曾说全球不需要超过 5 台主机。”

文丨程曼祺
今年 11 月，清华大学、开源组织 OpenBMB 与面壁智能的联合研究登上《自然·机器学习》封面——Densing Laws of LLMS（《大模型的密度法则》：每 3.5 个月，模型的能力密度翻一倍。

此图描述了 2023 年 4 月之后，主要开源模型的能力密度的变化。能力密度是衡量单位参数 / 算力下，模型能力的指标。目前版本的密度法则总结了预训练大语言模型的密度变化，o1、R1 等后训练强化学习对能力密度的提升尚未体现在指标里。

ChatGPT 出现之后（图中 2023 年 1 月的时间线），能力密度上升的斜率变陡。

过去几年，大模型演进的明线是 “规模法则”（Scaling Law）带来的能力跃迁。大模型在编程、生图、设计等能力上，达到甚至超越了人类水平。另一方面，模型性能竞赛也带来巨大的资源消耗，连 OpenAI 也因资源不足出现分歧。
密度法则，就是关注如何用更少计算和数据资源，更高效地得到更多智能。对密度目标的追求，会加速手机、汽车、机器人等端侧智能发展，促进分布式智能和每个人的 “专属大模型”。
本期《晚点聊》，我们和密度法则的研究者，清华大学计算机系副教授、面壁智能首席科学家刘知远，以及清华博士后、面壁智能 MiniCPM 系列文本模型负责人肖朝军讨论了：
- 密度法则的背景和核心洞察；
- 提升模型能力密度的具体方法；
- 强化学习还没有出现 Scaling Law，由此引起的两个探索方向；
- 自主学习与分布式端侧智能的未来。
2023 年全国端侧算力（主要是手机）是数据中心算力的 12 倍。过去几十年的信息化，本质上是一个分布式算力和分布式信息的结构。
刘知远认为，智能未来也会分布式存在。这个过程中，密度法则指引的效率提升尤为重要。
2023 年初有巨头说 “全球只需要几个大模型”，这和 1943 年 IBM 董事长说 “世界只需要五台计算机” 如出一辙。
但未来的智能大概率是分布式存在的，每个人都有一个属于自己的智能体。如果模型具备自主学习能力，那么终端上的模型就能基于用户的个人数据持续成长，最终形成一个 “个人大模型”，成为你最懂你的那个助手。
大模型时代的 “摩尔定律”
晚点：最近赶上中美新模型密集发布，尤其 Gemini 3 热度很高；从这些新进展里，你们看到了哪些亮点？
肖朝军：我感受到两个明显趋势。第一，所有大模型都在强化 “智能体” 能力，直观表现是，每次模型发布后，大家都会测代码任务，模型在 agent 任务上的表现显著提升。
第二，从 Nano Banana Pro 中可以看到，Google 的多模态模型的文字生成准确度非常高，这在此前的 diffusion（扩散）模型里很难看到，只在 OpenAI 的 GPT-4o 中有一点苗头。这让我看到一种新的 Scaling 方向：过去我们一直说更多数据、更大模型、更强能力，但多模态数据一直没有真正带来 “智能跃迁”，而现在这种 “统一的自回归式” 的视觉-语言生成可能带来突破。当然，Gemini 3 的模型细节未公开，还不能完全判断，现在的能力更多来自产品优化，还是架构上的真正整合，可能要再看看后续版本。
刘知远：现在几乎每周的进展，都相当于我读研时一年的进展，总结下来有两条主线：
一是能力变强，它对应 “规模法则”：从 2018 年预训练模型出现后，每隔几年模型能力就会跳一次：
- 2022 年底 ChatGPT 通过指令微调（instruction tuning）让模型 “听懂人话”；
- 2024 年底到 2025 年初，大规模强化学习后训练让模型具备更深的思考能力。
模型正变得更通用，甚至开始接近或超越人类在某些领域的能力。
第二是能效更高，我们这次提出的 “密度法则”，本质上就是对 “如何让能力与成本之比不断提高” 的定量描述。任何想真正改变世界的技术，都必须追求更高效率，大模型也会在能力 + 成本两个方向上同时进化。
晚点：一般大家更关注的是能力变强，在第二条主线 “能效更高” 上，近期有哪些进展？
肖朝军：核心的 AI Lab 也都在追求效率提升。在开源侧，Qwen 3、DeepSeek V3.2、Llama 3，以及面壁自己的 MiniCPM 系列都在做 MoE（混合专家系统）、 Sparse Attention（稀疏注意力）、Efficient Attention（更有效率的注意力机制）等架构优化。在闭源侧，OpenAI 推出了 Mini 系列；Google 也在 Gemini 3 之前发布了 Gemini Diffusion，宣称它的文本生成速度比其他模型快了很多很多倍，
所以无论开源还是闭源，大家都在追求 “效率”，因为资源永远不够——连 OpenAI 都是如此，甚至会因此有重大分歧，比如 Ilya 离职时提到的 “资源不足”。
刘知远：规模法则和密度法则就像大模型演进的明线和暗线，之前信息革命也是如此：明线是，设备越来越小，大型机→小型机→个人电脑→手机→其它智能终端；暗线是芯片行业的高效进化，也就是摩尔定律。我们提出密度法则，就是想寻找大模型时代的 “摩尔定律”。
晚点：模型的训练和推理效率越来越高，这不是不言自明的吗？为什么要特别来做这个研究？
刘知远：我们是在 2023 年底开始着手这个研究的。回到那一年，包括后面的 2024 年，全球主导的话语体系都是规模法则，一些国际机构甚至宣称：只有拥有十万张 GPU 的组织才有资格训练大模型。
这种叙事下，很多人，包括政策决策层也会误以为规模法则是唯一的第一性原理，这有误导性。密度法则就是希望纠正行业叙事，让大家看到效率同样是主线。
当时，大部分团队的目标都是复现 ChatGPT。国内一线团队大概在 2023 年 9～10 月完成了复现，80B 级别的模型就能做到 ChatGPT 的效果。
接下来一个自然的选择是追 GPT-4，我们测算，这需要把模型做到 140B 左右，训练成本得上千万元。但以当时的节奏，24 年上半年，国内至少会有五家团队做到 GPT-4 水平，那我们怎么收回投入？
所以我们把重点转向了 “模型风洞”——系统性评估架构、数据、训练策略对效率的提升。它带来的第一个成果，是 2024 年 1 月的 MiniCPM-1：以 2.4B 参数做到了当时 LLaMA-2-13B、Mistral-7B 的效果。2.4B 是手机可跑的规模，这让我们意识到，技术创新可以大幅提升模型的效率，也因此我们开始坚定投入 “端侧大模型”。
我们也在追问：这种效率跃迁背后有没有更底层的规律？受摩尔定律启发，我们提出了 “知识密度”，并在 2024 年围绕训练各环节的创新如何提升能力密度做了系统研究。至少在面壁内部，“密度法则” 已是一个明确的目标指引。
晚点：从 2023 年秋天之后，面壁就一直追求高效的大模型，但为什么并没有形成 25 年 1 月 DeepSeek R1 那样的影响力？
刘知远：公众关注的是谁家模型能力更强，那往往意味着训练几千亿、上万亿参数的超大模型。但大部分公司还是要考虑商业后果。AGI 在未来五到十年一定会到来，你当然可以像互联网时代的 Google 一样，在云端做公开服务，但 AGI 也会发生在端侧。既然端侧有这么大的潜力，而关注它的人又不多，我们提前布局，反而更适合初创公司的禀赋和节奏。最近看到一句话很好：“别人得到的，不一定是你失去的。”
提升能力密度的四个环节，强化学习还未出现 Scaling Law
晚点：密度法则的核心洞察是什么？
肖朝军：核心观点不是我们观察到的模型能力密度 “每 3.5 个月翻倍” 这个数字本身，而是提出一个目标：我们应追求单位计算带来的智能最大化，而不是盲目追求模型规模。
规模法则与密度法则也并不对立。前者是 “算力与能力之间的对应关系”；后者是 “单位算力到智能的转化率”，是追求更高的斜率。
晚点：有哪些提升模型能力密度的具体方法？
刘知远：分四个部分——模型架构、数据、学习算法、软硬一体的协同优化。密度法则提出后，我们正在尝试定量描述这些维度的影响，已经有一些经验性结果。
肖朝军：第一就是模型架构。Transformer 核心就两块：FFN（Feed-Forward Network，前馈网络）和 attention（注意力机制）。
现在基本的共识是，FNN 要做稀疏化的 MoE 架构——就是把 FNN 这块很大的 “稠密矩阵变换” 切成很多 “专家”，每次前向计算只激活其中一小部分专家，这比激活全局的算力消耗更少，效率更高。DeepSeek 的一个重要贡献，就是证明了 MoE 在大规模模型上也能有很好的效果。
而在注意力机制上，今年开源、闭源都在做各种效率改进：比如 Gemini 系列里滑动窗口注意力 + 稠密注意力的混合架构，Qwen3-Next 和 Kimi Linear 用了 DeltaNet（一种线性注意力）混合稠密注意力的架构，还有 DeepSeek 近期发布的 DSA 等等。这些改进都是为了顺应大模型从 “短模型” 变成 “长模型” 的趋势，而这又来自 Agent 化和深思考的需求，Agent 既需要长输入，也需要长输出。
长文本未来一定会面向深思考和 Agent 场景，它会有更多长输出。而现在面向长输出的线性注意力的验证是远远不够的。
所以，MiniMax 为什么从 M1 的 lightning attention（注：lighting attention 采用了线性注意力混合 full attention 的架构），到现在 M2 全部用 full attention？我猜测一个很重要的原因是，M2 想主打 agent，但是直接用 lighting attention 在一些更复杂的 agent 任务上有性能缺失。
晚点：年初我们聊注意力改进时，你就提到过 Agent 任务下，要更多关注长输出。这在现在也不是共识吗？
肖朝军：我观察到，大家还是习惯把长文本等同于长输入，而思维链和多步推理其实对长输出有更多需求。比如一个 agent 规划了 5 个步骤：你不能做到第五步时忘掉第一步，然后再倒回去重做，模型需要记住自己之前输出了什么。这是长文本的新挑战。
我们今年 6 月开源的 InfLLM 2，就有针对这个问题的改进。核心变化是做了 “原生稀疏”：在预训练阶段就引入稀疏注意力变，而不是像第一版那样在推理阶段才做。这带来两个好处：一是训练明显加速；二是稀疏度显著降低——InfLLM 1 在推理阶段，大概有 50% 的注意力开销（相比 full attention 的 50%），而 InfLLM 2 在训练阶段的稀疏度只有不到 5%，即在 128K 上下文长度下，只需要关注 4–6K token。
我们这个算子也同时支持长输出。在 Agent 和深度思考场景，这个方法都比较实用。
晚点：架构之后，在数据维度，业界在如何提高模型的能力密度？
肖朝军：数据上，接下来两个点非常关键：一是合成数据，二是更高质量的数据清洗与治理。现在几乎所有顶级团队都在投入这两件事，因为它们直接决定模型能力的上限，也决定下一阶段能否继续把密度做上去。
刘知远：我们内部其实有一套分层的 pipeline（流程），从 L0 到 L4，对应不同的处理阶段。
L0 收集，通过抓取、采买获得原料；
L1 过滤，清理掉重复数据和垃圾数据；
L2 精选，进一步挑出我们认定的高质量数据；
L3 合成，不只是对现有数据加工，而是生成这个世界上原本不存在的内容，比如改写、扩写、任务化等；
L4 验证，通过形式化或人工方式，确认这一层的数据达到了高质量。
比如最近我们用这套 pipeline ，精炼了很有名的预训练数据集 FineWeb，得到一个容量不到原始数据 1/10 的版本，叫 Ultra-FineWeb。结果用 Ultra-FineWeb 训练出的模型效果反而比直接用 FineWeb 更好，训练成本自然也能降到十分之一，这只是预训练阶段的数据治理带来的效果。
后训练同样如此——无论是 SFT（监督微调）还是强化学习，数据的合成质量都强烈影响模型的能力上限和效率。比如交大刘鹏飞老师最近做的 “Less is More” 系列，就是用更少、更精的数据获得更强效果的例子。
我们接下来也会开源这套比较完整的数据治理体系，包括数据样例和整个 pipeline 的结构。一个更根本的问题是：达到某个能力水平的 “最小的数据集” 究竟长什么样？这个问题也能帮我们追问智能的本质。
晚点：接下来是算法的改进，今年的重点明显转向了 RL。
肖朝军：是的，但强化学习做到现在，仍然没有出现清晰的 scaling law。
预训练的 scaling law 非常清晰：几十万亿 tokens、几十万步训练，有稳定的 scaling law 可循。而现在做 RL，大多数团队也就训到几千步；OpenAI o1 的技术报告里，一些任务不到一万步就停了，效果不错，但离跑通 RL scaling 还差得很远。换句话说，如何让强化学习持续稳定地训下去？这仍是整个行业在探索的方向。
晚点：你说 “RL 还没有 scaling”，具体是指什么？
肖朝军：行业说 “RL 的 scaling” 主要指两块：环境能否扩展，reward（激励）是否可验证。
前 OpenAI 研究员 Jason Wei 认为，RL 关键在于构建一个 “unhackable environment”——一个模型不能投机取巧，能持续学习的环境。但 Ilya 则认为这种环境几乎不存在，人类学习本身也不是在这样的环境里完成的，这也关系到我们如何定义下一阶段的 AGI。
在 reward 上，目前真正可验证的 reward 基本只有数学和代码。但代码领域的 RL 目前主要是在竞赛题上很强，真正的软件开发要复杂得多，reward 很难构建，这是 RL scaling 的核心瓶颈。
不过 RL 至少已经证明：只要有足够的数据和反馈，它能在任何任务上做到人类前 0.1% 甚至 0.01% 的水平。很多团队已经实现数学竞赛、编程竞赛的国际金牌水平。所以完全可以想象，未来一个公司如果能在某个垂直场景积累足够的数据，就能用 RL 打造出该领域的 “超级专家模型”。
晚点：现在就有 RL to B 的趋势——针对某个真实商业环境去做强化学习，比如 Thinking Machines Lab 可能在探索这个方向。
肖朝军：所以我们之前叫 prompt engineering，现在是 reward engineering 或 environment engineering，这都是 RL 带来的新产物。
不过只到这一步，还不是我们真正想要的 AGI。因为人类的学习非常高效，在一个新任务下，只需要少量反馈、少量尝试就能学会。现在 RL 离这种学习效率还有巨大差距。
接下来可能有两条路：
一是继续把 RL 做 scaling：不停扩大环境规模、增加可验证的 reward，看能不能像预训练那样，随着规模扩展自然出现更强的泛化能力。
我们正在研究更高效的 RL scaling 框架，让模型在 RL 训练时把算力吃满，把训练步数拉到足够大，比如做到几万步，让模型真正经历更长的思考。
更往前走是开放域的强化学习——不仅是数学、代码，而是像 “写一篇论文什么算好”“计划一个复杂任务什么算完成” 这种 reward。这个方向还没有成熟范式，大家都还在摸索开放域的 reward 怎么定义，怎么稳定训练？
二是寻找更高效的新的学习方式：提高 sample efficiency（样本效率）——让模型能更像人那样，在少量反馈下就能学会新任务，而不是依赖大量人工标注和大量环境交互。
晚点：我们不能构造一个很复杂的、包含多种激励的环境吗？人所处的真实环境就是如此，我们面临的任务很多样，在不同情境和场景里，我们也会自己切换目标和激励。
肖朝军：这很难。人能在现实世界中高效学习，是因为我们能从各种微弱而连续的信号里获得反馈。比如聊天时，我见你表情变严肃，自然会意识到可能哪里不太对——这是一种细腻的反馈。
但在强化学习里，反馈必须被离散成 “+1 或 -1” 这种形式化的 reward。如何把现实世界这种丰富、连续、多维的反馈压缩成一个 reward？本身就极其困难。
这对应到 Ilya 说的 value function（价值函数）——要给模型一个描述 “什么是好、什么是坏” 的价值函数。但构造这样的 value function 和构造一个完整的世界模型一样难。
甚至这是一个 “鸡生蛋、蛋生鸡” 的悖论：如果我真能对世界建模得那么好，能有一个足够强的 reward model 去评估所有行为，那这个 reward model 本身就已经是 AGI 级别的难度了。相当于你先有一个 AGI，才能用它去训练 AGI。
从大模型上车、上手机，到随身携带的 “个人 NAS”
晚点：密度法则在业界的更多反馈和影响是什么？
刘知远：DeepSeek-3 发布后，“成本、能效” 已经变成全行业核心词。其中一个有意思的现象是，很多具身智能（embodied AI）领域的朋友特别喜欢引用我们的研究成果，因为端侧设备对延迟与能耗极度敏感。
在《自然·机器学习子刊》的这篇论文之前，我们还有一篇发在《自然通讯》上的论文，是关于 MiniCPM-V（注：指论文 Efficient GPT-4V level multimodal large language model for deployment on edge devices），其中有张经典的图，就是描述密度法则结合硬件演进，能让端侧设备承载原来云端服务器上跑的模型才有的能力；具身智能团队最关心的就是，端侧的大脑什么时候可行。

达到 GPT-4V 水平的模型参数规模随时间增长迅速缩减，而端侧算力快速增强，当芯片电路密度（摩尔定律）和模型能力密度（密度法则）两条曲线交汇，端侧设备将能运行以往只能在云端运行的大模型。

晚点：你们看到的具体时间表是？
刘知远：结合模型能力密度的提升速度，和全球一线芯片厂的制程路线图，推估端侧芯片的算力、缓存等规格，我们预测：2030 年左右，端侧可部署 60B+ 参数的模型，激活大小可到达 8B+。这是基于现在发展的线性推测，未来也可能有非线性突破。5 年内，端侧很可能能承载 GPT-4〜GPT-5 能力的模型。
晚点：不同终端设备的进展速度是怎样的？目前来看，车、手机、电脑应该是第一批，也是各家布局端侧 AI 的公司的重点。
刘知远：对，今年车端模型量产速度非常快，车的空间大，本身对算力、功耗的限制相对小。我们已经在和长安马自达、吉利的一些车型合作，明年会有 6 款以上车型接入我们的模型。
晚点：现在大语言模型和多模态模型在车上具体能做什么？相比之前的语音助手，新增体验是什么？
刘知远：主要是智能座舱的多模态交互，包括感知车内、车外环境，对坐在不同位置的多乘客的识别和理解等等。不同车企的功能定义其实差别挺大的，有的高端座舱的功能点会超过 100 个。
晚点：之前的 AI 技术在用到车等终端时需要做定制开发，这关系到这种服务的商业效率和规模化能力，大模型现在要去适配这么多功能点，需要做哪些额外的开发？
刘知远：主要是做一些微调，我们自己来做。我们本身很强调标准化，有一套 SFT 工具链和数据合成规范，所以效率挺高的。
晚点：那么接下来在手机，乃至眼镜这种更小的硬件上，AI 和端侧模型会怎么发展？
刘知远：我们认为 2027 年是关键节点，这时可以做到，在手机上实现大规模的强化学习。这就意味着，每个人能用自己的数据来给这个模型提供学习环境，让它能逐渐成为个人的 “专属大模型助理”。而眼镜，它不需要自己跑大模型，它更像是手机的外设。
或者说，未来的入口不也不是手机，而是一个随身的个人计算终端，类似能随身携带的的家庭 NAS（一种计算与存储服务器）；眼镜、耳机、手表或各种新的传感设备，会通过各种方式获得数据，再给到个人计算终端，支持模型持续学习。
智能会分布式存在，AGI 的雏形是 “AI 造 AI”
晚点：目前的密度法则是描述现有预训练范式的效率提升，现在业界也都在讨论，预训练 +RL 后训练之后，下一个大的方法改进是什么？你们会重点探索哪个方向？
肖朝军：我认为是自主学习（self-learning），也可以说是自我进化、持续学习，现在的名词很多。背景还是我们前面聊到的——强化学习已能在单一任务上做到很强，但它还不够泛化。
未来的模型，首先应该是一个很好的学习者：它放在你的终端或其它设备上，可以根据你的需求持续学习你擅长或需要的任务。就像带一个实习生——你教它写代码、写稿或做研究，它会逐渐掌握这些能力。
而目前的预训练和强化学习都做不到这一点，因此才会出现世界模型，想给模型提供一个足够好的反馈环境；才会强化学习之父 Rich Sutton 说当前大模型无法通向 AGI 。核心还是，海量数据驱动的这种学习方式可能会阻碍更高效地习得新技能。
接下来，是有了自我学习能力的模型之间的协作。比如有的人培养出了 AI Researcher 专家模型，有的培养出了 Infra 专家模型，他们怎么合作，让模型发展得更快。
再往后，最高阶的就是创造能力，比如真的像爱因斯坦等科学家那样，不仅在人已经定义好的符号里学习，也有能力创造新的符号间的关系，乃至新的符号系统。
所以总结一下，就是自主学习→能自主学习的 AI 之间的协作→创新。
刘知远：这是明线，背后也有一条暗线，是智能在设备上的分布方式。
按中国信通院的统计，2023 年全国端侧算力，主要是手机的加总，是数据中心算力的 12 倍。云上算力看起来很大，但架不住全国十几亿台设备同时在跑。所以过去几十年的信息化，本质上是一个分布式算力和分布式信息的结构。
我认为智能化也会如此。2023 年初有巨头说 “全球只需要几个大模型”，这和 1943 年 IBM 董事长说 “世界只需要五台计算机” 如出一辙。但未来的智能大概率是分布式存在的，每个人都有一个属于自己的智能体。
如果模型具备自主学习能力，那么终端上的模型就能基于用户的个人数据持续成长，最终形成一个 “个人大模型”，成为你最懂你的那个助手。云端则会存在一系列 “专家大模型”：懂外卖的美团模型、懂出行的是滴滴模型、懂内容的是抖音模型……
端侧和云端模型的协同工作，就会形成 “智能体的互联网”。在这个分布式智能体系里，密度法则会非常关键，它能让端侧模型能以极低成本运行，用户几乎无感，让智能属于每个人。
晚点：未来一年：你们最想观察、验证的问题是什么？
肖朝军：强化学习到底能走多远？自主学习以什么形式存在？还有，最早出现的 “AGI 形态” 会是什么样？这其实是这样一个问题：自主学习、协作和创造这些能力，会先落在一个什么样的模型或产品形态上？
我的直觉是，AGI 的形态可能不是面向用户的 to C 产品，而是面向生产的 to B 系统。比如说，你让它 “做一个自动驾驶模型”，它就能生产数据、构建环境、训练模型、优化架构，最终把模型在目标算力上部署起来。也就是说，最早的 AGI 不需要什么都会，而是先会 “自己生产 AI”。
刘知远：从历史来看，第一次工业革命的标志是 “机器生产机器”。智能时代的本质也是 “AI 造 AI”。自主学习，就是最早的 “AI 造 AI” 的雏形：模型能在环境中自己成长。我非常期待明年或后年出现真正具备这种能力的系统。

天人地

2025-12-12 09:28

从“更大更强”到“更小更强”的转变，标志着人工智能发展范式的深刻变革。这一转变的核心是 “密度法则” 的提出与分布式智能的崛起，其本质是通过提升模型效率与降低资源依赖，推动智能技术从集中式算力依赖走向泛在化、个性化。以下是关键分析：

一、范式转变：从规模法则到密度法则
规模法则（Scaling Law）的局限性

过去十年，AI 发展依赖“规模法则”：通过扩大模型参数量、数据量和算力提升性能（如 GPT-3 到 GPT-4）。但伴随而来的是训练成本飙升、资源消耗剧增，甚至引发行业分歧（如 OpenAI 因资源不足的内部矛盾）1。
规模扩张面临瓶颈：硬件摩尔定律放缓，单一模型难以持续指数级增长11。
密度法则（Densing Law）的提出

定义：模型“能力密度”指单位参数/算力下的性能表现。研究表明，能力密度每 3.3 个月翻倍，即同等性能所需算力持续降低11117。
意义：从追求“更大规模”转向追求“更高效率”，推动模型轻量化、低成本化。例如，2024 年 8 月的 Gemini-1.5-Flash 推理成本仅为 2022 年 GPT-3.5 的 1/26611。
二、技术路径：如何实现“更小更强”？
模型架构创新

稀疏化设计：采用混合专家系统（MoE）、稀疏注意力机制，动态分配计算资源，减少无效参数量19。
蒸馏与迁移学习：将大模型知识压缩至小模型（如 MiniCPM 系列仅 2.4B 参数媲美 7B 模型）117。
算法与硬件协同优化

端侧算力提升：手机、汽车等终端设备算力爆发（2023 年端侧算力达数据中心 12 倍），支持本地化模型部署112。
芯片能效革新：国产芯片通过架构优化降低推理能耗，结合密度法则推动端侧智能普及615。
开源生态与工程突破

中国技术路径强调开源共享（如 DeepSeek、MiniCPM 开源模型），降低研发门槛，加速技术迭代69。
推理技术突破：量化、投机采样等技术减少显存占用，提升响应速度11。
三、分布式智能：未来的核心图景
端侧智能爆发

手机、汽车、机器人成为智能载体，实现“离线智能”。例如：
车载大模型实时处理路况，减少云端依赖19；
手机端个人助手基于本地数据持续学习，保障隐私与实时性112。
个人专属大模型

通过自主学习能力，终端模型可基于用户行为数据进化，形成“最懂你的助手”1。
清华大学刘知远指出：“未来智能是分布式的，每个人拥有专属智能体”1。
多智能体协同网络

智能体（Agent）从单任务向多智能体协作（Agentic AI）演进，通过联邦学习、区块链实现跨域协同1215。
例如：工业场景中，设备智能体自主调度维护资源，提升系统可靠性

四、产业影响与挑战
重塑竞争逻辑

企业从拼算力转向拼效率：模型“高性价比有效期”缩短（如 Google Gemma-2-9B 发布两月后即被性能更强的 4B 模型超越）11。
中小厂商借开源生态切入市场，打破巨头垄断913。
挑战与风险

国产芯片生态薄弱：需突破算力瓶颈与工具链适配6；
安全与伦理：分布式智能需解决数据隐私、责任认定等难题1215；
技术落地鸿沟：行业需从“技术可用”转向“场景实用化”（如工业领域对 AI 准确性的严苛要求）622。
结语：智能的“密度革命”正开启泛在化时代
密度法则不仅是技术指标，更是智能民主化的引擎——通过效率跃迁，让高性能 AI 从云端服务器下沉至每个人的口袋。未来，分布式智能将重构人机关系：“智能如水，随需而现，无处不在”。

jjybzxw

2025-12-12 10:56

大模型密度法则：从规模到效率的范式转变

密度法则的核心内涵与历史背景

从“规模法则”到“密度法则”的演进
大模型的发展最初遵循规模法则（Scaling Law），即模型参数量、训练数据量与智能能力之间存在正相关关系。2018年后，随着GPT、BERT等模型的出现，参数规模从亿级跃升至万亿级，模型能力在自然语言理解、编程、生图等任务上不断突破。然而，这种“唯规模论”带来了巨大的资源消耗，OpenAI前首席科学家Ilya Sutskever曾指出，互联网公开语料即将枯竭，传统预训练模式难以为继。

2023年11月，清华大学、OpenBMB与面壁智能联合研究在《自然·机器学习》封面发表《大模型的密度法则》（Densing Laws of LLMs），提出能力密度每3.5个月翻一倍的全新规律。能力密度定义为单位参数/算力下模型能力的指标，标志着大模型发展从“规模竞赛”转向“效率革命”。

历史类比：从“五台计算机”到“分布式智能”
2023年初，某巨头曾预言“全球只需几个大模型”，这与1943年IBM董事长托马斯·沃森“世界只需要五台计算机”的论断如出一辙。正如个人计算机颠覆了大型机垄断，大模型的未来也将走向分布式。2023年全国端侧算力（主要是手机）已是数据中心算力的12倍，这一算力分布结构为端侧智能奠定了基础。

密度法则的关键洞察与技术路径

密度法则的核心洞察
1. 效率优先：不再单纯追求参数规模，而是关注“单位资源产出的智能”。研究表明，ChatGPT发布后（2023年1月），能力密度上升斜率从4.8个月翻倍缩短至3.2个月，提升速度加快50%。
2. 摩尔定律的AI映射：类比芯片行业通过提升电路密度实现小型化，大模型通过提升能力密度实现高效化。这将推动智能从云端向手机、汽车、机器人等终端设备迁移。

提升能力密度的具体方法
研究者刘知远和肖朝军提出，能力密度的提升可通过四个环节实现：

1. 模型架构优化
   - MoE（混合专家系统）：将前馈网络拆分为多个“专家”，每次计算仅激活部分专家，减少冗余计算。DeepSeek、Qwen等模型已广泛应用MoE架构。
   - 高效注意力机制：传统全注意力机制在长文本处理中效率低下。新型架构如滑动窗口注意力、线性注意力（DeltaNet、DSA）等，在长上下文（128K tokens）场景下显著降低计算开销。面壁智能的InfLLM 2通过“原生稀疏注意力”，在128K上下文下仅需关注4-6K tokens，稀疏度降至5%以下。

2. 数据质量与合成数据
   - 高质量数据清洗与治理：避免噪声数据对模型的干扰，提升训练效率。
   - 合成数据生成：通过AI生成高质量标注数据，补充真实数据的不足，尤其在多模态领域。

3. 学习算法创新
   - 指令微调（Instruction Tuning）与强化学习（RLHF）：使模型更好地理解人类意图，提升任务执行效率。
   - 端侧持续学习：终端模型基于用户个人数据自主迭代，形成“个人专属大模型”。

4. 软硬协同优化
   - 模型量化、显存优化等技术，在相同硬件条件下运行更大规模模型。例如GPT-3.5级推理成本在20个月内下降266倍，每2.5个月成本减半。

行业趋势与未来展望

端侧智能的爆发
密度法则直接推动端侧大模型的发展。面壁智能的MiniCPM系列以2.4B参数实现LLaMA-2-13B同等性能，并成功部署于手机、汽车等终端。未来，每个人的手机都将搭载专属智能体，基于个人数据持续成长，成为“最懂你的助手”。

智能体能力的强化
当前大模型呈现两大趋势：
1. Agent能力显著提升：模型在代码任务、多步推理等agent任务上的表现持续进步，体现为“思考深度”而非仅仅是“知识广度”的增强。
2. 多模态融合突破：Google的NanoBananaPro实现了高精度视觉-语言生成，其文字渲染准确度远超传统扩散模型，在图像中嵌入多语言文案的能力达到新高度。这标志着多模态不再是简单的数据叠加，而是统一自回归式的深度融合。

分布式智能的未来
黄铁军教授曾预言大模型将“洗牌”，但密度法则修正了这一观点。未来的智能将是分布式存在的：云端提供通用基础模型，端侧运行个性化轻量化模型。两者通过“云-边-端协同”实现能力互补。正如刘知远所言：“过去几十年的信息化是分布式算力和信息结构，未来智能也会如此。”

结语：大模型时代的“摩尔定律”

密度法则如同大模型时代的“摩尔定律”，为行业提供了清晰的发展指引。它不仅纠正了“唯规模论”的误区，更打开了端侧智能和分布式智能的巨大想象空间。从2023年ChatGPT引发的规模竞赛，到2025年密度法则主导的效率革命，大模型正以每3.5个月能力密度翻倍的速度演进。未来五年，我们或将见证AGI在云端与端侧的双重突破，每个人都能拥有一位专属的智能助手，真正实现“普惠智能”。

正如文中所述：“别人得到的，不一定是你失去的。” 在这场效率革命中，那些率先布局端侧、深耕密度优化的企业和研究者，将占据下一代智能生态的核心位置。而我们每个人，也将亲身体验这场从“少数巨型模型”到“亿万个人智能体”的变革浪潮。

查看完整版本: [-- 密度法则和智能的分布式未来 --] [-- top --]

Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled