AGI——Gemini3预训练负责人专访

参考链接：
- 博客链接：【深度专访】Gemini 3 预训练负责人：我们不再只是构建模型，而是构建 AI 系统, 202510
- 原始 youtube 视频：Inside Gemini 3: Scaling Laws & The Finite Data Era — DeepMind’s Sebastian Borgeaud, 20251219

基本信息

youtube 视频时间：20251219
访谈对象：Gemini 3 预训练负责人 Sebastian Bourjou（Google DeepMind AI 研究员，主导 Gemini 3 预训练，参与过 Gopher、Chinchilla、Retro 等里程碑式项目），Sebastian 个人经历如下：
- 荷兰出生，瑞士、意大利长大，父亲有技术背景，10岁开始编程，数学与科学能力突出，剑桥毕业
- 加入DeepMind的契机：剑桥硕士期间，经 DeepMind 研究员讲师推荐，2018 年以研究工程师身份加入
- 研究方向：最初专注 RL，因不喜欢 Atari 游戏等合成虚拟环境，转而聚焦大规模预训练，希望处理现实世界数据、构建有实际影响的系统
- 参与 Gopher（首个 280B 参数大模型）、Chinchilla（重新审视缩放定律，提出”更多扩展数据而非模型参数”的核心思路），相关经验直接赋能Gemini研发
议题：Gemini 3研发逻辑、技术架构、行业范式转移、研究理念、AI 未来方向等

Gemini 3 的核心竞争力：系统工程观与微小改进的聚合

Oriol Vinyals（DeepMind 研究副总裁）提出的”更好的预训练和更好的后训练”，并非单一颠覆性变革，而是 150-200 人团队在数据、模型、基础设施、评估 等全环节的多个微小改进集合，最终实现质变

关键 Insight：从”模型构建”到”系统构建”的转型

核心逻辑：垂直整合全链路环节，包括自研 TPU 芯片、可靠可扩展的基础设施、复杂后训练过程，而非仅聚焦神经网络架构
组织特征：DeepMind内部研究与工程界限模糊， “研究像工程，工程像研究” ，全栈整合能力让团队能高效调整系统关键参数

模型”智能性”的验证标准：基准测试不是唯一指标

基准测试的定位变化：测试集设计难度极高（部分题目需人工花费大量时间解答），且严格保留测试集以防过拟合，但仅为辅助验证手段
核心验证依据：内部生产力提升，即DeepMind内部使用模型辅助研究和工程的时间持续增加，新一代模型能完成前代无法实现的任务，切实加速研究进度，比单纯分数更具说服力

行业范式转移：从”无限数据”到”有限数据”

范式转移的核心背景

数据增长速度跟不上 AI 模型对规模的渴求，并非互联网数据耗尽，而是”数据供给”与”规模需求”的失衡，迫使研究重心调整

范式转移带来的两大研究方向

怼数据到优化架构：不再依赖”堆数据”解决问题，转而通过优化模型架构，实现”相同数据量下的更好效果”
合成数据：作为重要研究方向，核心难题是如何避免”模型生成的数据训练出的新模型无法超越其’老师’”，需突破数据质量与泛化能力的瓶颈
关键认知：当前 AI 训练数据量仍远超人类接触量，但数据增速远低于模型参数增速”有限数据时代”的核心是提升数据利用效率

Gemini 3 的底层技术架构细节

基础架构：MoE（混合专家模型）

核心原理：Transformer-based MoE 架构，通过动态路由让不同”专家”处理不同输入片段
MoE 核心优势：在不增加推理计算成本的前提下，极大扩展模型参数量

核心特性：原生多模态

原生多模态与普通堆叠的技术差异：区别于”多专门模型拼接”，采用同一神经网络直接处理文本、图像、音频、视频
Insight：原生多模需承担不同模态相互干扰的复杂性成本，但带来的跨模态理解能力远超成本损耗

长上下文技术升级

研究突破：在注意力机制上有创新性发现，将影响未来数月研究方向
核心价值：Long Context 不止于”记住更多信息”，更关键是支撑 Agentic Workflows（代理工作流），例如实现对整个代码库的处理

DeepMind 的”研究品味（Research Taste）”：协作性与简洁性导向

研究者的两个要素

协作与整合性：研究成果不能孤立存在
- 若某改进虽提升性能但使模型使用难度增加 5%，将拖累团队整体进度，属于不可取的折中方案
对复杂性”敏感”：每个人有”复杂性预算”
- 优先选择性能略低但复杂度更低的方案，因简洁系统更利于未来迭代与扩展

研究决策的关键能力

多数研究想法会失败，但深度学习中”负面结果”未必代表想法不可行，可能是”未找到有效实现路径”，辨别”坚持与放弃”的时机是研究品味的核心体现

Deep Think 与 Agent 时代的到来

Deep Think 的核心设计逻辑

将计算力从预训练阶段转移到推理阶段，允许模型经历”生成假设 -> 测试假设 -> 调用工具 -> 搜索验证 -> 输出结论”的完整流程，赋予模型”思考时间”以处理复杂逻辑

Agent 时代的发展趋势

AI 正进入 Agent 时代，尤其在工程和研究领域，感知与视觉能力的进步让模型能更好理解屏幕信息，辅助人类处理琐碎执行工作，释放核心创造力

给行业后来者的建议

给学生：不要仅聚焦模型架构，需理解从TPU硬件到系统层再到模型研究的全栈工作原理，跨层级认知能发现他人忽视的改进空间，形成核心竞争力
给初创企业：观察过去一年半模型的进步速度并向外推演，聚焦两大方向：
- 一是通用模型进步缓慢的领域
- 二是需要极度垂直领域知识的场景

未来展望

核心期待：AI 助力科学发现，依托 DeepMind 的科学基因，未来几年有望实现诺贝尔奖级别的突破性成果
行业判断：尽管已取得诸多成就，但当前 AI 研究路径无明确尽头，进步速度未出现放缓迹象