AGI——Gemini3预训练负责人专访


基本信息

  • youtube 视频时间:20251219
  • 访谈对象:Gemini 3 预训练负责人 Sebastian Bourjou(Google DeepMind AI 研究员,主导 Gemini 3 预训练,参与过 Gopher、Chinchilla、Retro 等里程碑式项目),Sebastian 个人经历如下:
    • 荷兰出生,瑞士、意大利长大,父亲有技术背景,10岁开始编程,数学与科学能力突出,剑桥毕业
    • 加入DeepMind的契机:剑桥硕士期间,经 DeepMind 研究员讲师推荐,2018 年以研究工程师身份加入
    • 研究方向:最初专注 RL,因不喜欢 Atari 游戏等合成虚拟环境,转而聚焦大规模预训练,希望处理现实世界数据、构建有实际影响的系统
    • 参与 Gopher(首个 280B 参数大模型)、Chinchilla(重新审视缩放定律,提出”更多扩展数据而非模型参数”的核心思路),相关经验直接赋能Gemini研发
  • 议题:Gemini 3研发逻辑、技术架构、行业范式转移、研究理念、AI 未来方向等

Gemini 3 的核心竞争力:系统工程观与微小改进的聚合

  • Oriol Vinyals(DeepMind 研究副总裁)提出的”更好的预训练和更好的后训练”,并非单一颠覆性变革,而是 150-200 人团队在数据、模型、基础设施、评估 等全环节的多个微小改进集合,最终实现质变

关键 Insight:从”模型构建”到”系统构建”的转型

  • 核心逻辑:垂直整合全链路环节,包括自研 TPU 芯片、可靠可扩展的基础设施、复杂后训练过程,而非仅聚焦神经网络架构
  • 组织特征:DeepMind内部研究与工程界限模糊, “研究像工程,工程像研究” ,全栈整合能力让团队能高效调整系统关键参数

模型”智能性”的验证标准:基准测试不是唯一指标

  • 基准测试的定位变化:测试集设计难度极高(部分题目需人工花费大量时间解答),且严格保留测试集以防过拟合,但仅为辅助验证手段
  • 核心验证依据:内部生产力提升,即DeepMind内部使用模型辅助研究和工程的时间持续增加,新一代模型能完成前代无法实现的任务,切实加速研究进度,比单纯分数更具说服力

行业范式转移:从”无限数据”到”有限数据”

范式转移的核心背景

  • 数据增长速度跟不上 AI 模型对规模的渴求,并非互联网数据耗尽,而是”数据供给”与”规模需求”的失衡,迫使研究重心调整

范式转移带来的两大研究方向

  • 怼数据到优化架构:不再依赖”堆数据”解决问题,转而通过优化模型架构,实现”相同数据量下的更好效果”
  • 合成数据:作为重要研究方向,核心难题是如何避免”模型生成的数据训练出的新模型无法超越其’老师’”,需突破数据质量与泛化能力的瓶颈
  • 关键认知:当前 AI 训练数据量仍远超人类接触量,但数据增速远低于模型参数增速”有限数据时代”的核心是提升数据利用效率

Gemini 3 的底层技术架构细节

基础架构:MoE(混合专家模型)

  • 核心原理:Transformer-based MoE 架构,通过动态路由让不同”专家”处理不同输入片段
  • MoE 核心优势:在不增加推理计算成本的前提下,极大扩展模型参数量

核心特性:原生多模态

  • 原生多模态与普通堆叠的技术差异:区别于”多专门模型拼接”,采用同一神经网络直接处理文本、图像、音频、视频
  • Insight:原生多模需承担不同模态相互干扰的复杂性成本,但带来的跨模态理解能力远超成本损耗

长上下文技术升级

  • 研究突破:在注意力机制上有创新性发现,将影响未来数月研究方向
  • 核心价值:Long Context 不止于”记住更多信息”,更关键是支撑 Agentic Workflows(代理工作流),例如实现对整个代码库的处理

DeepMind 的”研究品味(Research Taste)”:协作性与简洁性导向

研究者的两个要素

  • 协作与整合性:研究成果不能孤立存在
    • 若某改进虽提升性能但使模型使用难度增加 5%,将拖累团队整体进度,属于不可取的折中方案
  • 对复杂性”敏感”:每个人有”复杂性预算”
    • 优先选择性能略低但复杂度更低的方案,因简洁系统更利于未来迭代与扩展

研究决策的关键能力

  • 多数研究想法会失败,但深度学习中”负面结果”未必代表想法不可行,可能是”未找到有效实现路径”,辨别”坚持与放弃”的时机是研究品味的核心体现

Deep Think 与 Agent 时代的到来

Deep Think 的核心设计逻辑

  • 将计算力从预训练阶段转移到推理阶段,允许模型经历”生成假设 -> 测试假设 -> 调用工具 -> 搜索验证 -> 输出结论”的完整流程,赋予模型”思考时间”以处理复杂逻辑

Agent 时代的发展趋势

  • AI 正进入 Agent 时代,尤其在工程和研究领域,感知与视觉能力的进步让模型能更好理解屏幕信息,辅助人类处理琐碎执行工作,释放核心创造力

给行业后来者的建议

  • 给学生:不要仅聚焦模型架构,需理解从TPU硬件到系统层再到模型研究的全栈工作原理,跨层级认知能发现他人忽视的改进空间,形成核心竞争力
  • 给初创企业:观察过去一年半模型的进步速度并向外推演,聚焦两大方向:
    • 一是通用模型进步缓慢的领域
    • 二是需要极度垂直领域知识的场景

未来展望

  • 核心期待:AI 助力科学发现,依托 DeepMind 的科学基因,未来几年有望实现诺贝尔奖级别的突破性成果
  • 行业判断:尽管已取得诸多成就,但当前 AI 研究路径无明确尽头,进步速度未出现放缓迹象