- 参考链接:
基本信息
- youtube 视频时间:20251219
- 访谈对象:Gemini 3 预训练负责人 Sebastian Bourjou(Google DeepMind AI 研究员,主导 Gemini 3 预训练,参与过 Gopher、Chinchilla、Retro 等里程碑式项目),Sebastian 个人经历如下:
- 荷兰出生,瑞士、意大利长大,父亲有技术背景,10岁开始编程,数学与科学能力突出,剑桥毕业
- 加入DeepMind的契机:剑桥硕士期间,经 DeepMind 研究员讲师推荐,2018 年以研究工程师身份加入
- 研究方向:最初专注 RL,因不喜欢 Atari 游戏等合成虚拟环境,转而聚焦大规模预训练,希望处理现实世界数据、构建有实际影响的系统
- 参与 Gopher(首个 280B 参数大模型)、Chinchilla(重新审视缩放定律,提出”更多扩展数据而非模型参数”的核心思路),相关经验直接赋能Gemini研发
- 议题:Gemini 3研发逻辑、技术架构、行业范式转移、研究理念、AI 未来方向等
Gemini 3 的核心竞争力:系统工程观与微小改进的聚合
- Oriol Vinyals(DeepMind 研究副总裁)提出的”更好的预训练和更好的后训练”,并非单一颠覆性变革,而是 150-200 人团队在数据、模型、基础设施、评估 等全环节的多个微小改进集合,最终实现质变
关键 Insight:从”模型构建”到”系统构建”的转型
- 核心逻辑:垂直整合全链路环节,包括自研 TPU 芯片、可靠可扩展的基础设施、复杂后训练过程,而非仅聚焦神经网络架构
- 组织特征:DeepMind内部研究与工程界限模糊, “研究像工程,工程像研究” ,全栈整合能力让团队能高效调整系统关键参数
模型”智能性”的验证标准:基准测试不是唯一指标
- 基准测试的定位变化:测试集设计难度极高(部分题目需人工花费大量时间解答),且严格保留测试集以防过拟合,但仅为辅助验证手段
- 核心验证依据:内部生产力提升,即DeepMind内部使用模型辅助研究和工程的时间持续增加,新一代模型能完成前代无法实现的任务,切实加速研究进度,比单纯分数更具说服力
行业范式转移:从”无限数据”到”有限数据”
范式转移的核心背景
- 数据增长速度跟不上 AI 模型对规模的渴求,并非互联网数据耗尽,而是”数据供给”与”规模需求”的失衡,迫使研究重心调整
范式转移带来的两大研究方向
- 怼数据到优化架构:不再依赖”堆数据”解决问题,转而通过优化模型架构,实现”相同数据量下的更好效果”
- 合成数据:作为重要研究方向,核心难题是如何避免”模型生成的数据训练出的新模型无法超越其’老师’”,需突破数据质量与泛化能力的瓶颈
- 关键认知:当前 AI 训练数据量仍远超人类接触量,但数据增速远低于模型参数增速”有限数据时代”的核心是提升数据利用效率
Gemini 3 的底层技术架构细节
基础架构:MoE(混合专家模型)
- 核心原理:Transformer-based MoE 架构,通过动态路由让不同”专家”处理不同输入片段
- MoE 核心优势:在不增加推理计算成本的前提下,极大扩展模型参数量
核心特性:原生多模态
- 原生多模态与普通堆叠的技术差异:区别于”多专门模型拼接”,采用同一神经网络直接处理文本、图像、音频、视频
- Insight:原生多模需承担不同模态相互干扰的复杂性成本,但带来的跨模态理解能力远超成本损耗
长上下文技术升级
- 研究突破:在注意力机制上有创新性发现,将影响未来数月研究方向
- 核心价值:Long Context 不止于”记住更多信息”,更关键是支撑 Agentic Workflows(代理工作流),例如实现对整个代码库的处理
DeepMind 的”研究品味(Research Taste)”:协作性与简洁性导向
研究者的两个要素
- 协作与整合性:研究成果不能孤立存在
- 若某改进虽提升性能但使模型使用难度增加 5%,将拖累团队整体进度,属于不可取的折中方案
- 对复杂性”敏感”:每个人有”复杂性预算”
- 优先选择性能略低但复杂度更低的方案,因简洁系统更利于未来迭代与扩展
研究决策的关键能力
- 多数研究想法会失败,但深度学习中”负面结果”未必代表想法不可行,可能是”未找到有效实现路径”,辨别”坚持与放弃”的时机是研究品味的核心体现
Deep Think 与 Agent 时代的到来
Deep Think 的核心设计逻辑
- 将计算力从预训练阶段转移到推理阶段,允许模型经历”生成假设 -> 测试假设 -> 调用工具 -> 搜索验证 -> 输出结论”的完整流程,赋予模型”思考时间”以处理复杂逻辑
Agent 时代的发展趋势
- AI 正进入 Agent 时代,尤其在工程和研究领域,感知与视觉能力的进步让模型能更好理解屏幕信息,辅助人类处理琐碎执行工作,释放核心创造力
给行业后来者的建议
- 给学生:不要仅聚焦模型架构,需理解从TPU硬件到系统层再到模型研究的全栈工作原理,跨层级认知能发现他人忽视的改进空间,形成核心竞争力
- 给初创企业:观察过去一年半模型的进步速度并向外推演,聚焦两大方向:
- 一是通用模型进步缓慢的领域
- 二是需要极度垂直领域知识的场景
未来展望
- 核心期待:AI 助力科学发现,依托 DeepMind 的科学基因,未来几年有望实现诺贝尔奖级别的突破性成果
- 行业判断:尽管已取得诸多成就,但当前 AI 研究路径无明确尽头,进步速度未出现放缓迹象