- 参考链接:
整体总结
- 整个访谈主要围绕 AGI 的实现路径展开,主要内容是 LLM,多模态大模型及他们相关的推理
- 张祥雨是 ResNet 的二作,是最早从事 CV 的一群人
- 本文主要是总结一下访谈内容的一些大事件发展的时间线、张祥雨的核心观点
- 注:本文的梳理借助了 AI 辅助生成
张祥雨的学术与研究经历相关总结
- 2009年 :
- 数据 :李飞飞团队提出 ImageNet 数据集,包含 120多万图像,为计算机视觉(CV)研究提供了大量数据支持
- 理解:自此数据已经相对充足,缺的是模型复杂度和算力
- 2012年 :
- 模型 :AlexNet 在 ImageNet 图像识别竞赛中取得显著成功,其关键在于对模型、数据和算力的规模化应用
- 算力 :英伟达的 CUDA 技术在此时性能得到大幅提升,为深度学习的算力需求提供了有力支撑
- 2012-2016年 :
- 将模型做大 :张祥雨读博期间,专注于模型规模化(model scaling)研究,致力于将模型做得更大,包括增加宽度、深度和分辨率等方面
- 理解:在视觉领域存在分辨率,其他领域更多的是宽度和深度
- 2016年 :
- ResNet的诞生 :张祥雨与何恺明、孙剑等提出残差网络(ResNet),解决了模型深度增加时效果下降的问题,使网络层数可提升至几十层、上百层甚至上千层
- 张祥雨认为此时模型规模化问题在当时已基本解决,毕业后加入旷视开始研究小模型
- 理解:张祥雨认为,对于大模型来说,模型架构(网络结构)不是很重要,最重要的是大方向(比如 ResNet 或 LLM 的自回归等);对于小模型来说,倒是需要一定的模型架构(网络结构)的优化,否则效果可能差距很大
- 个人理解这种区别主要来源于小模型的拟合能力有限,需要设计架构适应任务,大模型拟合能力强,对网络结构要求不高,只要有足够好的数据就可以
- 2017-2018年 :
- 把模型做小 :张祥雨在旷视研究小模型,后转向神经网络架构搜索(NAS),旨在利用自动化手段设计能在特定硬件上高效运行的模型
- 理解:这里是为了应用
- 2019年 :
- 张祥雨提出SPOS(Single Path One-Shot)工作,可在特定硬件上以较小代价搜索出在目标数据集上效果最佳的模型
- 张祥雨团队目标重新转向做大模型,此时难点在于数据规模化(data scale), CV 领域缺乏类似自然语言处理中 Bert 和 GPT 的突破
- 2020年 :
- Vision Transformer(ViT)系列出现,将 Transformer 架构引入 CV 领域并取得成功
- 学术界开始尝试将自然语言处理方法迁移到 CV ,如 iGPT、BEiT 等
- 理解:此时的迁移吃到了一波红利,相当于踩着 LLM 的路在走
- 2021年底 :
- 张祥雨分析早期对比学习在大模型上不奏效的原因,认为其学到的不变性是手工设计而非数据驱动,同时对 Masked Image Modeling(MIM)的上限表示谨慎乐观
- 2022年初 :
- 张祥雨发表观点文章,指出 MIM 没有明显的规模化效应(scaling law),随后该领域研究逐渐减少
- 理解:目前来看走这条路的人也已经越来越少
- 2022年 :
- 张祥雨受 Jason Wei 关于思维链和涌现性的论文启发,对纯视觉领域研究产生悲观情绪,认为静态图像在生成、理解和人类对齐方面存在割裂,开始转向多模态研究
- 张祥雨构思利用视觉和语言的对齐关系开展多模态研究,短期目标基于图文混排数据,长期目标关注视频和具身系统
- 2023年 :
- 张祥雨团队开发第一代多模态模型 Step-1,将数据组织成图文混排形式,文字和图像均进行 Token 化处理,图像生成外挂预训练的 Diffusion 模块
- 该模型图像理解能力强,但生成效果差,且生成部分对理解部分影响小
- 张祥雨团队在 2023年底完成 Step-1 模型,参数约 100B+,随后在 2024 年初启动更大的 Step-2 模型,参数达万亿(1000B+),激活值 200B+
- 但训练中发现数据不足导致效果不佳,且模型在数学推理能力上出现先升后降的现象
- 张祥雨团队开发第一代多模态模型 Step-1,将数据组织成图文混排形式,文字和图像均进行 Token 化处理,图像生成外挂预训练的 Diffusion 模块
- 2024年 :
- 张祥雨团队发现大模型在数学推理能力上存在先上升后平缓再下降的现象,分析认为这是 Next Token Prediction(NTP)范式的本质缺陷导致,模型在训练中倾向于跳步,而跳步在复杂问题中易出错(详细理解见下文:观点3)
- 张祥雨团队尝试通过 RL 解决大模型数学推理问题,但收益有限,直到 o1 模型出现,其通过引入反思等思维链模式,大幅提升了模型推理能力
- 张祥雨团队在视觉生成与理解一体化研究中遇到困难,发现生成部分可控性差,后受语言模型启发,开启视觉空间上的 COT(思维链)研究,尝试通过在图像上进行圈点批注等操作实现视觉推理,但生成数据泛化能力不足
- 理解:这里张祥雨团队尝试了生成图片的 COT 数据给模型,但是效果不好,最终分析时由于 RL 本身很难带来新的东西,预训练中没有见过的推理能力很难通过 RL 训练出来;也就是说预训练才是学知识的,RL 是在引导模型把预训练见过的知识用起来
- 2025年 :
- 张祥雨团队看到 Gemini 和 GPT-4o 模型在图像生成可控性上的进展,认为通过清洗数据和控制任务难度,可实现简单任务的高可控生成,并计划基于此构建生成与理解一体化模型
- 张祥雨认为多模态推理的 “GPT4时刻” 比较乐观,认为一两年内可能到来;此外,自主学习和在线学习可能在两年内取得突破
- 理解:理由是因为大家都在做这个方向
多模态与 AGI 发展相关
- 2022年底 :ChatGPT 发布,展示了大模型的强大能力,改变了人们对大模型的看法,大幅推动了 AGI 领域的发展
- 2023年 :
- Gemini-1.0 和 GPT4V 等多模态模型发布,但在图像生成与理解一体化方面未取得实质性突破,仍通过外挂生成模块实现
- 业界开始关注多模态模型的发展,但对其难度估计不足
- 2024年 :
- o1 模型出现,其基于 RL 和思维链模式,在推理能力上取得显著突破,被视为类似 “GPT时刻” 的进展
- 张祥雨团队发现多模态模型在生成与理解融合上的困难,开始探索视觉空间的 COT 和视频数据的利用
- 理解:访谈中提到,单独训练理解模型和生成模型后,融入两者做不到 1+1>2 的效果
- 2025年 :
- 4o 最新版在图像生成可控性上表现出色,与语言模型融合较好,为多模态发展提供了新的方向
- 业界对多模态推理、自主学习和在线学习等领域的研究持续深入,认为这些是实现 AGI 的关键步骤
观点1:关于模型规模化(Scaling)
- 核心观点 :模型规模化是推动深度学习发展的重要动力,包括模型、数据和算力的规模化。在不同阶段,规模化的难点不同,如早期模型规模化是关键,后期数据规模化成为瓶颈
- 论点支撑 :
- AlexNet 的成功源于在 2012 年实现了模型、数据和算力的合理规模化
- ResNet 解决了模型深度规模化的问题,使模型层数得以大幅增加
- 2019年 后,自然语言处理领域通过自监督学习实现了数据规模化,而 CV 领域在数据规模化上进展缓慢,缺乏类似 Bert 和 GPT 的突破
- 理解:CV 领域不同于 NLP 领域,因为 NLP 领域的语言数据都是人类创造的, 而 CV 领域的图片本身就在那里(不含有思维和人类思想),难以通过自回归实现数据规模化
- 大模型训练中,数据质量和数量至关重要,2021年 国内大模型效果不佳的原因之一是数据不足,导致模型训练不充分
观点2:关于多模态研究
- 核心观点 :多模态是实现AGI的重要路径,但目前多模态模型在生成与理解一体化上仍存在困难,需要解决数据、架构和算法等多方面的问题
- 论点支撑 :
- 静态图像在生成、理解和人类对齐方面存在割裂,无法像自然语言那样形成自闭环,因此需要结合语言等其他模态
- 理解:自然语言是人类创造的,天然带着人类的偏好和反馈,但是图片是天然就有的;
- 理解:自闭环的本质是 “认知逻辑的符号化自洽” ,即像自然语言那样,在生成、理解及与人类意图对齐的过程中,能够形成一套完整、自洽且相互关联的系统,各环节之间可实现高效协同与反馈,无需依赖外部过多的额外信息或干预即可完成从输入到输出的连贯处理
- 早期多模态模型尝试将图像和文字统一处理,但生成效果差,生成与理解部分相互独立,未实现真正融合
- 视觉生成需要类似语言模型的 COT ,但目前视觉 COT 仍处于初级阶段,生成数据泛化能力不足
- 视频数据蕴含更丰富的信息,是多模态研究的长期方向,但数据清洗和与语言模态对齐是难点
- Gemini 和 4o 模型在图像生成可控性上的进展表明,通过数据清洗和任务限制,可实现简单任务的多模态融合,为多模态的 “GPT4时刻” 奠定基础
- 静态图像在生成、理解和人类对齐方面存在割裂,无法像自然语言那样形成自闭环,因此需要结合语言等其他模态
观点3:关于推理能力与Next Token Prediction(NTP)范式
- 核心观点 :NTP 范式是支撑当前大模型的基础算法,但在推理能力,尤其是数学推理能力上存在本质缺陷,导致大模型在复杂推理任务上表现不佳
- 论点支撑 :
- NTP 的本质是联合概率建模和数据压缩,其优化目标是最大化压缩率,而非直接优化推理任务的正确性
- 大模型在训练中倾向于跳步,以提高压缩率,但跳步在复杂数学问题中易出错,导致推理能力下降
- 小模型由于能力有限,无法拟合复杂函数,只能老老实实地一步步推理,在简单数学问题上正确率较高
- RL 可在一定程度上缓解 NTP 的缺陷,但效果有限,o1 模型通过引入反思等思维链模式,激发了模型的推理能力,是对 NTP 范式的重要改进
- 理解:访谈中提到,张祥雨认为大模型容易跳步的原因是因为模型够大,能够记住预训练的分布(数据中本就存在部分跳过的场景,小模型不够大,反而无法跳过中间步骤);大模型的这种跳步有一定概率会失败,特别在数学推理需要多步的场景,容易导致大模型一个地方错了,后面全错
观点4:关于自主学习与在线学习
- 核心观点 :自主学习和在线学习是实现 AGI 的关键步骤,能够使模型在真实环境中自主探索、学习和进化,解决当前模型依赖人工标注和环境不可规模化的问题
- 论点支撑 :
- 当前的RL方法依赖人工定义目标和环境,缺乏内生驱动力,无法像人类一样自主学习
- 自主学习需要解决从自然语言等非结构化反馈中获取信息、无限长上下文建模和内生奖励设计等问题
- 在线学习可使模型在真实环境中持续改进,与环境动态交互,提高模型的适应性和泛化能力
- 自主学习和在线学习的突破可能在两年内实现,将推动 AGI 向更高水平发展
- 理解:
- 自主学习的定义:能够像人类一样,主动地从环境中获取信息、学习新知识,并将其融入到已有的知识体系中,以不断提升自身的智能水平和适应能力
- 自主学习不仅包括对数据的学习,还涉及到对学习策略的自我优化,能够根据不同的任务和环境,自主地选择合适的学习方法和算法
- 注:自主学习的核心是无需人工对每个具体的知识点进行详细标注和指导
- 在线学习的定义:在动态的环境中,能够实时地从新出现的数据流中学习,并不断调整和更新自身的模型和策略,以应对环境的变化和新的任务要求
- 自主学习的定义:能够像人类一样,主动地从环境中获取信息、学习新知识,并将其融入到已有的知识体系中,以不断提升自身的智能水平和适应能力
观点5:关于架构与算法的关系
- 核心观点 :架构服务于算法和系统,算法的突破是推动 AGI 发展的核心动力,而不是单纯的架构创新
- 论点支撑 :
- ResNet 的成功源于解决了模型深度增加时的梯度问题,是算法和训练方法的创新,而非架构本身的独特性
- Linear Attention 等架构改进是为了适应 NTP 范式的并行化需求,而非本质性突破
- o1 模型的成功源于思维链模式和 RL 算法的应用,而非架构的变化
- 未来 AGI 的发展将依赖算法的创新,如自主学习算法,而架构将根据算法需求进行优化
- 理解:
- 这里所说的架构是指模型架构(即神经网络之间的连接方式等),而算法在这里则是指一种广泛通用的方法(比如 NTP 范式、ResNet等)
观点6:关于长上下文(Long Context)
- 核心观点 :长上下文在应用中重要,但当前 Transformer 架构在长上下文建模上存在效率低、易受干扰等问题,需要借鉴人类记忆机制,采用分层记忆和多模块协作的方式解决
- 论点支撑 :
- 人类记忆分为短期记忆、中期记忆和长期记忆,具有分层和选择性遗忘的特点,而 Transformer 的长上下文建模缺乏类似机制,导致效率低下
- 长上下文会导致模型注意力涣散,干扰后续推理,解决方法包括采用多模型协作、分层记忆和任务驱动的上下文裁剪等
- 多 Agent 协作和思维链扩展可有效减少对长上下文的依赖,实现更高效的推理
- 理解:
- 访谈中提到,这里所说的多 Agent 其实是类比于人类不同脑区负责不同功能的做法,使用一个上层的脑区来负责切分关注模块,下层的脑区仅需要理解较短的上下文即可
- 访谈中还提到,类似于这种方法,使用 RL 来训练,可以实现端到端训练
观点7:RL 只能激发预训练阶段学到的知识
- 核心观点 :RL 只能激发预训练阶段学到的知识,不能给模型输入新的知识
- 理解:实际上这个已经成为了大家的共识了