AGI——阶跃星辰CEO-姜大昕-访谈核心Insight


整体说明:

  • 姜大昕提出的 7 个技术 insight,从 AGI 的演进方向、核心技术支撑、智能体构建逻辑到商业化落地路径,系统勾勒了当前大模型发展的关键趋势

AGI 演进路径:从“数据学习”到“科学发现”的三阶跃迁

  • 三个阶段分别是:
    • 第一阶段“模拟世界”是基础:模型通过海量数据学习语言、图像等模态的底层结构(如当前大模型的预训练阶段),核心是“看懂”世界的基本规律;
    • 第二阶段“探索世界”是突破:借助强化学习实现从“被动接收数据”到“主动试错推理”的跨越,让模型具备处理复杂任务的策略规划能力(如当前模型从对话交互向逻辑推理的升级);
    • 第三阶段“归纳世界”是高阶目标:模型具备自主学习能力,能协助人类在科学、能源等领域发现新规律(如辅助材料研发、天体物理分析等)
  • 注:这三阶路径已经成为共识,它贴合人类认知从“认知世界”到“改造世界”再到“探索未知”的逻辑,也与当前大模型能力迭代的节奏高度吻合

多模态:通用智能的“基础设施”

  • 多模态协同是 AGI 的必要条件,而非可选能力
  • 人类智能的核心是“多感知协同”——语言(交流)、视觉(观察)、空间(定位)、运动(操作)等能力共同构成智能基础
    • 例如,人类看到苹果(视觉),能说出“红色、圆形、可食用”(语言),能判断距离(空间),能拿起它(运动)
  • 对大模型而言,单一模态(如仅语言或仅视觉)无法支撑通用智能:
    • 仅语言模型难以理解空间关系,仅视觉模型无法表达抽象逻辑
    • 只有实现多模态的“协同理解与表达”(如“看到图能描述细节,听到指令能生成对应图像”),才能构建接近人类的通用智能框架
    • 当前多模态大模型(如图文生成、视听交互)的快速发展,正是这一逻辑的体现

视觉 AI:迈向“理解与生成一体化”的突破

  • 视觉模型需打破“理解与生成分离”的现状,实现类似文本领域的一体化架构
  • 现状问题:当前多数视觉模型中,“理解”(如图像识别、场景分析)与“生成”(如图像编辑、内容创作)是分离的,导致处理效率低(如理解结果需重新输入生成模块)、响应不连贯(如生成内容与上下文理解脱节)
    • 问题:“理解” 和 “生成” 分离的体现是什么?当前不算是理解和生成一体化吗?
  • 一体化逻辑:生成依赖对上下文的深度理解(如生成“雨天的街道”需先理解“雨天”的视觉特征和“街道”的场景结构);同时,生成结果可反推理解效果(如生成的“猫”是否符合“三只脚”的理解要求)
  • 发展阶段:文本领域已实现一体化(如 GPT 系列用同一架构完成理解与生成),视觉领域因模态复杂性(像素、空间关系等)尚未突破,但技术储备已接近临界点,未来有望实现效率与连贯性的跃升

强化学习:智能“涌现”的关键机制

  • 强化学习是推动模型从“对话工具”向“推理主体”进化的核心技术
  • 强化学习能帮助模型建立起更接近人类的思维方式,通过试错与反馈提升策略规划能力
  • 强化学习的核心是“试错-反馈-优化”:
    • 模型通过在环境中尝试不同策略,接收反馈后调整行为,逐步形成更优的决策逻辑——这与人类通过经验积累提升能力的方式高度相似
    • 例如,在复杂任务(如规划旅行路线)中,模型最初可能给出低效方案,通过用户反馈(“时间太长”)调整策略,最终形成兼顾时间、成本的推理能力
    • 这种机制让模型突破了“基于已有数据模仿”的局限,实现从“被动应答”到“主动推理”的智能涌现,是大模型能力跃迁的关键推手

Agent 的核心能力:构建“自主智能体”的四大支柱

  • 具备“总在场、会做事、有记忆、能进化”四大能力,是 Agent 落地的基础
  • 四大能力共同支撑Agent从“被动响应”到“主动服务”的跨越
    • 总在场 :能通过多模态(视觉、听觉等)实时感知并理解环境(如智能汽车Agent需同时“看到”路况、“听到”指令);
    • 会做事 :能调用工具(如APP、传感器)执行任务(如“订酒店”需调用预订软件,“开空调”需连接家电接口);
    • 有记忆 :存储历史交互与任务经验(如记住用户“怕热”的偏好),为强化学习提供数据基础;
    • 能进化 :通过反馈持续迭代(如因“订错日期”的反馈优化时间识别能力),实现能力螺旋上升

智能终端:Agent 落地的“天然载体”

  • 手机、汽车等终端设备是 Agent 最适合的应用场景
  • 智能终端的优势在于“天然具备感知与交互能力”:
  • 感知层:手机有摄像头(视觉)、麦克风(听觉),汽车有雷达(空间)、传感器(运动),能为 Agent 提供实时环境数据(如“手机摄像头看到用户在厨房”);
  • 交互层:终端自带屏幕、扬声器、操作接口(如汽车的方向盘、家电的控制按钮),能让 Agent 的决策直接落地(如“通过汽车接口调整空调温度”)
  • 这种“感知-决策-执行”的闭环,解决了 Agent 在抽象场景中“无数据支撑”“无执行渠道”的问题,让模型能在实际生活中稳定运行(如手机 Agent 根据用户表情推荐放松音乐)

商业化效率:通用模型驱动“降本增效”

  • 模型的通用性是提升商业化效率的关键
  • 传统模式:每个场景需单独训练特化模型,成本高、复用性低;
  • 通用模型优势:通过 Prompt 即可快速适配场景,迁移能力强;
  • 商业化价值:随着模型能力提升,单一模型可覆盖多场景,降低企业的技术投入(无需养多个研发团队),同时提升响应速度(新场景无需等待模型训练),最终提高性价比并提升盈利空间(一个模型同时负责多个任务)
  • 这一逻辑揭示了大模型从“技术突破”到“商业落地”的核心路径——通过通用性降低门槛,实现规模化复制
  • 问题:现在落地难真的是这个原因吗?