NLP——认识RWKV

前言:RWKV 作为挑战 Transformer 架构的国人开源项目,有前景,本文先简单介绍,有时间回来详细补课


整体说明

  • RWKV,全称 Receptance Weighted Key Value,中文名元始智能 ,是一种语言模型架构(由纯中国团队开发的,开源的语言架构)
  • TLDR:RWKV 结合了 RNN 和 Transformer 的优势
    • 传统 Transformer:计算复杂度随序列长度呈现二次方,且随着序列长度变长显存也一直在增长
    • RWKV 的核心思路:通过线性注意力机制和循环结构实现高效的并行训练与推理,同时保持 RNN 的低显存占用和恒定推理速度,还自然地做到了长度外推
  • 作者是 Bo Peng,知乎主页:PENG Bo
  • 评价:RWKV 作为首个中国纯字眼开源的非 Transformer 架构大模型,凭借高效的计算设计和持续的技术迭代,已在自然语言处理领域占据一席之地(开源社区活跃)
  • 其动态状态演化机制(如 RWKV-7)和多语言能力使其在长文本处理和低显存场景上具有显著优势
  • 期待 RWKV 成为替代 Transformer 架构的下一代语言模型架构

RWKV 核心优势和亮点

  • 线性复杂度 :计算复杂度为 \(O(Td)\)(\(T\) 为序列长度,\(d\) 为特征维度),显著低于Transformer的\(O(T^2)\)
    • 支持处理“无限”上下文长度,尤其适合长文本生成和多轮对话
  • 低资源消耗 :显存占用恒定

RWKV 主要架构版本迭代

  • RWKV-1/2/3 :从2021-2022年开始,逐步发布了前置版本,不是很成熟
  • RWKV-4(2023年):首个成熟版本,通过 Token-shift 技术实现循环与并行训练的结合,性能与同规模 Transformer 相当,论文被 EMNLP 2023 收录
  • RWKV-5/6(2024年):引入矩阵值状态和动态机制,提升长序列处理能力,如 RWKV-6-World-14B 在多语言评测中超越 Llama2 13B
  • RWKV-7(2025年):最新架构,采用动态状态演化(Dynamic State Evolution),超越传统注意力范式,支持持续学习和更复杂的上下文理解。例如,RWKV-7-World-2.9B在MMLU测试中得分54.56%,显著优于前代模型

RWKV 发展的时间线

  • 2020 年,BlinkDL 开始研究 Transformer,发现引入显式 decay 和 Token-shift 两个改进方向
  • 2021 年 8 月,RWKV 架构初版 RWKV-V1 被提交到 RWKV-LM 仓库
  • 2022 年,RWKV-V2 版本首次为 RWKV 实现 RNN 模式;2022年底,发布首个模型
  • 2023 年 6 月,RWKV 正式成立商业公司;2023 年 9 月 20 日,开源项目正式加入 Linux 开源基金会;2023 年 10 月,RWKV-4 架构论文被 EMNLP 2023 收录
  • 2024 年 7 月 19 日,RWKV 开源基金会宣布向全球开放 RWKV-6-World-14B 模型(超过 Llama2 13B);12 月,完成数千万人民币天使轮融资
  • 2025 年 2 月 22 日,参加在上海举办的首届 “RWKV-7 架构与未来趋势” 开发者大会
  • 注:目前团队从 3 人扩展至近 20 人,2024 年获天际资本数千万人民币天使轮融资,用于技术迭代和产品落地

RWKV 当前的缺点

  • 提示词敏感性 :基底模型对提示格式较为敏感,需优化输入顺序以提升生成质量
  • 回顾性任务局限 :在需要回溯前文的任务中表现较弱,需通过提示工程或微调弥补