前言:RWKV 作为挑战 Transformer 架构的国人开源项目,有前景,本文先简单介绍,有时间回来详细补课
整体说明
- RWKV,全称 Receptance Weighted Key Value,中文名元始智能 ,是一种语言模型架构(由纯中国团队开发的,开源的语言架构)
- TLDR:RWKV 结合了 RNN 和 Transformer 的优势
- 传统 Transformer:计算复杂度随序列长度呈现二次方,且随着序列长度变长显存也一直在增长
- RWKV 的核心思路:通过线性注意力机制和循环结构实现高效的并行训练与推理,同时保持 RNN 的低显存占用和恒定推理速度,还自然地做到了长度外推
- 作者是 Bo Peng,知乎主页:PENG Bo
- 评价:RWKV 作为首个中国纯字眼开源的非 Transformer 架构大模型,凭借高效的计算设计和持续的技术迭代,已在自然语言处理领域占据一席之地(开源社区活跃)
- 其动态状态演化机制(如 RWKV-7)和多语言能力使其在长文本处理和低显存场景上具有显著优势
- 期待 RWKV 成为替代 Transformer 架构的下一代语言模型架构
RWKV 核心优势和亮点
- 线性复杂度 :计算复杂度为 \(O(Td)\)(\(T\) 为序列长度,\(d\) 为特征维度),显著低于Transformer的\(O(T^2)\)
- 支持处理“无限”上下文长度,尤其适合长文本生成和多轮对话
- 低资源消耗 :显存占用恒定
RWKV 主要架构版本迭代
- RWKV-1/2/3 :从2021-2022年开始,逐步发布了前置版本,不是很成熟
- RWKV-4(2023年):首个成熟版本,通过 Token-shift 技术实现循环与并行训练的结合,性能与同规模 Transformer 相当,论文被 EMNLP 2023 收录
- RWKV-5/6(2024年):引入矩阵值状态和动态机制,提升长序列处理能力,如 RWKV-6-World-14B 在多语言评测中超越 Llama2 13B
- RWKV-7(2025年):最新架构,采用动态状态演化(Dynamic State Evolution),超越传统注意力范式,支持持续学习和更复杂的上下文理解。例如,RWKV-7-World-2.9B在MMLU测试中得分54.56%,显著优于前代模型
RWKV 发展的时间线
- 2020 年,BlinkDL 开始研究 Transformer,发现引入显式 decay 和 Token-shift 两个改进方向
- 2021 年 8 月,RWKV 架构初版 RWKV-V1 被提交到 RWKV-LM 仓库
- 2022 年,RWKV-V2 版本首次为 RWKV 实现 RNN 模式;2022年底,发布首个模型
- 2023 年 6 月,RWKV 正式成立商业公司;2023 年 9 月 20 日,开源项目正式加入 Linux 开源基金会;2023 年 10 月,RWKV-4 架构论文被 EMNLP 2023 收录
- 2024 年 7 月 19 日,RWKV 开源基金会宣布向全球开放 RWKV-6-World-14B 模型(超过 Llama2 13B);12 月,完成数千万人民币天使轮融资
- 2025 年 2 月 22 日,参加在上海举办的首届 “RWKV-7 架构与未来趋势” 开发者大会
- 注:目前团队从 3 人扩展至近 20 人,2024 年获天际资本数千万人民币天使轮融资,用于技术迭代和产品落地
RWKV 当前的缺点
- 提示词敏感性 :基底模型对提示格式较为敏感,需优化输入顺序以提升生成质量
- 回顾性任务局限 :在需要回溯前文的任务中表现较弱,需通过提示工程或微调弥补