NLP——认识RWKV

前言：RWKV 作为挑战 Transformer 架构的国人开源项目，有前景，本文先简单介绍，有时间回来详细补课

整体说明

RWKV，全称 Receptance Weighted Key Value，中文名元始智能 ，是一种语言模型架构（由纯中国团队开发的，开源的语言架构）
TLDR：RWKV 结合了 RNN 和 Transformer 的优势
- 传统 Transformer：计算复杂度随序列长度呈现二次方，且随着序列长度变长显存也一直在增长
- RWKV 的核心思路：通过线性注意力机制和循环结构实现高效的并行训练与推理，同时保持 RNN 的低显存占用和恒定推理速度，还自然地做到了长度外推
作者是 Bo Peng，知乎主页：PENG Bo
评价：RWKV 作为首个中国纯字眼开源的非 Transformer 架构大模型，凭借高效的计算设计和持续的技术迭代，已在自然语言处理领域占据一席之地（开源社区活跃）
其动态状态演化机制（如 RWKV-7）和多语言能力使其在长文本处理和低显存场景上具有显著优势
期待 RWKV 成为替代 Transformer 架构的下一代语言模型架构

RWKV 核心优势和亮点

线性复杂度 ：计算复杂度为 \(O(Td)\)（\(T\) 为序列长度，\(d\) 为特征维度），显著低于Transformer的\(O(T^2)\)
- 支持处理“无限”上下文长度，尤其适合长文本生成和多轮对话
低资源消耗 ：显存占用恒定

RWKV 主要架构版本迭代

RWKV-1/2/3 ：从2021-2022年开始，逐步发布了前置版本，不是很成熟
RWKV-4（2023年）：首个成熟版本，通过 Token-shift 技术实现循环与并行训练的结合，性能与同规模 Transformer 相当，论文被 EMNLP 2023 收录
RWKV-5/6（2024年）：引入矩阵值状态和动态机制，提升长序列处理能力，如 RWKV-6-World-14B 在多语言评测中超越 Llama2 13B
RWKV-7（2025年）：最新架构，采用动态状态演化（Dynamic State Evolution），超越传统注意力范式，支持持续学习和更复杂的上下文理解。例如，RWKV-7-World-2.9B在MMLU测试中得分54.56%，显著优于前代模型

RWKV 发展的时间线

2020 年，BlinkDL 开始研究 Transformer，发现引入显式 decay 和 Token-shift 两个改进方向
2021 年 8 月，RWKV 架构初版 RWKV-V1 被提交到 RWKV-LM 仓库
2022 年，RWKV-V2 版本首次为 RWKV 实现 RNN 模式；2022年底，发布首个模型
2023 年 6 月，RWKV 正式成立商业公司；2023 年 9 月 20 日，开源项目正式加入 Linux 开源基金会；2023 年 10 月，RWKV-4 架构论文被 EMNLP 2023 收录
2024 年 7 月 19 日，RWKV 开源基金会宣布向全球开放 RWKV-6-World-14B 模型（超过 Llama2 13B）；12 月，完成数千万人民币天使轮融资
2025 年 2 月 22 日，参加在上海举办的首届 “RWKV-7 架构与未来趋势” 开发者大会
注：目前团队从 3 人扩展至近 20 人，2024 年获天际资本数千万人民币天使轮融资，用于技术迭代和产品落地

RWKV 当前的缺点

提示词敏感性 ：基底模型对提示格式较为敏感，需优化输入顺序以提升生成质量
回顾性任务局限 ：在需要回溯前文的任务中表现较弱，需通过提示工程或微调弥补