快斗优选

梦晨发自凹非寺
量子位 | 公众号 QbitAI

在ACL 2025的颁奖典礼上，由DeepSeek梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。

这次ACL 2025规模空前，总投稿量达到8360篇，相较于去年的4407篇几乎翻倍，竞争异常激烈。

简单来说，他们提出的原生稀疏注意力（NSA）机制，通过算法与硬件的协同优化，直接把长文本处理速度提升了11倍。更厉害的是，性能不仅没降反而还超越了传统的全注意力模型。

一作袁境阳在会上发表演讲，透露这项技术可以把上下文长度扩展到1百万tokens，将被应用到下一个前沿模型中。

结合论文发表于DeepSeek-R1推出之后，实验设置中也提到使用了DeepSeek-R1的蒸馏数据来微调了新的模型。

大家纷纷猜测，这项技术将被用于下一代DeepSeek-V4以及DeepSeek-R2。

给注意力机制瘦身，速度狂飙11倍

长久以来，大语言模型处理长文本就像是戴着镣铐跳舞。传统的全注意力机制计算复杂度随序列长度呈平方级增长，处理64k长度的文本时，注意力计算竟然要占到总延迟的70-80%。

这篇论文的解决思路很巧妙：既然不是所有词之间的关系都同等重要，为什么不让模型学会”抓重点”呢？

NSA采用了一种动态分层的稀疏策略，通过三条并行的注意力分支协同工作：

压缩注意力，负责捕捉粗粒度的全局信息模式，就像快速浏览全文抓住大意；
选择性注意力，则专注于序列中最重要的词块，相当于精读关键段落；
滑动注意力，负责获取局部的上下文信息，确保细节不丢失。

这种设计最精妙的地方在于，它不是简单地丢弃信息，而是通过精心设计的算法平衡了计算密度。

更重要的是，整个架构针对现代GPU硬件进行了深度优化，实现了端到端的原生可训练模式。

在实际测试中，处理64k长度序列时，NSA在解码、前向传播和反向传播的全生命周期中都展现出惊人的速度优势。

解码阶段速度提升11.6倍，前向传播提升9倍，反向传播也有6倍的加速，无论是模型推理还是训练，都能获得实实在在的效率提升。

不仅快还更准，长文本处理迎来新突破

速度快只是NSA的一面，更让人惊讶的是它在各项基准测试中的表现。

在通用基准测试中，采用NSA预训练的27B参数模型在9个评测指标中有7个超越了全注意力基线。特别是在推理相关的基准测试上，DROP提升了0.042，GSM8K提升了0.034，显示出稀疏注意力在强制模型聚焦关键信息方面的独特优势。

长文本处理能力的测试结果更是亮眼。在64k上下文的”大海捞针”测试中，NSA在所有位置都实现了完美的检索准确率。在LongBench基准测试上，NSA取得了0.469的平均分，不仅超越了全注意力基线（+0.032），更是大幅领先其他稀疏注意力方法。

特别值得一提的是，在需要复杂推理的多跳问答任务上，NSA相比全注意力分别提升了0.087（HPQ）和0.051（2Wiki）；在代码理解任务（LCC）上提升了0.069；在段落检索任务（PassR-en）上提升了0.075。

研究团队还进行了一项有趣的实验：

他们用DeepSeek-R1的数学推理数据对模型进行微调，然后在美国数学邀请赛（AIME 24）上测试。

结果显示，NSA-R在8k上下文设置下的准确率达到0.121，而全注意力模型只有0.046；即使在16k上下文下，NSA-R仍然保持0.146的准确率，远超全注意力的0.092。

这些结果充分证明了NSA不是通过牺牲性能来换取速度，而是真正实现了效率和能力的双赢。

Three More Thing

这次总共评选出4篇最佳论文，另外三篇包括：

北大团队的《Language Models Resist Alignment: Evidence From Data Compression》

研究了大型语言模型的“弹性”，指模型经过对齐训练（让模型符合人类价值观、减少有害输出）后，很容易因为后续的微调而变回预训练时的状态，就像弹簧被拉伸后会反弹一样。

这意味着现有的对齐方法可能只是表面上改变了模型，不够稳固。未来需要更有效的对齐技术，才能让模型真正稳定地符合人类需求，尤其是在开源模型中，要避免恶意微调轻易破坏安全机制。

斯坦福团队的《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

研究了大模型“公平性” 上的一个新视角 “差异感知”。简单来说，就是模型应该在合适的场景下对不同群体做出区分，而不是一味地一视同仁。

研究发现那些在传统公平性测试中表现好的模型，在 “差异感知” 上得分并不高；模型能力越强（比如 MMLU 分数越高），情境感知能力越好，但差异感知能力未必提升；现有的 “去偏见” 方法（比如提示模型 “保持无偏见”）反而会让模型更无视差异，甚至把正确答案改错。

亥姆霍兹信息安全中心等团队的《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》。

这篇论文指出大模型生成回答时的采样机制与人类决策类似，包含描述性成分（反映概念的统计常态）和规定性成分（隐含的概念理想状态）。

研究通过实验验证，无论是新创概念还是现有概念（涵盖 10 个领域的 500 个概念），LLMs 生成的样本都会偏离统计平均值，向其认为的 “理想值” 偏移，且这种现象在 15 种不同模型中均显著存在。案例研究显示，这种偏向可能导致医疗等领域的有偏决策，引发伦理问题。

DeepSeek论文地址：
https://arxiv.org/abs/2502.11089

参考链接：
[1]https://x.com/aclmeeting/status/1950572483637067786
[2]https://x.com/casper_hansen_/status/1950649481617342803

DeepSeek下一代技术提前曝光，梁文锋署名论文获ACL2025最佳论文

小鹏汽车印尼...

杭州巨准斥资...

贾静雯带3个...

曼联揪出头号...

硬地23连胜...

受够了网红滤...

伊朗军方发言人称击落敌方一架先进战斗机

“父女档”带队，四川百亿疫苗龙头宣布赴港IPO，冲刺A+H上市！

从“提效”到“稳进”：2026直播电商进入精耕细作时代

杭州，居然是一个巨大的真人寻宝游戏！

《生万物》他：像河正宇不火与殷桃分手后仍一人

暑期档五大票房惨案，陈思诚章子怡联手上榜，姜文新片亏了2.5亿

特斯拉卖车，有Model Y就行了 | 读财报

TVB女星自曝曾被骚扰，对方是受人尊敬老前辈，不止一次对人出手

一周双赛，麦麦提江执法完苏超72小时内执法足协杯半决赛

记者：切尔西坚持年轻化战略，马雷斯卡本赛季进前四就行

东方雨虹2项违规被通报，实控人李卫国滥用控制权拿钱

白酒困在900天库存里，胡润百强榜中仍占22席，金种子、西凤酒掉队

不变应万变！曼城连续3场首发不变，为瓜帅执教以来第三次

老人骑电动车被撞后身亡司机获刑：96.8公斤属机动车

张凯丽34岁嫁给作家，偏偏生了个不省心的女儿？

E句话| 又一个95后顶流小生被爆，连粉丝都不放过？

罗马诺：斯图加特约2000万欧报价基安尼斯，但其俱乐部仍阻止交易

偶遇奚梦瑶带儿子看球赛，母子牵手画面温馨

能否复刻N7的成功？日产N6申报图现身

持续近3小时俄总统普京与美特使会晤结束

马绩效：尤文对皇马机会多但把握差，很难说这就是积极的表现

深夜近百份公告！湘财吸并大智慧方案细节定了，看八大核心点

嘲讽陈道明忍了，八卦王家卫也忍了，但听秦雯吐槽游本昌真忍不了

好刀法？特斯拉“廉价版”新车发布，是否会进入中国？