登录
首页 > 写作技巧 > 让RAG真正读懂“言外之意”!新框架引入词汇多样性,刷新多基准

让RAG真正读懂“言外之意”!新框架引入词汇多样性,刷新多基准

发布时间:2025-09-27 14:32:48

RAG准确率提升10.6%,多项基准拿下新SOTA!

ACL 2025最新研究提出Lexical Diversity-aware RAG(DRAG)框架,首次系统性地将词汇多样性引入RAG的检索与生成过程,提供了一个轻量、通用且易扩展的解决方案。

在多项基准任务中,该方法带来了显著性能提升,尤其在HotpotQA上刷新了当前最优结果。



在大语言模型的浪潮下,Retrieval-Augmented Generation(RAG)已经成为提升模型事实性和时效性的重要手段。然而,现有方法普遍忽视了一个看似细微却极为关键的问题——词汇多样性(lexical diversity)。

同一个问题,不同的表达方式,往往让检索模型“晕头转向”,最终导致错误答案。

由此,来自北航、北大、中关村实验室的研究团队提出了这项最新工作,他们首次将“词汇多样性”引入检索增强生成的相关性评估过程,并通过新颖的风险稀疏校准机制解决了生成阶段被无关信息干扰的问题。

团队认为,该方法对信息检索、问答系统、专业领域大模型应用都具有重要价值。未来,他们计划进一步拓展该方法到更多专业场景,让大模型不仅能“读懂”,更能“理解”复杂的人类语言表达。

词汇多样性:RAG的隐形痛点

研究团队指出,现有RAG方法大多通过“单一标准”判断检索文档是否相关,但现实情况要复杂得多。如图所示,以问题“What is Hattie McDaniel’s occupation?”为例,其中的语义成分表现出不同程度“词汇多样性”:

 

  • 不变词(Invariant):人名“Hattie McDaniel”一般不会变形;
  • 可变词(Variant):词语“occupation”可以对应“profession”“actress”甚至“Academy Award”;
  • 补充信息(Supplementary):答案可能依赖“American celebrity”等扩展语境。

 

Copyright 2016-2025 商媒体 版权所有  京ICP备20241218号-1