7月14日至18日,第47届国际信息检索大会(The 47th International ACM SIGIR Conference on Research and Development in Information Retrieval)在美国华盛顿特区召开。山东大学计算机学院信息检索实验室的研究成果Generative Retrieval as Multi-Vector Dense Retrieval获得了本次会议的最佳论文提名奖。这是山东大学信息检索团队获得国际顶级会议WSDM 2024最佳论文提名奖、EMNLP 2023杰出论文奖之后的又一杰出工作。
论文第一作者是计算机学院2023级硕士研究生吴世广,通讯作者是学院研究员任鹏杰,合作者包括泰山学堂2021级本科生魏闻达,计算机学院助理教授张孟奇、教授陈竹敏、教授马军,莱顿大学教授任昭春和阿姆斯特丹大学教授Maarten de Rijke,山东大学为第一作者和通讯作者单位。
在这篇论文中,研究人员探索了生成检索模型与多向量稠密检索模型之间的内在联系。主要内容为:随着生成式模型技术的不断发展,生成式检索(Generative Retrieval)这一新型检索范式引起了研究人员的广泛关注。其根据用户查询(query)通过生成式语言模型直接生成相关的文档或文档编号(document id),从而完成文档检索任务的端到端建模和优化。该研究发现,生成式检索与多向量稠密检索(Multi-Vector Dense Retrieval)存在着内在联系。生成式检索实际上是多向量稠密检索的一种特殊情况,两者在计算用户查询与文档的相关性时采用了相同的框架,即通过查询向量、文档向量和对齐矩阵的乘积之和。不同之处在于,生成式检索采用了独特的策略来计算文档标记向量和对齐矩阵。该发现揭示了生成式检索背后的内在机制,为发展新的检索模型提供了新的见解。由于多向量稠密检索是目前最先进的稠密检索方法,阐明了生成式检索与其之间的联系,对于充分发掘生成式检索的潜力至关重要。更多的实验信息和代码已公开至https://github.com/Furyton/GR-as-MVDR。
SIGIR(International ACM SIGIR Conference on Research and Development in Information Retrieval)是信息检索领域的旗舰会议,也是中国计算机学会CCF推荐的A类会议。本届大会共收到长文(FullPapers)投稿791篇,最终录用160篇,录用率为20%。