| 雷峰网
0
本文作者: 我在思考中 | 2021-07-15 14:44 |
作者 | 琰琰、陈大鑫
今日凌晨,第44届国际 “信息检索研究与发展” 年会 SIGIR 2021 正式公布了最佳论文、最佳学生论文、时间检验奖、最佳短论文等多项大奖!
其中山东大学获得最佳学生论文,论文一作曲磊钢是山东大学智能媒体研究中心2019级硕士生,导师为山东大学计算机与科学系教授聂礼强。
另外,中国科学院大学Xuanang Chen等人获得最佳短论文;中国科学技术大学Yang Zhang 等人获得最佳论文奖荣誉提名;伦敦大学学院(UCL)计算机系教授汪军等人获得时间检验奖荣誉提名,UIUC 教授翟成祥获得Gerard Salton 奖。
SIGIR是人工智能领域智能信息检索方向最权威的国际会议,本次SIGIR 2021(The International ACM SIGIR Conference on Research and Development in Information Retrieval)大会共收到了720篇长论文投稿,526篇短论文投稿,其中长论文接收151篇(接收率为21%),短论文接收145篇(接收率为27.6%)。
下面对获奖论文做简要介绍。
最佳论文奖
获奖论文:《Computationally Efficient Optimization of Plackett-Luce Ranking Models for Relevance and Fairness》;
论文作者:Harrie Oosterhuis(拉德堡德大学计算机和信息科学助理教授)
论文摘要:
最近的研究表明,随机Plackett-Luce(PL)排序模型在优化相关性和公平性方面是一种鲁棒的选择。与启发式优化算法的确定性模型不同,PL模型是完全可微的。理论上,它们可以通过随机梯度下降来优化排名指标。但在实际中,梯度计算的方法并不可行,因为它需要迭代所有可能项的排列。因此,实际应用通常使用采样技术来近似梯度。
在本文中,作者引入了一种新的算法:PL-Rank,它可以同时估计PL-ranking模型的相关性指标和公平性指标。与当前基于策略梯度的方法不同,PL-Rank利用了PL模型和排序度量的特定结构。实验分析表明,PL-Rank比策略梯度具有更高的样本效率和更低的计算成本,在更高的性能下能够更快地收敛。作者认为,PL-Rank能够将PL模型应用于更相关、更公平的真实世界的排名系统中。
论文地址:https://arxiv.org/pdf/2105.00855.pdf
最佳学生论文奖
获奖论文:《Dynamic Modality Interaction Modeling for Image-Text Retrieval》
论文作者:曲磊钢、刘萌(通讯)、吴建龙、高赞、聂礼强(通讯);
论文单位:山东大学智能媒体研究中心
其中论文一作曲磊钢是山东大学智能媒体研究中心2019级硕士生;
论文介绍:
图像-文本双向检索是信息检索和多媒体计算领域的基础性和关键性任务,有效地解决该问题不仅能打破视觉和语言之间的语义鸿沟和分布壁垒,还能促进许多上层应用的发展,如:视觉问答和图像字幕生成,故具有广泛而深刻的研究意义。当前,图文检索的发展主要面临两大挑战:模态内关系推理和模态间语义对齐。
针对这两个挑战,我们提出了一种基于动态模态交互建模的图文检索方法,该方法能够自适应地选择依赖于特定数据的模态交互路径。具体地,我们首先提出了四种不同类型的交互模块:修正恒等模块、模态内推理模块、整体-局部引导模块、模态间精炼模块,为模型提供基础的模态内关系推理和模态间语义对齐的能力。
为充分发挥上述模块间的协作能力,我们进一步提出一种稠密连接策略对这些模块在宽度和深度两个维度进行连接,构成一个完整的路径空间,用以自适应地生成依赖于数据的交互路径。此外,为了提升路径学习效率,我们提出了一种语义一致性正则化方法。在图文检索两个公开数据集Flickr30K和MS-COCO上的大量实验表明,本方法的检索性能显著优于现有方法;对模态交互路径的可视化实验进一步表明本方法学习路径的合理性。
时间检验奖
获奖论文:《Exploiting Geographical Influence for Collaborative Point-of-Interest Recommendation》
作者:Mao Ye, Peifeng Yin, Wang-Chien Lee, Dik-Lun Lee
其中论文一作 Mao Ye 本科就读于南京大学计算机科学与技术系,博士就读于宾夕法尼亚州立大学计算机科学与工程系,在Pinterest 任Engineering Leadership。
论文摘要:
本文旨在为快速增长的本地生活社交网络(LBSN)提供兴趣点(POI)推荐服务,例如Foursquare、Whrrl等。本文重点关注用户偏好、社会因素和地理因素对 POI 推荐的影响。除了采用协同过滤推荐来获取用户偏好和好友的社会影响外,考虑到LBSNs值机( check-in )活动中表现出的空间聚集现象,作者还特别强调了地理因素的影响。
POI 之间的地理影响在用户值机行为中起着重要作用,作者使用幂率分布对其进行了建模,并提出了一种基于地理影响的朴素贝叶斯协同推荐算法。作者同时还提出了一个统一的POI推荐框架,该框架能够将用户对POI的偏好与社会影响、地理影响相结合。通过在Foursquare和Whrrl两个大规模数据集进行综合性能评估,作者发现,联合协作推荐方法的性能明显优于其他不同的推荐算法。
论文地址:https://dl.acm.org/doi/10.1145/2009916.2009962
时间检验奖荣誉提名
获奖论文:《 Portfolio Theory of Information Retrieval 》
论文作者:汪军、Jianhan Zhu
汪军
汪军是伦敦大学学院(UCL)计算机系教授,阿兰·图灵研究所 Turing Fellow,华为诺亚方舟实验室决策推理首席顾问。主要研究智能信息系统,包括机器学习、强化学习、多智能体,数据挖掘、计算广告学、推荐系统等。已发表了 120 多篇学术论文,出版两本学术专著,多次获得最佳论文奖。
论文摘要:
本文研究了在不确定性条件下的文本排序问题。在一般情况下,单个文档的相关性预测具有不确定性,并且相互依赖。受现代投资组合理论(一种处理金融市场投资的经济学理论)的启发,作者认为,不确定性下的排名不仅仅是选择单个相关文档,而是选择相关文档的正确组合。这促使作者根据预期的总体相关性(平均值)及其方差来量化文档的排序列表;其中后者作为一种风险度量在过去很少进行文档排序研究。
通过对均值和方差的分析,作者发现最优的排序顺序是平衡排序表的总体相关性(均值)与其风险水平(方差)的排序顺序。基于这一原理,作者推导了一种高效的文档排序算法。同时考虑了相关预测的不确定性和检索到的文档之间的相关性,并推广了著名的概率排序原则(PRP)。此外,多样化的好处是可以被数学量化的;作者表明,多样化的文档是一种减少文档排名风险的高效方法,且在文本检索中的实验结果中已经证实了其性能。
论文链接:https://dl.acm.org/doi/abs/10.1145/1571941.1571963
最佳短论文奖
获奖论文:《Contextualized offline relevance weighting for efficient and effective neural retrieval》
论文作者:Xuanang Chen, Ben He, Kai Hui,Yiran Wang,Le Sun,Yingfei Sun;
论文单位:中国科学院大学;
论文摘要:
在线搜索延迟(Online search latency)是在检索应用中部署大规模预训练语言模型(如BERT)的一个主要瓶颈。受到文档扩展技术(基于transformer)最新成果的启发,作者利用强大的BERT排名器对每个文档生成的伪查询收集的相邻文档进行了加权,使用离线相关性加权换取了在线检索的效率。在在线检索阶段,作者将传统的查询文档匹配(query-document matching)简化为成本更低的查询-伪查询匹配,并根据预先计算好排序列表快速调用相邻文档。MS-MARCO数据集上的实验测试表明,该方法在在线效率和有效性方面获得了很好的效果。
论文地址:https://dl.acm.org/doi/pdf/10.1145/3404835.3463073
最佳论文荣誉提名奖
获奖论文:《Causal intervention for leveraging popularity bias in recommendation》;
作者:Yang Zhang , Fuli Feng, Xiangnan He, Tianxin Wei , Chonggang Song, Guohui Ling and Yongdong Zhang
论文单位:中国科学技术大学、新加坡国立大学、腾讯;
论文摘要:
推荐系统通常面临流行度偏差(popularity bias)的问题:从数据角度来看,推荐项目在交互频率上呈现出不均匀(通常是长尾)分布;从方法论来看,协同过滤的方法容易在过度推荐热门项目中放大偏差。推荐系统中考虑流行度偏差无疑是至关重要的。现有的研究工作主要是来消除倾向性的无偏学习或因果嵌入。然而,作者认为并不是所有的数据偏差都是坏的,也就是说,一些推荐项可能因为更好的质量而更受欢迎。盲目追求无偏学习可能会去除数据中的有益模式,反而降低推荐的准确性和用户满意度。
本文研究了推荐系统中一个悬而未决的问题,即如何利用流行度偏差来提高推荐的准确性。解决该问题的关键在两个方面:一是如何在训练过程中消除流行度偏差的不良影响,二是如何在推理阶段注入期望的流行性偏差,从而产生 top-?推荐。
沿着推荐生成过程的因果机制,作者发现,项目本身的人气在推荐过程中产生了混淆作用,导致偏差的不良影响被放大。基于此,作者提出了一种新的推荐训练和推理范式,称之为PDA——流行度偏差的创建与调整(popularity-bias Deconfounding and Adjusting ,PDA)。该方法消除了模型训练中混杂的流行度偏差,通过因果能够干预推荐分数与期望的流行度偏差。本文中展示了潜在因素模型的新范式,并在来自Kwai、豆瓣和腾讯的三个数据集上进行了实验。结果表明,解组deconfounded 训练有助于发现用户的真实兴趣,而带有流行度偏差的推理调整可以进一步提高推荐的准确性。
论文地址:https://arxiv.org/pdf/2105.06067.pdf
开源地址:https://github.com/zyang1580/PDA
最佳短论文荣誉提名奖
获奖论文:《ReadsRE:Retrieval-Augmented Distantly Supervised Relation Extraction》;
作者:Yue Zhang,Hongliang Fei ,Ping Li;
Salton 奖
Gerard Salton 奖每三年颁发一次,授予对信息检索研究做出重大、持续贡献的个人。今年Salton 奖授予 UIUC 教授翟成祥,以表彰他对信息检索和数据科学做出的贡献。
SIGIR官方表示,翟成祥的工作定义了语言建模方法的许多理论基础,对平滑方法、相关性反馈、主题多样化和包含位置信息的文本表示等领域产生了重要启发。他和他的合作者还开创了信息检索的公理化方法,并持续为检索模型和评价研究提供新的灵感。
翟成祥是ACM Fellow,伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系工程系的 Donald Biggar Willett 教授。他1990年毕业于南京大学计算机专业,2002 年获得卡内基梅隆大学语言和信息技术博士学位。他的研究兴趣是智能信息系统领域,包括信息检索,数据挖掘、自然语言处理、机器学习及其在生物医学信息学和智能教育系统等领域的应用。
他还是ACM SIGIR Academy,并获得过包括ACM SIGIR 2004最佳论文奖、ACM SIGIR 时间检验奖——Test of Time Award(3次)等多个奖项,。
个人主页:http://czhai.cs.illinois.edu/
雷峰网特约稿件,未经授权禁止转载。详情见转载须知。