干货!通过结合答案相关性改进以查询为中心的自动文本摘要

发布于 2021-10-08 18:49

AI TIME欢迎每一位AI爱好者的加入!

本次ACL专题第4期,我们邀请到了香港科技大学的余铁铮博士,他将为大家分享他参与的两篇论文,一篇是来自EMNLP 2020的《CAiRE-COVID: A Question Answering and Query-focused Multi-Document Summarization System for COVID-19 Scholarly Information Management》,另一篇是来自ACL 2021的《Improve Query Focused Abstractive Summarization by Incorporating Answer Relevance》(QFS-BART)。这两篇论文在内容上一脉相承的,第二篇是第一篇的一个延伸。

嘉宾介绍

余铁铮

香港科技大学在读博士,研究兴趣为自然语言处理,主要包括自动摘要和多模态学习等。在ACL,NAACL,EMNLP,AAAI等国际会议上发表多篇论文。

一、CAiRE-COVID

2019年新冠疫情爆发后,涌现出一大批相关的学术论文,如何从这成千上万的论文中高效地获取想要的信息,成为了一个非常重要的科学问题。
比如说我们需要了解关于传播、孵化和环境稳定性的知识有哪些?我们对COVID-19风险因素了解多少?我们对疫苗和疗法了解多少?我们对病毒的遗传、起源和进化了解多少?当我们带着这些问题在上万篇论文中寻找答案时,无疑是很难找到相关答案的。
CAiRE-COVID系统的主要目的就是解决这一挑战,让我们能够更好的在信息库中找到特定问题所需的信息,并且非常好的把这些信息呈现出来。总结来说,有效管理COVID-19信息,需要回答高优先级的科学问题,需要总结与问题相关的突出信息。


2020年,AI2、CZI、MSR、Georgetown、NIH & The White House 在 Kaggle 平台上组织发起了COVID-19开放研究数据集挑战赛,旨在应用NLP和AI的最新进展来产生新的见解,以支持与这种传染病的持续斗争。该挑战赛发布了一个新的数据集COVID-19 Open Research Dataset (CORD-19 Dataset)以及几项任务,CAiRE-COVID系统在其中一项任务上取得了胜利。
CORD-19数据集提供了超过158,000篇学术文章的资源,其中包括超过69,000篇关于 COVID-19、SARS-CoV-2和相关冠状病毒的全文,代表了迄今为止可用于数据挖掘的最广泛的机器可读冠状病毒文献集。
为了满足与COVID-19相关的学术信息管理的要求和挑战,余铁铮等提出了CAiRE-COVID,这是一种神经问答和以查询为中心的多文档摘要系统,其主要由文档检索器(Document Retriever)、片段选择器(Snippet Selector)、多文档摘要器(Multi-Doc Summarizer)三个模块组成。给定用户查询,通过文档检索器模块从CORD-19数据集中选择最相关的文档。


片段选择器模块首先包括了作为证据选择器的问答(QA)模型,QA旨在突出显示给定相关段落和问题的答案或证据(文本片段),同时选择相关证据进行后期汇总。证据选择部分,为了包括泛化和领域专业能力,使用了两个QA模型:HLTC-MRQA模型和 BioBERT模型。
HLTC-MRQA模型是基于XLNet的QA模型,它通过多任务学习在六个不同的QA数据集上进行了训练。BioBERT模型在SQuAD数据集上进行了微调,有更好的生物专业的能力。回答融合部分,当两个QA模型从同一个段落中找出不同的证据时,两个证据都被保留。


片段选择器还包括了答案重排序和突出生成。文档检索器会返回一些相关段落,但这些段落的排序可能并不准确,而答案重排序的目的在于根据与查询的相关性对检索到的段落进行进一步的重新排序。重排序的分数主要有匹配分数和置信度分数两个部分,根据分数相关片段与相关段落一起重新排序,并最后突出显示。


为了向用户有效地呈现相关的 COVID-19信息,提出了一个查询驱动的多文档摘要器,从多个检索到的与答案相关的段落片段中生成抽象和提取摘要。


在给定问题之后,如下图说示,抽象和提取摘要都根据这个问题产生了一个比较完整的总结和摘要。


下图为CAiRE-COVID的系统界面,界面的上方是可搜索问题的输入框,在输入问题之后,会展示抽象摘要和提取摘要。在两个摘要下面,会出现从1-50排序的所有与输入问题相关的文献段落。


二、QFS-BART

在CAiRE-COVID系统中,生成摘要时只是对段落或者其中的答案根据QA的得分进行了重新的排序,事实上这个重排序是非常粗粒度的,那如何在更细粒度的条件下(比如对生成摘要的每个单词进行重排序)利用QA模型更好的生成摘要呢?
为了探究这一问题,于是便有了第二篇论文。简单来说,这篇论文的动机就在于给出一个问题和一篇或者几篇参考文献,我们希望在这些参考文献中得到一个有关问题的摘要。


QFS-BART模型的框架如下图所示,其输入为文档和查询,输出为摘要。输入的文档会通过两条路径,一条输入到QA模型(HLTC- MRQA)通过文档每一个单词来计算答案相关性得分,并给予分数一个权重后再输入到编码器-解码器注意力中。


下图为QFS-BART模型主要的实验结果,其在ROUGE-1和ROUGE-L上都取得目前为止已知的最好效果,同时在ROUGE-2上也与之前的最好效果相差不大。


在案例研究中,比较了强基线 BART-FT 模型、QFS-BART模型和真实人工撰写摘要,如下图左边所示。可以发现,QFS-BART模型得到的摘要与真实人工撰写的摘要高度吻合。另外,也将QFS-BART模型运用到了DUC数据集上。
很明显,如下图右边所示,基线模型倾向于从文档中复制跨度,但这些跨度与文档没有直接关系。与之不同的是,QFS-BART模型生成了更多与查询和答案相关的摘要。


总结而言,第二篇论文主要工作有以下三点:
(1)展示了答案相关性分数在神经抽象QFS 中的有效性;
(2)提出了一种有效的方法将答案相关性分数合并到可以产生更多查询相关摘要的预训练语言模型中;
(3)QFS-BART模型在单文档QFS数据集(Debatepedia)上达到了最先进的性能,并相较于几个强大基线,在两个多文档QFS数据集(DUC 2006, 2007)上带来了实质性改进。


今日视频推荐

AITIME
学霸们的爱情是怎么样的?一起来看看学霸们谈恋爱[呲牙] #学霸#恋爱#人工智能#计算机

整理:何文莉

审核:余铁铮

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!

请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材