您的当前位置：首页正文

《Dynamically Fused Graph Network for Multi-hop Reasoning》论文笔记

来源：好走旅游网

Dynamically Fused Graph Network for Multi-hop Reasoning 论文笔记

2019ACL，SJTU & ByteDance，这是一篇融合了图表示学习来做多跳推理的文章。

Overview

本文作者提出的模型叫做DFGN，作者首先谈到HotpotQA这种类型的数据集带给人们两大挑战：

总结一下DFGN模型，模型从问题中的实体出发，根据paragraph构建起一张与问题实体相关的动态的entity graph，然后fusion模块会对entity graph进行建模并完成实体与文本之间的信息传递，document的向量表示也随之更新。上述的过程不断的迭代，模型就得到了一条reasoning chain，最终得到答案。

DFGN

上图就是DFGN模型的整体架构，可以看出模型主要分为五大模块：

Paragraph Selector
Entity Graph Constructor
Context and Query Encoder
Fusion Block
Prediction Block

Paragraph Selector

这个模块主要是用于过滤噪声段落，本文之前采用了先前的工作。用BERT来对所有的句子进行编码，做一个句子分类任务。作者把所有包含至少一条supporting fact的段落视为正例。在inference阶段，所有预测得分高于0.1的段落被选取出来，拼接到一起得到 $C$ 。

Entity Graph Constructor

对于实体图，本文采取的方法是先对 $C$ 进行NER，提取出所有的候选实体，然后开始连边。边有三种类型：

出现在同一个句子中的两个实体（sentence-level link）
具有相同mention text的两个实体（context-level link）
中心实体与其他出现在同一paragraph中的实体（paragraph-level link）

Context and Query Encoder

对于问题和段落的编码，本文直接采用BERT，然后再经过一层bi-attention，得到 $Q_{0}\in{R^{L\times 2d_{2}}}$ 和 $C_{0}\in{R{^{M\times 2d_{2}}}}$ 。

Fusion Block

fusion模块是本文的核心，主要包含三个子模块：

Document to Graph Flow：根据document的向量表示得到Entity Graph中实体的向量表示
Dynamic Graph Attention：通过GAT模型对Entity Graph进行建模
Graph to Document Flow：将更新后的实体信息传递回document，并更新段落信息

Document to Graph Flow

这一模块作者也称作是Tok2Ent，实现方法是用一个binary mask $M$ ， $M_{ij}=1$ 表示文本中的第 $i$ 个token出现在第 $j$ 个实体的span里。然后用一个mean-max pooling得到实体的embedding $E_{t-1}\in{R^{2d_{2}\times N}}$ 。

Dynamic Graph Attention

对于图结构的建模本文采用的是GAT模型。但在这之前，作者先设计了一个soft mask，来得到Entity Graph中所有与query相关的实体，我觉得这个mask也是实现本文Introduction部分提到的dynamic local entity graph的关键。
$\widetilde{q}^{(t-1)}\ =\ MeanPooling(Q^{(t-1)})\\ \gamma^{(t)}_{i}\ =\ \widetilde{q}^{(t-1)}V_{t}e^{(t-1)}_{i}/\sqrt{d_{2}}\\ m^{(t)}\ =\ \sigma[\gamma_{1}^{(t)},\ \gamma_{2}^{(t)}, \dots,\ \gamma_{1}^{(t)}] \\ \widetilde{E}^{(t-1)}=m^{(t)} \cdot E^{(t-1)}$
$V_{t}$ 是一个linear projection，可以看出这个mask的计算是通过attention + sigmoid来实现的。这里的mask是可训练的。

得到了mask后的实体向量表示，接下来套用GAT模型。
$h^{(t)}_{i}\ =\ U\widetilde{e}^{(t-1)}_{i}+b\\ s^{(t)}_{i,j}\ =\ LeakyReLu(W^{T}_{t}[h^{(t)}_{i};h^{(t)}_{j}])\\ \alpha^{(t)}_{ij}\ =\ \frac{exp({s^{(t)}_{i,j}})}{\sum_{k}exp(s^{(t)}_{i,k})}$
得到attention weight之后更新实体的向量表示：
$e^{(t)}_{i}\ =\ ReLu(\sum_{j \in N_{i}}\alpha^{(t)}_{j,i}h^{(t)}_{j})$

Graph to Document Flow

首先，作者对query进行了更新，因为当前时间步所访问到的新实体可能成为下一个时间步的start entity，因此对query的更新是必要的。更新的方式是Bi-Attention。
$Q^{(t)}\ =\ Bi-Attention(Q^{(t-1)},E^{(t)})$
接下来是信息的“反向传播”，即从graph传递到document，因此这一模块也被作者成为Graph2Doc。具体做法是，仍然使用Entity Graph Constructor中的 $M$ 矩阵来对实体进行过滤，然后用LSTM得到更新后的document
$C^{(t)}\ =\ LSTM(C^{(t-1)},\ ME^{(t)})$

Prediction Block

HotpotQA一般有四个预测值：是否为supporting fact、answer start、answer end、question type。而本文的预测模块也是一个创新点，作者使用了级联的LSTM结构，四个LSTM层 $F_{i}$ 叠在一起
$O_{sup}\ =\ F_{0}([C^{(t)}])\\ O_{start}\ =\ F_{1}([C^{(t)},\ O_{sup}])\\ O_{end}\ =\ F_{2}([C^{(t)},\ O_{start},\ O_{sup}])\\ O_{type}\ =\ F_{3}([C^{(t)},\ O_{end},\ O_{sup}])$
而损失函数也是四者相加
$L\ =\ L_{start}\ +\ L_{end}\ +\ \lambda_{s}L_{sup}\ +\ \lambda_{t}L_{type}$

Experiment

再HotpotQA上的结果

消融实验

作者还做了case study

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

《Dynamically Fused Graph Network for Multi-hop Reasoning》 论文笔记