Boundary Enhanced Neural Span Classification for Nested Named Entity Recognition

命名实体识别任务（NER）是NLP领域的一个研究热点。大部分使用序列标记框架来解决该问题，但是序列标记框架通常难以检测出嵌套的实体。基于Span的方法可以很容易地检测出不同子序列中的嵌套实体，因此适用于解决嵌套NER问题。然而，现有的基于Span的方法有两个主要问题。第一，对所有子序列进行分类识别在计算上很昂贵，而且在推理上效率很低。第二，基于Span的方法主要集中在学习Span表示，但缺乏明确的边界监督。针对上述两个问题，本文提出了一种边界增强型neural span 分类模型。除了对Span进行分类之外，还加入一个额外的边界检测任务来预测那些作为实体边界的单词。并在多任务学习框架下进行联合训练，在附加边界监督的情况下增强了跨度表示。此外，边界检测模型能够生成高质量的候选跨度，大大降低了推理过程的时间复杂度。

本文主要解决嵌套NER问题，如下所示：

数据集中每一个单词不再只有一个标签，可能存在多种标签。本文提出的BENSC模型的主要思想为：在给定一个句子，首先，对word进行语义编码，其次利用多任务学习思想联合训练边界检测模型和Span分类模型。边界检测模型主要预测每个词是否实体的开始或者结束。Span分类模型主要融合Span的信息预测其标签。在推理过程中，可以通过边界检测模型得到边界置信度 $P_s$ 和 $P_e$ ，通过Span分类模型具有置信度 $P_{sp}$ 的标签C，这三个分数将共同决定一个Span是否是带有标签C的实体。