命名实体识别

收集一些命名实体识别相关的知识

收集一下名词

  • 条件随机场CRF
  • 召回率
  • F值
  • viterbi算法
  • 序列标注任务
  • 最大似然迭代算法
  • MEMM标记偏置
  • 线性条件随机场
  • 层叠条件随机场
  • 前向后向算法
  • N-最短路径的切分排歧策略
  • 互信息
  • 二值特征函数
  • L-BGFS算法
  • 牛顿方法

收集一些工具

  • CRF++

收集一些言论

文本信息抽取是自然语言处理及文本挖掘领域的一个研究热点。
命名实体识别是信息抽取的子任务

主要任务

  • 人名
  • 地名
  • 时间、日期

主要方法

  • 基于规则的方法
  • 基于统计的方法
  • 基于神经网络的方法

语料库

  • 《人民日报》语料库

基于规则的方法

构建词规则句法规则,采用匹配算法自动识别。

基于统计的方法

  • 最大熵模型
  • 隐马尔科夫模型
  • 条件随机场模型
条件随机场模型

条件随机场模型(Conditional Random Field,CRF)是一种概率无向图模型。属于判别模型。

摘抄一个 线性链条件随机场模型

在序列标注任务中,随机变量$X=X_1,\dots,X_{n-1},X_n$是观察序列,随机变量$Y=Y_1,\dots,Y_{n-1},Y_n$表示与观察序列相对应的标记序列。

引入两个函数$t_k$和$s_k$

$t_k(y_{i-1},y_i,x,i)$是从位置$i$到位置$i-1$的转移特征函数,$s_k(y_i,x,i)$是位置$i$的状态特征函数,
$\lambda_k$、$\mu_k$是相应的权重。

下面一个是随机变量$Y$的链接条件概率分布:

$$
P(Y\vert{X})=\frac{1}{Z(x)}\exp\left(\sum\limits_i\sum\limits_k\lambda_kt_k(y_{i-1},y_i,x,i)+\sum\limits_i\sum\limits_k\mu_ks_k(y_i,x,i)\right)
$$

其中

$$
Z(x)=\sum\limits_y\exp\left(\sum\limits_i\sum\limits_k\lambda_kt_k(y_{i-1},y_i,x,i)+\sum\limits_i\sum\limits_k\mu_ks_k(y_i,x,i)\right)
$$

$\lambda_k$和$s_k$需要从训练样本中学习得出。

$Z(x)$是一个仅依赖于观测序列$X$的归一化函数。

在序列标注的过程中,条件随机场模型使用$\mathrm{Viterbi}$方法寻找使$P(Y\vert{X})$最大的$Y^*$,即$Y^*=\max_YP(Y\vert{X})$


这两个东西看起来有一、复杂


依存句法分析

依存句法分析(Dependency Parsing)是一种语言结构,它通过分析语言单位内成分之间的依存关系揭示其语法结构,描述句中词和词之间存在的支配与被支配的依存关系,鉴于依存分析可以找出句子各成分之间的语义修饰关系,因此,可以得到长距离的搭配信息,而且依存分析和句子成分的物理位置无关,更倾向于人的语言直觉,能够提供更精确的结果,因此,依存分析技术得到人们的广泛关注。

P,R,F的关系

准确率$P$,就是$\frac{其中预测正确的数量}{预测是某个类型的实体的数量}$
召回率$R$,就是$\frac{预测到的正确的数量}{所有的正确的数量}$
$F$值,计算方式:$\frac{2\times{P}\times{R}}{P+R}$

新词的发现方式

主要有两类方法:

  1. 在大规模训练语料的基础上,使用统计方法确定新的单词边界,从而获得候选的单词
  2. 在缺乏大规模训练语料,对实验数据文本中的字符串进行频率统计,词频高于阈值的词语作为候选新词

条件随机场中的层叠模型和层次模型

  • 层叠模型(CCRFs)是将多个模型进行线性组合
  • 层次模型采用递归方式将低层模型嵌入高层模型

层次模型训练复杂度和解码复杂度远远高于层叠模型。


参考文献:

[1]杨晓燕,徐戈,谢安,庄泽彬.基于词典与条件随机场的中文菜名识别研究[J].电脑知识与技术,2018,17:91-93.
[2]周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,5:804-809