收集一些命名实体识别相关的知识
收集一下名词
- 条件随机场CRF
- 召回率
- F值
- viterbi算法
- 序列标注任务
- 最大似然迭代算法
- MEMM标记偏置
- 线性条件随机场
- 层叠条件随机场
- 前向后向算法
- N-最短路径的切分排歧策略
- 互信息
- 二值特征函数
- L-BGFS算法
- 牛顿方法
收集一些工具
- CRF++
收集一些言论
文本信息抽取是自然语言处理及文本挖掘领域的一个研究热点。
命名实体识别是信息抽取的子任务
主要任务
- 人名
- 地名
- 时间、日期
主要方法
- 基于规则的方法
- 基于统计的方法
- 基于神经网络的方法
语料库
- 《人民日报》语料库
基于规则的方法
构建词规则及句法规则,采用匹配算法自动识别。
基于统计的方法
- 最大熵模型
- 隐马尔科夫模型
- 条件随机场模型
条件随机场模型
条件随机场模型(Conditional Random Field,CRF)是一种概率无向图模型。属于判别模型。
摘抄一个 线性链条件随机场模型
在序列标注任务中,随机变量$X=X_1,\dots,X_{n-1},X_n$是观察序列,随机变量$Y=Y_1,\dots,Y_{n-1},Y_n$表示与观察序列相对应的标记序列。
引入两个函数$t_k$和$s_k$
$t_k(y_{i-1},y_i,x,i)$是从位置$i$到位置$i-1$的转移特征函数,$s_k(y_i,x,i)$是位置$i$的状态特征函数,
$\lambda_k$、$\mu_k$是相应的权重。
下面一个是随机变量$Y$的链接条件概率分布:
$$
P(Y\vert{X})=\frac{1}{Z(x)}\exp\left(\sum\limits_i\sum\limits_k\lambda_kt_k(y_{i-1},y_i,x,i)+\sum\limits_i\sum\limits_k\mu_ks_k(y_i,x,i)\right)
$$
其中
$$
Z(x)=\sum\limits_y\exp\left(\sum\limits_i\sum\limits_k\lambda_kt_k(y_{i-1},y_i,x,i)+\sum\limits_i\sum\limits_k\mu_ks_k(y_i,x,i)\right)
$$
$\lambda_k$和$s_k$需要从训练样本中学习得出。
$Z(x)$是一个仅依赖于观测序列$X$的归一化函数。
在序列标注的过程中,条件随机场模型使用$\mathrm{Viterbi}$方法寻找使$P(Y\vert{X})$最大的$Y^*$,即$Y^*=\max_YP(Y\vert{X})$
这两个东西看起来有一、复杂
依存句法分析
依存句法分析(Dependency Parsing)是一种语言结构,它通过分析语言单位内成分之间的依存关系揭示其语法结构,描述句中词和词之间存在的支配与被支配的依存关系,鉴于依存分析可以找出句子各成分之间的语义修饰关系,因此,可以得到长距离的搭配信息,而且依存分析和句子成分的物理位置无关,更倾向于人的语言直觉,能够提供更精确的结果,因此,依存分析技术得到人们的广泛关注。
P,R,F的关系
准确率$P$,就是$\frac{其中预测正确的数量}{预测是某个类型的实体的数量}$
召回率$R$,就是$\frac{预测到的正确的数量}{所有的正确的数量}$
$F$值,计算方式:$\frac{2\times{P}\times{R}}{P+R}$
新词的发现方式
主要有两类方法:
- 在大规模训练语料的基础上,使用统计方法确定新的单词边界,从而获得候选的单词
- 在缺乏大规模训练语料,对实验数据文本中的字符串进行频率统计,词频高于阈值的词语作为候选新词
条件随机场中的层叠模型和层次模型
- 层叠模型(CCRFs)是将多个模型进行线性组合
- 层次模型采用递归方式将低层模型嵌入高层模型
层次模型训练复杂度和解码复杂度远远高于层叠模型。
参考文献:
[1]杨晓燕,徐戈,谢安,庄泽彬.基于词典与条件随机场的中文菜名识别研究[J].电脑知识与技术,2018,17:91-93.
[2]周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,5:804-809