命名实体识别

收集一些命名实体识别相关的知识

收集一下名词

条件随机场CRF
召回率
F值
viterbi算法
序列标注任务
最大似然迭代算法
MEMM标记偏置
线性条件随机场
层叠条件随机场
前向后向算法
N-最短路径的切分排歧策略
互信息
二值特征函数
L-BGFS算法
牛顿方法

收集一些工具

CRF++

收集一些言论

文本信息抽取是自然语言处理及文本挖掘领域的一个研究热点。
命名实体识别是信息抽取的子任务

主要任务

人名
地名
时间、日期

主要方法

基于规则的方法
基于统计的方法
基于神经网络的方法

语料库

《人民日报》语料库

基于规则的方法

构建词规则及句法规则，采用匹配算法自动识别。

基于统计的方法

最大熵模型
隐马尔科夫模型
条件随机场模型

条件随机场模型

条件随机场模型(Conditional Random Field,CRF)是一种概率无向图模型。属于判别模型。

摘抄一个 线性链条件随机场模型

在序列标注任务中，随机变量$X=X_1,\dots,X_{n-1},X_n$是观察序列，随机变量$Y=Y_1,\dots,Y_{n-1},Y_n$表示与观察序列相对应的标记序列。

引入两个函数$t_k$和$s_k$

$t_k(y_{i-1},y_i,x,i)$是从位置$i$到位置$i-1$的转移特征函数，$s_k(y_i,x,i)$是位置$i$的状态特征函数，
$\lambda_k$、$\mu_k$是相应的权重。

下面一个是随机变量$Y$的链接条件概率分布：

$$
P(Y\vert{X})=\frac{1}{Z(x)}\exp\left(\sum\limits_i\sum\limits_k\lambda_kt_k(y_{i-1},y_i,x,i)+\sum\limits_i\sum\limits_k\mu_ks_k(y_i,x,i)\right)
$$

其中

$$
Z(x)=\sum\limits_y\exp\left(\sum\limits_i\sum\limits_k\lambda_kt_k(y_{i-1},y_i,x,i)+\sum\limits_i\sum\limits_k\mu_ks_k(y_i,x,i)\right)
$$

$\lambda_k$和$s_k$需要从训练样本中学习得出。

$Z(x)$是一个仅依赖于观测序列$X$的归一化函数。

在序列标注的过程中，条件随机场模型使用$\mathrm{Viterbi}$方法寻找使$P(Y\vert{X})$最大的$Y^*$,即$Y^*=\max_YP(Y\vert{X})$

这两个东西看起来有一、复杂

依存句法分析

依存句法分析（Dependency Parsing）是一种语言结构，它通过分析语言单位内成分之间的依存关系揭示其语法结构，描述句中词和词之间存在的支配与被支配的依存关系，鉴于依存分析可以找出句子各成分之间的语义修饰关系，因此，可以得到长距离的搭配信息，而且依存分析和句子成分的物理位置无关，更倾向于人的语言直觉，能够提供更精确的结果，因此，依存分析技术得到人们的广泛关注。

P,R,F的关系

准确率$P$,就是$\frac{其中预测正确的数量}{预测是某个类型的实体的数量}$
召回率$R$,就是$\frac{预测到的正确的数量}{所有的正确的数量}$
$F$值,计算方式:$\frac{2\times{P}\times{R}}{P+R}$

新词的发现方式

主要有两类方法：

在大规模训练语料的基础上，使用统计方法确定新的单词边界，从而获得候选的单词
在缺乏大规模训练语料，对实验数据文本中的字符串进行频率统计，词频高于阈值的词语作为候选新词

条件随机场中的层叠模型和层次模型

层叠模型(CCRFs)是将多个模型进行线性组合
层次模型采用递归方式将低层模型嵌入高层模型

层次模型训练复杂度和解码复杂度远远高于层叠模型。

参考文献：

[1]杨晓燕,徐戈,谢安,庄泽彬.基于词典与条件随机场的中文菜名识别研究[J].电脑知识与技术,2018,17:91-93.
[2]周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,5:804-809