一种中文分词增量学习方法

摘要:

一种中文分词增量学习方法,涉及中文分词领域。本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。本发明首先对中文语句集合中的语句xn进行人工标注标记,将已进行人工标记的语句(xn,yn)记为训练集;对中文语句集合中特征的权重向量W进行初始化,针对中文语句集合中的N个语句,计算每个语句权重向量Wn;然后进行T次迭代操作,然后计算权重向量平均值当中文语句集合中引入增量中文语句集合时,计算出增量中文语句集合的权重向量平均值求得中文分词增量权重参数完成中文分词增量的学习。本发明适用中文分词领域。

申请号: CN201510604035.0 专利名称: 一种中文分词增量学习方法 申请(专利权)人: [哈尔滨工业大学] 发明人: [车万翔, 刘一佳, 刘挺, 赵妍妍] 其他信息:
1.一种中文分词增量学习方法,其特征在于它包括下述步骤: 步骤1;设中文语句集合中有N个语句;对中文语句集合中的语句xn进行人工标注标记, 语句xn人工标注标记结果为yn;将已进行人工标记的语句(xn,yn)记为训练集,n为语句的序 号,n=(1,2,…,N); 步骤2:对中文语句集合中特征的权重向量W进行初始化,将初始化的权重向量标记为W1 =(w1,w2,…,wM);其中w1,w2,…,wM分别为中文语句集合中各个特征对应的权重;M表示中文 语句集合中所有特征的个数; 步骤3:针对中文语句集合中的N个语句,计算每个语句权重向量Wn;具体步骤如下: 步骤3.1:按照中文分词的方式对语句xn进行切分,切分过程有多种切分方式,每种切分 方式记作一种标记结果y′n; 针对标记结果y′n,根据特征抽取函数Φ(xn,y′n),抽取特征向量(f1,f2,…,fM); 步骤3.2:根据如下公式,计算语句xn被切分为标记结果y′n时的分数score; score=w1·f1+w2·f2+…+wM·fM=Wn·Φ(xn,y′n) 步骤3.3:对语句xn所有的切分方式进行切分,并计算相应的score,选取score最大的切 分方式,将对应的标记结果记为标记结果z; 步骤3.4:将标记结果z与该语句xn的人工标注标记结果yn进行对比; 若不相同,令权重向量Wn+1=Wn+Φ(xn,yn)-Φ(xn,z);若相同,Wn+1=Wn;其中,Φ(xn,yn) 表示语句xn出现标记结果yn对应的特征抽取函数,Φ(xn,z)表示语句xn出现标记结果z对应 的特征抽取函数; 步骤3.5:针对下一个语句xn+1,重复步骤3.1-步骤3.4; 针对中文语句集合中的N个语句,重复N次步骤3.1-步骤3.4的操作;记录每个语句权重 向量Wn,n=(1,2,…,N); 步骤4:重复步骤3,进行T次迭代操作,然后计算权重向量平均值 W = 1 N T Σ n = 1 , t = 1 , n = N , t = T W n , t 其中,Wn,t表示第t次迭代操作中第n个的语句对应的权重向量; 步骤5:当中文语句集合中引入增量中文语句集合时,单独提取出增量中文语句集合, 按照步骤1至步骤4的操作,求出增量中文语句集合的权重向量平均值 W a d d = 1 N a d d T a d d Σ n = 1 , t = 1 , n = N a d d , t = T a d d W a d d n , t 其中,带有角标add的参数均表示增量中文语句集合中语句的相应参数; 步骤6:根据步骤4和步骤5,按照如下公式求得中文分词增量权重参数 W Δ = 1 N T + N a d d T a d d ( Σ n = 1 , t = 1 , n = N , t = T W n , t + Σ n = 1 , t = 1 , n = N a d d , t = T a d d W a d d n , t ) 得到中文分词增量权重参数即完成了中文分词增量的学习。

一种中文分词增量学习方法

技术领域

本发明涉及中文分词领域。

背景技术

词是最小的具有独立意义的语言成分,汉语是以字为基本的书写单位,词与词之 间没有明显的区分标记。因此,中文分词是中文信息处理的基础与关键,信息检索、文本挖 掘等任务中广泛使用。

近年来,基于统计的中文分词方法在新闻领域已经取得了很好的性能。但随着互 联网、社交媒体与移动平台的迅猛发展,当前中文分词模型处理的数据不单局限于新闻领 域,越来越多的开放领域数据的加入,对中文分词模型提出了新的要求。现有的研究表明在 新闻领域训练的中文分词模型切换到诸如论坛、微博、小说等领域时,性能往往严重下降。

这种训练与测试领域不一致致使模型性能下降的问题可归纳为领域适应问题。在 使用新闻领域训练的分词模型处理开放领域时,新闻领域为源领域,开放领域为目标领域。 出现这种问题主要有两点原因,一是不同领域数据文体不一致,例如小说与新闻;二是不同 领域间领域词典不一致,如金融领域与新闻领域。《Unsupervised Domain Adaptation for Joint Segmentation and POS-Tagging》在分词词性标注联合模型上通过聚类的方式捕捉 原始领域与目标领域的相似性,得以解决文体差异过大问题。《Type-supervised domain adaptation for joint segmentation and pos-tagging》将目标领域词典融入模型,避免 了源领域与目标领域词典差异过大。《Domain Adaptation for CRF-based Chinese Word Segmentation using Free Annotations》提出了一种利用自然存在分词边界的网络文本 方法,在基于CRF模型的分词系统上提高了领域适应性。

上述研究表明,使用目标领域切分数据处理领域适应问题是一种高精度的方法。 同时,在源领域切分数据的基础上加入目标领域数据这类混合训练数据的方法可以进一步 提高切分中文分词准确率。然而,多方面因素限制了这一类方法的适用性。其一,大规模切 分数据往往很难公开共享,使得混合训练数据的方法难以应用于实际场景;其二,为了从混 合的数据中学习模型,每次数据混合需要重新训练模型,使得这种方法很难快速获得模型 并部署。

发明内容

本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练 数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算 时间长、对硬件要求高的问题。进而提出了一种中文分词增量学习方法。

一种中文分词增量学习方法,包括下述步骤:

步骤1;设中文语句集合中有N个语句;对中文语句集合中的语句xn进行人工标注 标记,语句xn人工标注标记结果为yn;将已进行人工标记的语句(xn,yn)记为训练集,n为语 句的序号,n=(1,2,…,N);

步骤2:对中文语句集合中特征的权重向量W进行初始化,将初始化的权重向量标 记为W1=(w1,w2,…,wM);其中w1,w2,…,wM分别为中文语句集合中各个特征对应的权重;M表 示中文语句集合中所有特征的个数;

步骤3:针对中文语句集合中的N个语句,计算每个语句权重向量Wn

步骤4:重复步骤3,进行T次迭代操作,然后计算权重向量平均值(按权重向量W中元素求平均),

其中,Wn,t表示第t次迭代操作中第n个的语句对应的权重向量;

步骤5:当原来的中文语句集合中引入增量中文语句集合时,单独提取出增量中文语句集合,按照步骤1至步骤4的操作,求出增量中文语句集合的权重向量平均值

其中,带有角标add的参数均表示增量中文语句集合中语句的相应参数;

步骤6:根据步骤4和步骤5,按照如下公式求得中文分词增量权重参数

得到中文分词增量权重参数即完成了中文分词增量的学习。

本发明具有以下有益效果:

本发明针通过在已有模型的基础上继续训练,可以在不需要源领域切分数据的情 况下,利用少量目标领域标注数据获得与混合模型相近的性能,不用每次都对混合数据模 型重新训练,在保证性能的基础上大大节省了运算处理数据的总量,减轻了对内存和处理 器等硬件的压力,所以本发明对内存和处理器等硬件的要求不高,而且也大幅度缩短运算 处理数据的时间,相比每次数据混合都需要重新训练模型的方法,本发明可以节约50%以 上的处理时间,而且新增的目标领域标注数据越大效果越明显。

同时本发明针对增量训练提出了一种优化的实现方法,使得训练代价显著降低。 并且本发明的分词器能够在https://xxx开源。

附图说明

图1为本发明的流程图。

具体实施方式

具体实施方式一:结合图1说明本实施方式,

一种中文分词增量学习方法,包括下述步骤:

步骤1;设中文语句集合中有N个语句;对中文语句集合中的语句xn进行人工标注 标记,语句xn人工标注标记结果为yn;将已进行人工标记的语句(xn,yn)记为训练集,n为语 句的序号,n=(1,2,…,N);

步骤2:对中文语句集合中特征的权重向量W进行初始化,将初始化的权重向量标 记为W1=(w1,w2,…,wM);其中w1,w2,…,wM分别为中文语句集合中各个特征对应的权重;M表 示中文语句集合中所有特征的个数;

步骤3:针对中文语句集合中的N个语句,计算每个语句权重向量Wn

步骤4:重复步骤3,进行T次迭代操作,然后计算权重向量平均值(按权重向量W中元素求平均),

其中,Wn,t表示第t次迭代操作中第n个的语句对应的权重向量;

步骤5:当原来的中文语句集合中引入增量中文语句集合时,单独提取出增量中文语句集合,按照步骤1至步骤4的操作,求出增量中文语句集合的权重向量平均值

其中,带有角标add的参数均表示增量中文语句集合中语句的相应参数;

步骤6:根据步骤4和步骤5,按照如下公式求得中文分词增量权重参数

得到中文分词增量权重参数即完成了中文分词增量的学习。

将此学习结果应用于开放的领域数据的分词过程,取得了良好的性能。

本发明针通过在已有模型的基础上继续训练,可以在不需要源领域切分数据的情 况下,利用少量目标领域标注数据获得与混合模型相近的性能,不用每次都对混合数据模 型重新训练,在保证性能的基础上大大节省了运算处理数据的总量,减轻了对内存和处理 器等硬件的压力,所以本发明对内存和处理器等硬件的要求不高,而且也大幅度缩短运算 处理数据的时间,相比每次数据混合都需要重新训练模型的方法,本发明可以节约50%以 上的处理时间,而且新增的目标领域标注数据越大效果越明显。

同时本发明针对增量训练提出了一种优化的实现方法,使得训练代价显著降低。 并且本发明的分词器能够在https://xxx开源。

具体实施方式二:

本实施方式步骤3所述的针对中文语句集合中的N个语句计算每个语句权重向量 Wn的具体步骤如下:

步骤3.1:按照中文分词的方式对语句xn进行切分,切分过程有多种切分方式,每 种切分方式记作一种可能出现的标记结果y′n

针对标记结果y′n,根据特征抽取函数Φ(xn,y′n),抽取特征向量(f1,f2,…,fM);

步骤3.2:根据如下公式,计算语句xn被切分为标记结果y′n时的分数score;

score=w1·f1+w2·f2+…+wM·fM=Wn·Φ(xn,y′n)

步骤3.3:对语句xn所有的可能出现的切分方式进行切分,并计算相应的score,选 取score最大的切分方式,将对应的标记结果记为标记结果z;

步骤3.4:将标记结果z与该语句xn的人工标注标记结果yn进行对比;

若不相同,令权重向量Wn+1=Wn+Φ(xn,yn)-Φ(xn,z);若相同,Wn+1=Wn;其中,Φ (xn,yn)表示语句xn出现标记结果yn对应的特征抽取函数,Φ(xn,z)表示语句xn出现标记结 果z对应的特征抽取函数;

步骤3.5:针对下一个语句xn+1,重复步骤3.1-步骤3.4;

针对中文语句集合中的N个语句,重复N次步骤3.1-步骤3.4的操作;记录每个语句 权重向量Wn,n=(1,2,…,N)。

其他步骤和参数与具体实施方式一相同。

实施例

在CTB5.0和诛仙网络小说数据上进行实验。源领域选取CTB5.0数据,CTB5.0数据 划分参照《Enhancing Chinese Word Segmentation Using Unlabeled Data》中的划分方 法,划分为CTB5.0训练集和CTB5.0测试集。增量数据选取诛仙小说,记为ZX;诛仙小说数据 划分参照《Type-supervised domain adaptation for joint segmentation and pos- tagging》划分方法,划分为ZX训练集和ZX测试集。在ZX训练集中随机选取500句ZX训练数据 作为小规模训练集,在ZX训练集中随机选取2400句ZX训练数据作为大规模训练集。

将CTB5.0训练集中的训练数据进行训练,然后分别用CTB5.0测试集和ZX测试集进 行测试,测试结果如表1所示,实验结果为F值。其中F值的定义为:

F值=2*Precision*Recall/(Precision+Recall)

Precision=正确分词数目/系统给出的词数目

Recall=正确分词数目/标准答案中的词数目

表1分词模型实验结果

将CTB5.0训练集中的训练数据进行训练,在CTB5.0测试集进行测试,F值为 96.65%;而在ZX测试集进行测试时,F值降到86.55%。这说明单独由CTB5.0数据训练的模 型在诛仙数据集上存在领域适应问题。

在CTB5.0训练集上分别加上500句ZX训练数据(小规模训练集)和2400句ZX训练数 据(大规模训练集)。然后分别进行实验:

实验1:将500句ZX训练数据进行训练;将2400句ZX训练数据进行训练。

实验2:将500句ZX训练数据结合本发明进行训练;将2400句ZX训练数据结合本发 明进行训练。即:用CTB5.0训练集训练第一阶段模型,分别用小、大规模诛仙训练集训练第 二阶段(本发明的过程),然后得到总的训练模型。

实验3:将500句ZX训练数据融合在CTB5.0训练集上进行整体训练;将2400句ZX训 练数据融合在CTB5.0训练集上进行整体训练。

训练结果如表2所示,

表2训练结果

从实验1中看出,在单独使用小规模数据的情况下,并不能获得性能令人满意的模 型。

通过对实验2和比实验1(单独用诛仙语料训练)的结果,实验2的增量训练结果分 别提升了10.56%、0.63%,提升效果在小规模数据集上更为明显。

同时,实验也将增量训练(实验2)与传统混合训练方式(实验3)进行了对比。实验2 的增量训练相对于传统混合训练,在小规模训练集上F值下降0.39%,在大规模数据集上提 升了0.24%,结果表明二者性能相近。

增量训练(实验2)与传统混合训练(实验3)的模型大小如表3所示,模型大小就是 最终训练获得的模型所占空间。

表3模型大小

从表3可以看出,实验2的增量训练提出的优化实现方法可以显著减少模型大小。

具体实施方式一:结合图1说明本实施方式,

一种中文分词增量学习方法,包括下述步骤:

步骤1;设中文语句集合中有N个语句;对中文语句集合中的语句xn进行人工标注 标记,语句xn人工标注标记结果为yn;将已进行人工标记的语句(xn,yn)记为训练集,n为语 句的序号,n=(1,2,…,N);

步骤2:对中文语句集合中特征的权重向量W进行初始化,将初始化的权重向量标 记为W1=(w1,w2,…,wM);其中w1,w2,…,wM分别为中文语句集合中各个特征对应的权重;M表 示中文语句集合中所有特征的个数;

步骤3:针对中文语句集合中的N个语句,计算每个语句权重向量Wn;

步骤4:重复步骤3,进行T次迭代操作,然后计算权重向量平均值(按权重向量W中元素求平均),

其中,Wn,t表示第t次迭代操作中第n个的语句对应的权重向量;

步骤5:当原来的中文语句集合中引入增量中文语句集合时,单独提取出增量中文语句集合,按照步骤1至步骤4的操作,求出增量中文语句集合的权重向量平均值

其中,带有角标add的参数均表示增量中文语句集合中语句的相应参数;

步骤6:根据步骤4和步骤5,按照如下公式求得中文分词增量权重参数

得到中文分词增量权重参数即完成了中文分词增量的学习。

将此学习结果应用于开放的领域数据的分词过程,取得了良好的性能。

本发明针通过在已有模型的基础上继续训练,可以在不需要源领域切分数据的情 况下,利用少量目标领域标注数据获得与混合模型相近的性能,不用每次都对混合数据模 型重新训练,在保证性能的基础上大大节省了运算处理数据的总量,减轻了对内存和处理 器等硬件的压力,所以本发明对内存和处理器等硬件的要求不高,而且也大幅度缩短运算 处理数据的时间,相比每次数据混合都需要重新训练模型的方法,本发明可以节约50%以 上的处理时间,而且新增的目标领域标注数据越大效果越明显。

同时本发明针对增量训练提出了一种优化的实现方法,使得训练代价显著降低。 并且本发明的分词器能够在https://xxx开源。

著录项导出服务
支持用户对专利代理事项、申请人或者专利权人事项等数十种著录项字段信息以excel的格式进行批量导出,还送7天云端存储,无需重复下载。
专利全文翻译服务
提供对专利标题、摘要、全文等内容即时响应的英文转换成中文的在线翻译,100万字符约为80-100篇专利。
专利批量下载服务
提供著录项、摘要、权利要求、说明书全文信息的PDF或word格式的导出和下载
专利年费导出服务
提供专利年费获取,并生成Excel格式批量导出和下载
专利年费监控服务
提供中国有效专利的年费监控服务,增加缴费提醒功能,实时监控年费数据
专利价值度报告导出
专利探索者自创专利价值度分析报告导出服务,从技术价值、经济价值、法律价值三方面评估专利的价值
荷包充值
会员充值大放送,最高可送5000元!
个性化你的检索平台
使用键盘键 进行切换

© Copyright  2017  江苏佰腾科技有限公司  版权所有  |

苏ICP备09077504号-16  

 苏公网安备 32041202001279号

系统日志

数据更新

 建议使用Chrome、360浏览器

联系我们
联系我们
群号:580132322
专利探索者服务号
意见反馈