学海荡舟手机网
导航

主页 > 论文知识 > 最新论文资料 > 信息 > > 详细内容

基于决策树的中文指代消解


  1 中文指代消解采用的特征

  指代消解技术对于自然语言处理中的自动文摘、信息抽取等都具有非常重要的意义。解决指代消解的关键技术是词性标注、命名实体识别、名词短语识别等相关技术。

  中文指代消解采用的特征,相关研究中主要有:李国臣、罗云飞利用决策树方法[1]提出将距离属性和反映指代相似性的频次属性相结合的优先选择策略,主要通过明显的性别特征词来识别;北京大学的王厚峰[2]提出的采用特征中可以借鉴的有:性别、单复数;哈尔滨工业大学的郎君、刘挺和秦兵[3]提出了16个特征来构建特征向量,尽管提出16个特征,但在构建决策树时,只采用了其中的6个特征,所以不是特征选择的越多,就表示指代消解的结果越理想。根据语言学经验选定适合决策树方法的特征属性,才能够保证识别的正确率。

  2 名词短语特征向量

  通过参考前述国内外文献中选用的特征向量,以及对中文语法和句法的分析,我们选定6个特征来构建特征向量。

  2.1 专有名词属性

  每个名词短语本身的属性。先行词一般是名词短语,人名(Human Name)、地名(Place Name)、机构名(Organization Name)、时间(Time)、代词(Pronoun Name)和一般名词(General),分别用符号H、P、O、T、D和G 表示。不同类型的先行词对应的照应语类型不同。

  分组例句:{代表/v(n-Vg)}Q宁夏/ns }P{530万/m}Q {各族/r}D{ 人民/n }Q{ 深情厚意/i 的/u(d-Ng-u) 5万/m 公斤/q 优质/b}Q{ 大米/n}G{ 在/p(d-p-v)}Q{ 银川/ns}P{火车站/n }G{装运/v 上/v(f-Ng-v) }Q{ 车/n(n-q-v) }G ,{/w 紧急/ad 运往/v }Q{灾区/n}g 。/w {(/w 新华社/nt )}O{ 记者/n }G{ 刘/nr 泉龙/nr }H{ 摄/v(v-Vg)}Q。

  2.2 性别属性

  先行词和指代词的性别属性值为男性、女性和不确定,分别用符号M(Male) 、F(Female) 和U(Unknown)表示。人称代词和相应的先行词的性别必须是一致的;性别不一致,应绝对排除。人称先行词的性别信息不明确时,不能排除。

  确定一个名词短语的性别有多种方法。指示词或代词如“他”、“她”、“它”等可以用来确定性别。汉语中针对性别的判断有如下方式:

  (1)男性判断方式:①短语中出现“他”、“哥”、“爸”、“父亲”、“弟”、“爷”、“叔”或者“伯”就认为性别为“男性”;②名词中出现表示男性的词的集合如“丈夫”、“先生”、“侄子”、“孙子”、“外孙”、“外甥”、“长子”等;③一个名词的第一个字或者前面有“男”字均记作M。

  (2)女性判断方式:①如果短语中含有“她”、“妈”、“姐”、“妹”、“姊”、“母亲”、“奶”、“姑”或者“姨”就认为性别为“女性”;②表示女性的词的集合如“妻子”、“太太”、“丫头”等;③汉语通常用表示女性的代词“她”、“母亲”等来表示祖国。如“2009年10月1日,我们伟大祖国迎来了她的60岁生日”。

  以上是确定性别的方式,其他情况均可视为“不确定”,如出现“你”、 “我”、 “你们”、“我们”等。

  根据上述对句法和语法的分析可以看出,像“他”这类表示男性的代词应该指代表示男性的命名实体,而“她”这类表示女性的代词应该指代表示女性或国家的命名实体。

  2.3 单复数属性

  先行词和指代词的单复数属性分为单数、复数和不确定,分别用符号S(Single)、P(Plural)和U(Unknown)表示。“数”是判定指代关系的重要依据。

  (1)单数情况:主语为人名、机构、地点、距离、时间、长度等表示单一概念的名词;短语是“他”、“我”、“她”、“它”等;独立性名词,如“王老师”、“李校长”等都可以看作单数。

  (2)复数情况:如果短语中含有“们”、“和”、“与”等;出现如下量词,如“帮”、“群”、“班”、“批”、“家”、“伙”、“拨”、“堆”、“代”、“对”等;出现“父母”、“夫妇”等均被认为是复数。以上是确定单复数的方式,其他情况均可视为“不确定”。在分词工具ICTCLAS中对量词也进行了标注,m表示数词,mq 表示数量词。

  2.4 距离属性

  反映先行词和指代词之间的距离,i和j在同一句内为0,相邻句内为1,间隔一句为2,以此类推。

  2.5 缩略匹配属性

  两个名词短语如果完全相同或者具有缩略关系,二者具有共指关系,可能值为“真”(T)或“假”(F)。情况有以下几种:

  (1)I与J 完全相同则为 True,否则为False。

  (2)J是I 的子串缩略则为 True ,否则为False(I为ABCDE,J为BCD)。如例句:“作为香港某国际贸易公司代表的身份在越南搞股份公司[I],我的体会是,本公司[J]牵线在越南拍摄一部国际性题材的电影,准备到世界各国放映,预计可获得两倍利润。”

  (3)I、J的抽取缩略。J是I的抽取缩略(I为ABCDE,J为ACE),如例句:“胡锦涛总书记在庆祝人民政协成立60周年大会上的重要讲话,内涵丰富,思想深邃,论述精辟,是指导新时期人民政协工作的纲领性文献。学习胡总书记讲话精神,为政协不断增强履行职能的能力指明了方向”,其中“胡锦涛总书记”和“胡总书记”共指同一个实体。

  

相关文章