汉语分词在中文软件中的广泛应用
摘要
中文软件需要具有对中文文本的输入、显示、编辑、输出等基本功能,而且随着计算机技术的发展,对于计算机的文本处理能 力提出了更高的要求,诸如智能拼音语句输入、手写和语音自动识别输入;文章的校对;简体和繁体中文的自动转换;信息检索和信息摘录;文本分类和自动文摘; 语音合成;自然语言的理解和自动翻译;自然语言接口等。 而所有这些中文处理功能都要建立在对汉语文本的分词处理这一基本功能之上。因而,汉语分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用前 景。
一、 为什么需要汉语分词
我们知道,汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。” [1], 我们还知道,“词是最小的能够独立活动的有意义的语言成分。”[2] 然而,汉语文本中词与词之间却没有明确的分隔标记,而是连续的汉字串。显而易见,自动识别词边界,将汉字串切分为正确的词串的汉语分词问题无疑是实现中文 信息处理的各项任务的首要问题。
以拼音输入中的同音词自动辨识为例,据我们统计,汉语单字同音现象是非常严重的。以6763个汉字为例,没有同音字的汉字只有16个。其他 汉字都有同音字。其中最多的有116个同音字。而汉语词的同音现象则有很大的改善。以52505的词表为例,其中35942个词语没有同音词。因此,大多 数同音字可以依靠词来确定。例如:”yi”对应的同音字“以,一,易,已,意”, 分别可以在“以为,一定,容易,已经,意义”中来确定。对于词语(包括单字词)的同音现象,则需要运用词语之间的合理搭配以及词语在句子中的合法运用来确 定。比如“一枝可爱的玫瑰花”,”Zhi”的同音字有:“只,之,直,支,枝.....”等。但是这里“枝”是和“花”的合理搭配。也就是说”一+枝+可 爱的玫瑰花”是合理的搭配。由此不难看出,分词对于同音词自动辨识的作用。而同音词的自动辨识也是语音自动识别所要解决的重要问题。
除了同音词的自动辨识,汉语的多音字自动辨识仍然需要分词的帮助。例如:“校、行、重、乐、率”等都是多音字。无论是拼音自动标注还是语音 合成都需要识别出正确的拼音。而多音字的辨识可以利用词以及句子中前后词语境,即上下文来实现。如以上几个多音字都可以在以下几组词中得以定音:学校 (xiao)/ 校(jiao)对、行(hang)列/行(xing)进、重(zhong)量/重(chong)新、快乐(le)/音乐(yue)、率(shuai)领 /效率(lv)。
汉字的简体/繁体转换、信息检索和信息摘录、自然语言理解、文本分类、机器翻译、文本校对等中文信息处理系统同样都首先需要分词作为其最基本的模块。
二、 汉语分词所面临的关键问题及分词算法
汉语分词是由计算机自动识别文本中的词边界的过程。从计算机处理过程上看,分词系统的输入是连续的字符串(C1C2C3……Cn),输出是汉语的词 串(W1W2W3……Wm), 这里,Wi 可以是单字词也可以是多字词。 那么,在这个过程中,我们所要解决的关键问题是什么,我们又有什么样的解决方案哪?
-
关键问题
-
通用词表和切分规范
汉语的语素和单字词,合成词和短语之间没有清晰的界限。语言学界虽然对于词在概念上有一个十分清晰的定义,即,“词是最小的能够独立活动的有意义的 语言成分。”但从一些词典的编撰中,我们仍然可看出一些上述界限难以区分的问题。比如:“听见”“看见”在很多词典中都有收录,但是有类似结构的“闻见” 却没有收录。在建立分词系统词表时,仍然对于收词的标准难以把握,例如:“鸡蛋”是词,那么“鸭蛋、鹌鹑蛋”是否也作为词收入词表?至今为止,分词系统仍 然没有一个统一的具有权威性的分词词表作为分词依据。这不能不说是分词系统所面临的首要问题。除了分词词表,还有一个概念值得我们注意,即“分词单位”。 从计算机进行分词的过程来看,其输出的词串我们称之为“切分单位”或“分词单位”。《信息处理用现代汉语分词规范》中对于“分词单位”也有一个定义:“汉 语信息处理使用的、具有确定的语义或语法功能的基本单位。包括本规范的规则限定的词和词组。”[3]由此可见,信息处理中分词单位的定义比传统意义上的词 更宽泛些。这也就避开了理论上对于词的界定难以把握的困扰。分词系统可以面向解决实际问题的需求和真实语料中使用的频繁程度来规定“分词单位”。分词单位 可以是同词表中词完全一致,也可以是包含未登录词识别以及一些词法分析的切分单位, 例如,一些人名、地名、机构名、外国人译名,应予以识别和切分。一些动词和形容词重叠结构,如“高高大大”、“甜甜蜜蜜”等;一些附加词,如后缀,“亲和 性”、“热敏性”等;都可以作为分词单位予以识别和切分。因此,对于一个分词系统而言,制定一个一致性的分词单位切分规范无疑也是一个重要的问题。
-
歧义切分字段
分词系统要处理的第二个关键问题是文本中歧义切分字段的判别。汉语中歧义切分字段最基本有以下两种类型:
- 交集型歧义字段,据统计,这种歧义字段占全部歧义字段的85%以上。[4]所以这也是分词系统所要重点解决的问题。在字段ABC 中,这里,A,B,C分别代表有一个或多个汉字组成的字串。A,AB,BC,C分别都是词表中的词,则称该字段为交集型歧义字段。如:“中国/人”,“中 /国人”两种切分结果。
- 组合型歧义在字段ABC中, A,B,AB 分别都是词表中的词,则称该字段为交集型歧义字段。如:他/具有/非凡/的/才能/。/ 只有/他/才/能/举起/这/个/重物/。/
-
未登录词识别
我们知道,词表中不能囊括所有的词。一方面是因为语言在不断的发展和变化,新词会不断的出现。另一方面是因为词的衍生现象非常普遍,没有必要把所有的衍生词都收入辞典中。
-
通用词表和切分规范
- 上一篇:《现代汉语语法信息词典》的开发与应用
- 下一篇:人工智能论文下载