内容摘要:在汉语自动分析中,主要存在四方面问题,本文讨论了这些问题并提出了一些解决问题的对策。
关键词:自动分词;同形词;同形词类组;多义;汉语信息处理;自动分析
作者简介:
摘 要:
在汉语自动分析中,主要存在以下四个问题:1.词语的自动切分:2.同形词的判别;4.同形词类组的确定:4.多义词的辨识。本文讨论了这些问题并提出了一些解决问题的对策。
关 键 词:
自动分词 同形词 同形词类组 多义
相关信息:
本研究得到广电总局社科基金资助,项目编号为BW9943。
自然语言处理,实际上包括计算机对自然语言的自动分析和自动生成两部分内容。汉语是一种分析型语言,和印欧语相比,除了书写形式不同外,最明显的特点是无形态。由此也形成了汉语在自然语言处理研究中的特点:语言的生成相对容易,而语言的分析要比西语难得多。因为汉语没有形态变化,所以在生成句子时,既不用考虑词的性、数、格、人称等形式,也不必考虑词与词、句子成分与句子成分之间的一致或对应关系,只要把具有一定意义的词按照一定的线性顺序排列起来就可以,这样的生成程序和西语,尤其是和俄语这样的屈折语相比,显然要少了许多麻烦。但凡事有利必有弊,汉语生成的便利是以分析的困难为代价的。同样是因为汉语没有形态变化,所以在进行自动分析时,缺乏形式上的依据,必须靠句法、语义以及语用常识等多方面知识的综合。下面我们来具体谈谈汉语自动分析中遇到的几个主要问题,并尽可能提出相应的处理策略。
1.词语的自动切分
汉语的书写形式不像西文,词与词之间没有间隔,所以就比西文的语言处理多了一道手续:自动分词,即让计算机自动地把汉语语流串变成一个一个词的形式,这样才能进行下一步的句法语义分析及处理。但由于汉语中的构词语素大多是不定位语素,又有相当数量的自由语素,这就造成了切分中的多分字段。如“诊”是不定位语素,它在“会诊”中位置在后,在“诊断”中位置在前,语流中它们又可能交集在一起,如:“很少有医生会诊断这种疾病”,其中的“会诊断”就形成了一个交集型多分字段,也叫后字有定型多分字段;“马上”可以是一个词,如:“我马上下来”,也可以是两个词,如:“我从马上下来”,“马上”形成了一个组合型多分字段,也叫语段多分型字段。在具体句子中,这些可以两切的多分字段只有一种切分是正确的,那么根据什么、如何去找到这种正确的切分就成了一个颇费斟酌的问题。这是难点之一。还有,汉语中的专有名词,如人名、地名、商标名等,既不大写,也没有任何特殊标记,而且还有一部分与普通名词相同,如人们所熟悉的相声演员“牛群”、中央电视台的节目制片人“时间”、福建的制衣名城“石狮”等等,这不营给这部分本来就难以处理的问题雪上加霜。这些未登录词的辨别,是难点之二。这两个困难使得自动分词成了计算机理解汉语的第一个“瓶颈”问题。
自动分词属于汉语自动分析中的预处理问题,它必须在系统进入语法、语义分析之前解决。对自动分词中的难题,可采取以下对策。







