研究课题

中文分词

汉语文本的最小构成单位是字,而有意义的最小单位却是词,对中文的分析、理解、检索等处理通常都需要以词为基本单位。因此,中文自动分词是中文信息处理的重要基础技术之一,在各种中文信息处理系统中具有广泛的应用。

大多数中文自动分词技术都是以中文词典为基础的。基于词典的分词系统都会面临切分歧义和生词等两类问题。东芝(中国)研发中心的中文自动分词系统采用统计和规则相结合的技术,不仅能正确处理绝大多数切分歧义,还能相当准确地识别多种生词,如命名实体、数词、时间词等。从软件系统的角度,该系统还有模型小[1]、速度快、适用于多种平台、易于根据应用定制等特点。目前,我们的分词系统已经成功用于东芝的机器翻译、语音合成等多种产品中。

返回 >>