研究课题

中文分析

自然语言分析技术是自然语言处理领域的重要基础技术,很多自然语言应用系统都是以语言分析为基础的。广义地讲,自然语言分析包括词、短语、句子、篇章等不同层次上的语法、语义分析。

经过多年积累,东芝的基于规则的分析技术已成功应用于机器翻译等产品中。目前,东芝(中国)研究中心主要致力于基于统计的中文句法分析研究,我们的中文句法分析使用主流的组块分析技术,可以产生短语结构树和依存树等两种不同形式的结果。

基于统计的句法分析器的性能除与分析算法有关外,还高度依赖于训练语料。为了提高在特定领域的句法分析性能,除一般领域的树库外,我们还专门开发了特定领域的树库。

除中文句法分析外,我们也在韵律短语[1]、语义角色[2]等方面开展了一些研究。

返回 >>