1.概念
计算语言学 , 也称自然语言处理或自然语言理解 , 它是研究如何利用计算机来理解和生成自然语言。
计算机对自然语言的研究和处理 , 一般应经过如下 4 个过程 :
1 . 从语言学角度提出自然语言处理的问题和理论(linguistic problem)。
2 . 把需要研究的问题在语言学上加以形式化(linguistic formalism),使之能以一定的数学形式,严密而规整地表示出来。
3 . 把这种严密而规整的数学形式表示为算法,使之在计算机上形式化(computational formalism)。
4 . 根 据 算 法 编 写 计 算 机 程 序, 使 之 在 计 算 机 上 加 以 实 现 ( computer implementation)。
2.主要研究内容
按照语言学上一般的分析,语言可分为如下的一些层次 :
- 语音——计算语音学
- 词汇——计算词汇学
- 语法——计算语法学
- 语义——计算语义学
- 语用——计算语用学
等。。。
3.主要用途
- 机器翻译 (machine translation)
- 语音自动识别、语音自动生成
- 自动文摘
- 自动校对
- 自然语言理解(understanding natural languag
- 情报自动检索(automatic information retrieval)
- 术语数据库
- 计算机辅助教学
- 电子词典
- 汉字自动识别
- 文献自动分类( information classification)
等。。。4.研究的基本方法
理性主义(基于规则)
符号处理系统
符号处理系统是认知心理学家作为人的认知模型而提出的。
在计算语言学中,用于自然语言处理的符号处理系统通常根据一套规则或程序,将自然语言理解为符号结构——该结构的意义可以从结构中的符号的意义推导出来。
经验主义(基于统计)
基于语料库的计算语言学研究
1.统计学方法:首先为要解决的语言处理问题建立统计模型, 并且训练语料库来估计统计模型中的参数,然后把参数值应用到模型中处理语言问题。
统计方法广泛应用于词性标注、语法分析、歧义化解、机器翻译、语音识别等语言处理领域。
2.基于转换的错误驱动学习:这种方法通过学习得到考虑上下文的规则集, 然后计算语料库中应用每个规则时正确和错误的事例个数 ,再按提高语料库标注的正确率高低来排列规则 , 从而发现最可能的规则。
3.神经网络学习方法:主要应用有动词的形态变换、语法分析、机器翻译等。理性主义研究方法与经验主义研究方法的结合
一方面 , 如果把统计方法作为获取知识的主要途径 , 依据语言学家的语言学知识对所获取的知识加以取舍 , 并增加一些统计方法没有得到的、而经过语言学家证明是行之有效的正确的语言规则。
另一方面,由于由统计方法获取的语言知识来自大规模真实文本,可以覆盖几乎所有语言现象。
这样 , 便能克服语言学家总结语言规则的片面性和主观性 , 并使他们集中精力研究那些最常见的、在统计意义上最重要的语言现象。
5.发展历程
1 . 萌芽期
起始于机器翻译。
1946年,英国的布斯(A.D.Booth)、美国的韦弗(W.Weaver)就开始了机器翻译的研究。
1954 年,美国乔治敦大学在国际商用机器公司(IBM)的协同下,用 IBM-701 计算机进行了世界上第一次机器翻译试验 , 首次用计算机把俄语译成了英 语 , 并取得初步成功。 这是计算机最早的在非数值处理方面的应用,一时引起了人们的注意 , 许多人认为这是一个大有可为的计算机应用领域。
1964 年 , 美国科学院专门成立了一个“自动语言处理咨询委员会 ”( 简 称 A L P A C 委 员 会 ) , 调查机器翻译 的情况 。
1966 年 , ALPAC委员会写了一个报告——ALPAC报告。报告中说“:在目前给机器翻译以大力支持还没有多少理由。”
报告出来以后 ,很多资助都停止了。机器翻译的研究出现了空前萧条的局面。所以造成这样的后果,一方面是机器设备、条件上的原因。另一方面一些有识之士清醒地认识到从计算机处理自然语言的角度研究语言的重要性,在ALPAC报告中首次出现了“计算语言学”这个术语,计算语言学就是自然语言计算机处理的基本理论和方法的总称。从此进入了计算语言学的萌芽期。
2 . 发展期
ALPAC 报告后, 计算语言学研究逐渐转向自然语言理解。
自然语言理解系统分为第一代系统和第二代系统两个阶段。
第一代系统建立在对词类和词序分析的基础上,分析中经常使用统计方法 ;
第二代系统则开始引进语义甚至语用和语境的因素 , 几乎完全抛开统计技术。
计算语言学的发展表明 , 这一学科的进步不仅有利于机器 翻译技术的进步,而且在当今世界上,它有着重大的理论意义和现实意义。语言能力是人类的智能行为之一 , 长期以来 是语言学、认知科学、心理学和人工智能等学科关注的焦点之一。计算语言学从另外的角度促进了这些学科的发展 , 有助于人类早日搞清楚语言发生、运作的机理。同时,计算语言学在机器翻译、信息检索、人机接口等信息处理领域有着广泛的应用前景 , 意义非凡。
3 . 繁荣期
从 1989 年 , 计算语言学进入了大规模真实文本处理的新时期。
这个新时期的重要标志是在基于规则的技术中引入了语料库方法 , 其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法等。