读书笔记:数学之美-自然语言处理

2016年10月21日 shenbowei

keyword自然语言,数学模型,统计

从规则到统计

任何一种语言都是一种编码方式,而语法对应的语法规则是编解码的算法。 即是说,我们把思考的东西表达为文字、语言的过程对应编码。而我们看到文字、听到语言到理解的过程对应解码。这些不同国家的文字、语音即是传递的信息。 上述为人类日常交流的过程,自然语言处理就是让机器可以完成上述的解码过程。 (P.S:机器的编码应该指的是更高程度的人工智能了,神经网络、深度学习应该就是在这方面的研究吧)

机器智能

图灵测试(Turing Test):计算机科学之父阿兰.图灵在1950年的<<思想>>杂志上发表论文“计算的机器和只能”中提出的一种验证机器是否有智能的方法,
即如果人类无法判断自己交流的对象是人还是机器,就说明这个机器有智能了

理解:开始所说的**编解码**理论和这个表达的相同。

机器智能 = 向人类传达信息 + 从人类获取信息(并理解) = 自然语言的编码 + 自然语言的解码

自然语言处理60年的发展过程基本分为两个阶段:基于规则的方法 => 基于统计的方法。 这中间经过了一段漫长的历史,具体内容阅读书中章节。这里省过。

基于规则的方法

这阶段是科学家走弯路阶段,对自然语言处理局限在人类学习语言的方式上 —— 自然语言处理 = 理解自然语言 = 分析语义 + 获取语义。 这阶段取得的成果很少。这种想法主要是受人类学习语言的影响,我们在学语言的时候,主要要学习语法规则(Grammar Rules)词性(Part of Speech)构词(Morphologic)。 这些语法规则很容易用计算机算法描述,因此得出了基于规则的自然语言处理方法。

为什么不行?

  1. 文法规则都是通过人工总结的。

  2. 一个句子解析为文法分析树(Syntactic Parse Tree)是一件很罗嗦的事。一个复杂句子对应的文法分析树十分庞大。

  3. 自然语言的上下文相关程度很大。同样的词在不同环境下的意思可能是不同的。而程序语言是上下文无关的。

从规则到统计

基于规则的自然语言处理研究持续到1970年,这段时间的研究室相当失败的。 1970年以后统计语言学的出现使得自然语言处理重获新生,并取得了今天的非凡成就。

这个转换期持续了很长时间,但是最终事实证明基于统计的自然语言处理方法无论在识别正确率还是规模上都远远的高于基于规则的方法。 当时,基于统计的方法的核心是通信系统隐含马尔科夫模型。这个系统的输入、输出都是一维的符号序列,且保持原有的次序,并非以前的二维分析树。 具体的分析原理本章并没有介绍,第三章中会讲统计语言模型

小结

本章主要说了自然语言处理的发展历史,从基于规则的方法发展到基于统计的方法。 不得不再次感慨下数学的力量。


评论