商品语言科学与技术丛书：计算语言学方法研究

尚外书城

店内客服

点我咨询

图书详情

图书名称：语言科学与技术丛书：计算语言学方法研究

书号：9787544669245

版次：1

出版时间：2023-07-01

作者：冯志伟, 著

开本：BX16

介绍

【前言】

近年来，在人文社会科学研究中，出现了越来越显著的学科交叉趋势。所谓“学科交叉”,是指科学研究中为对研究对象的世界及其变化进行探测和再现，在两种或两种以上不同学科间或同一学科内进行的概念移植、理论渗透、方法借用等跨学科活动，最终形成独立的、跨越单一学科性的交叉学科或交叉学科群的一种学术现象。这种学科交叉趋势，甚至超出了人文社会科学的界限，涉及自然科学和工程技术的领域，其目的在于在学科体系中建立起新兴的交叉学科。

计算语言学(Computational Linguistics)是用计算机对自然语言这种研究对象进行研究和处理的一门新兴交叉学科，由于自然语言普遍存在于人类的很多活动领域，涉及语言学、计算机科学、数学、心理学、生物学等多个学科，因此，自然语言处理是最为典型的横跨文科、理科和工科的交叉学科研究。

2018年，教育部提出建设“新文科”的发展战略，计算语言学的研究正好符合这一发展战略的要求，可谓应运而生。

计算语言学在发展过程中，提出了很多方法。这些方法在理论上有一定的深度，在实践上有实用价值，值得我们语言学研究者重视。但是，国内计算语言学界对于这些方法的研究基本上是支离破碎的，缺乏系统的总结，更缺乏理论上的深入分析。本书在全面调查国内外计算语言学各种方法的基础上，对这些方法进行系统的描述，并在理论上进行深入分析和概括，进而总结出规律性的、具有方法论意义的知识，旨在推动计算语言学在我国的发展。

语言学家桂诗春和宁春岩于1997年出版的《语言学方法论》是我国第一本关于语言学方法的专著，也是国家教委人文社会科学研究“八五”规划的重点项目。可是他们在这本专著中并没有特别地讨论计算语言学的方法。因此，本书专门论述计算语言学的方法，以弥补这方面研究的不足。

本书对于计算语言学方法的研究可以分为四个方面：计算语言学中形式化方法的研究；计算语言学中自动剖析算法的研究；计算语言学中统计方法的研究；计算语言学中深度学习和神经网络方法的研究。分述如下：

一、计算语言学中形式化方法的研究

计算语言学中提出的各种形式化方法，除了具有深刻的语言学背景之外，还具有明显的方法论色彩，它们很容易在计算机上实现。为此，我深入、系统地考察了计算语言学在语音自动处理、词汇自动处理、形态自动处理、句法自动处理、语义自动处理、语用自动处理中使用的各种形式化方法，比较它们之间的异同，并从中提炼出各种方法的精粹。

二、计算语言学中自动剖析算法的研究

剖析是英语parser的音译兼意译。所谓“剖析”,就是分析语言的结构，也就是把线性的语言符号串转化成某种形式化的结构表达式(如成分结构树、依存关系树、线图等)。我研究了自底向上分析法(Bottom-Up Parser)、自顶向下分析法(Top-Down Parser)、左角分析法(Lefi-Corner Parser)、伊尔利算法(EarleyAlgorithm)等在计算语言学中行之有效的算法，揭示这些算法的数学原理，分析各种算法的效率，并研究各种算法的程序设计方法。

三、计算语言学中统计方法的研究

统计是传统语言学研究的一种重要方法。在与计算机有关的语言研究中，早在1949年，著名美国计算机专家W.Weaver就提出，可以利用信息论的解码(decode)思想，使用统计方法来进行机器翻译，统计语言学因此风靡一时。但是，随着N.Chomsky转换生成语法的兴起，语言学界对于统计方法的兴趣大大减弱了。在20世纪90年代以前，从事自然语言处理的大多数研究人员都把研究目标限定在某个十分狭窄的领域之中，他们采用的主流技术是基于规则的句法语义分析方法。尽管这样的方法在某些受限的子领域中曾经获得一定的成功，但是，如果用这样的方法来处理大规模的真实文本，就会显得捉襟见肘，进退维谷，从而遇到了很大的困难。这就导致了统计方法在计算语言学中的复兴。20世纪90年代以来，统计方法在大规模真实文本语料库的处理中获得了很大的成功。我深入考察了自然语言的马尔可夫模型(Markov Model)、N元语法模型(N-Gram Model)、噪声信道模型( Noisy Channel Model)、最大熵模型( Maximum Entropy Model)、概率上下文无关语法(Probabilistic Context-Free Grammar,简称PCFG)、逻辑斯蒂回归(Logistic Regression)等计算语言学中行之有效的统计方法以及为了避免统计数据稀疏而研制的各种平滑算法(Smoothing Algorithm),并揭示其数学形式所包含的具体语言学内容。

四、计算语言学中深度学习和神经网络方法的研究

进入21世纪以后，人工智能(Artificial Intelligence,简称AI)中的机器学习(Machine Learning)方法被引入计算语言学中，计算语言学中采用了词向量(Word Vector)、词嵌入(Word Embedding)来表示自然语言的结构信息，深度学习(Deep Leaming,简称DL)和神经网络(Neural Network,简称NN)方法成为当前计算语言学的主流方法。本书将深入分析大脑神经网络(Brain NeuralNetwork)、人工神经网络(Artificial Neural Network)、词嵌入(CBOW,Skip-Gram)、词向量、感知机(Perceptron)、前馈神经网络( Feed-Forward Neural Network)、卷积神经网络(Convolutional Neural Network)、循环神经网络( Recurrent Neural Network)、预训练模型(Pre-training Model)等方法，并介绍知识表示、知识融合、实体识别、实体排歧、关系抽取、事件抽取、知识存储等知识图谱(Knowledge Graph)的方法，力图揭示这些方法后面的语言学机理。多年来，我一直使用基于规则的方法和基于统计的方法来做计算语言学研究，现在基于深度学习和神经网络的方法已经成为计算语言学研究的主流，我虽已过耄耋之年，但仍然没有服老，进行了知识更新的再学习，本书中关于深度学习和神经网络方面的内容，就算是我这位年逾古稀的老人与时俱进的一个记录吧!

【目录】

第一章历史回顾和哲学背景
第一节计算语言学的历史回顾及其与人工智能的关系
第二节计算语言学方法的哲学背景

第二章语音的自动处理方法
第一节语音自动处理研究的历史回顾
第二节语音的形式描述方法
第三节语音自动合成的方法
第四节语音自动识别的方法

第三章词汇的自动处理方法
第一节词汇自动处理研究的历史回顾
第二节知识本体
第三节词网
第四节词汇的计量研究方法
第五节机器词典中语言信息的形式表示方法

第四章形态的自动处理方法
第一节形态自动处理研究的历史回顾
第二节不同类型语言的形态自动分析
第三节有限状态自动机与形态自动分析
第四节词的形式化描述与分析

第五章句法的自动处理方法
第一节句法自动处理研究的历史回顾
第二节基于上下文无关语法的自动句法分析方法
第三节伊尔利算法
第四节花园幽径句的自动分析方法
第五节浅层句法分析
第六节自然语言的计算复杂性
第七节基于特征结构的自动句法分析方法
第八节基于依存语法的自动句法分析方法

第六章语义的自动处理方法
第一节语义自动处理研究的历史回顾
第二节意义的形式化表示方法
第三节基于优选的语义分析方法
第四节基于内涵逻辑的语义分析方法

第七章语用的自动处理方法
第一节语用自动处理研究的历史回顾
第二节指代判定方法
第三节文本衔接的自动分析方法

第八章计算语言学中的统计方法
第一节计算语言学中统计方法的历史回顾
第二节基于概率语法的自动句法分析方法
第三节噪声信道模型
第四节最大熵模型
第五节 N元语法与数据平滑的方法
第六节逻辑斯蒂回归方法

第九章计算语言学中的神经网络方法
第一节神经网络方法的历史回顾
第二节大脑神经元与人工神经网络
第三节机器学习与深度学习
第四节词向量和词嵌入
第五节稠密的词向量
第六节感知机与XOR问题
第七节前馈神经网络
第八节卷积神经网络
第九节循环神经网络
第十节注意力机制
第十一节外部记忆
第十二节预训练模型

第十章计算语言学中的知识图谱
第一节知识图谱的类别
第二节知识表示
第三节知识融合
第四节实体识别与排歧
第五节关系抽取
第六节事件抽取
第七节知识存储

结语
参考文献
附录

尚外书城

店内客服

相关分类

图书详情

介绍

目录

1

2

3

4

新手入门

售后服务

公告栏

领取成功！感谢您的参与，祝您购物愉快~

尚外书城

店内客服

相关分类

图书详情

介绍

目录

提示

1

2

3

4

新手入门

售后服务

公告栏

领取成功！感谢您的参与，祝您购物愉快~