本书是第一本关于语言学线性模型的统计学教科书,分十六章介绍了R 语言的基本概念、常用工具包和统计学常识,并结合大量编程实例展示广义线性模型与混合模型的建模与检验方式及在此过程中的常见错误。前十五章末尾都配有练习,三个附录介绍显著性检验与线性模型的对应关系,提供阅读建议和英汉术语对照表。本书风格平易近人,讲解简洁有效,是语言学统计课程及心理学、认知科学、数据科学等领域研究生和高年级本科生的首选参考书。
【译者序】
在当今学术研究中,无论是自然科学还是社会科学,数据分析和统计方法都占据了至关重要的地位。对于语言学研究而言,统计学同样是一个不可或缺的工具。它不仅能够帮助我们更深入地理解语言的内在规律,还可以为语言现象的实证研究提供科学依据。随着现代语言科学研究方法论的进步,语言现象的量化研究也已成为语言学各领域的关注焦点。语言研究者要想正确理解语言现象,并从纷繁复杂的语言表象中总结出相关规律,那么正确处理和科学分析语言数据至关重要。正因为如此,统计作为数据处理和分析的工具,在语言学界也受到了前所未有的关注。
近年来出现了许多适用于语言学问题的前沿统计方法,能够对不同类型的数据展开有针对性的分析。然而,这些方法往往具有较高的技术性,要求研究者具备一定的统计学基础,使用门槛较高。由于语言学的人文学科属性,许多研究者缺乏基本的统计学知识与训练,更不用说应用高级统计方法开展语言学研究了。而现实研究中,很多语言学研究者都能够收集到不少高质量的数据,但由于统计知识水平的限制,往往难以有效地挖掘数据中所反映的语言现象,导致数据的浪费。此外,由于对基本统计逻辑的理解不足,许多研究中存在统计方法的溢用和误用问题,这使得结论的信度和效度备受质疑(李倩,2022)。因此,提高研究者的统计学水平已成为当务之急。
幸运的是,国内外语言学界因时而动,出版了一些运用统计方法开展语言研究的著作,代表性著作包括《语言研究中的统计学》(李绍山,2001)、《定量句法分析》(Kohler,2012)、《认知语言学:定量研究转向》Janda,2013)、《语言学中的定量研究导论》(Rasinger,2013)、《应用语言学中定量研究的写作》(Woodrow,2014)、《语言概貌:通过统计从形式走向意义》(Kuznetsova,2015)、《诗歌文本的定量分析》(Popescu et al,2015)、《计量语言学的最新进展》(Tuzz et al,2015)、《计量语言学导论》(刘海涛,2017)、《依存结构的量化分析》(Jiang &Liu2018)、《语料库语言学研究中的统计学:一种新方法》(Wallis,2021)和《语言共性和个性的定量研究途径》(Yamazaki et al,2023)。这之中也不乏借助语料库统计手段开展语言与翻译研究的著作,如《语料库翻译研究中的定量方法》(Oakes &Ji,2012)。另外值得关注的是,以R语言为手段开展语言定量研究的著作也开始多起来了,其中的代表性著作包括《基于R的语料库语言学与统计学:语言学定量方法导论》(Desagulier,2017)、《语言研究中的统计学:R软件使用入门》(Gries,2009,2017,2021)、《基于R的语言可视化研究:量化互动语言学实践教程》(Ruhlemann,2020)、《R在语言科学研究中的应用》(吴诗玉,2021)等。
《语言学统计方法:R语言应用教程》(Winter,2020)是一本为语言学研究者介绍统计学基础知识的书籍,使用R语言作为实践工具。这本书的目标是帮助研究者理解和应用统计学方法,以便更好地分析语言数据和解决语言学问题。
该书在介绍统计学原理时,没有过多涉及复杂的数学计算和推导,即使对数学不太熟悉甚至望而生畏的语言学背景读者也能够轻松理解。作者在撰写过程中尽量使用通俗易懂的语言,并由浅入深地组织章节内容。除了前两章简要介绍R语言的基本功能外,后续的每一章都结合了具体的语言研究案例,详细展示了相关的代码并逐条解释。从描述性统计到推论性统计,从参数估计到假设检验,本书涵盖了语言学研究中常用的统计学方法。通过实际案例和数据分析,温特博士展示了R语言统计模型在多个研究领域中的应用,如语言学习者对于高频词与低频词的反应效应研究(见第4.1节)、动词的感官经验和象似性之间的关系探讨(见第8.2节)等。更为难得的是,作者公开了书中所有示例的数据,读者可以亲自输入代码,实践书中的建模和检验方法,体验“所见即所得”的快感,从而更深入地理解统计学原理和操作。
语言学与统计学是两个不同的学科领域,但它们之间存在着密切的联系和相互影响。R语言是一种开源的统计计算和数据可视化软件,已成为统计学和数据分析领域的主流工具之一。希望《语言学统计方法:R语言应用教程》一书的翻译与推广能提高中国语言学界对R语言的认知和应用水平,为他们提供方便实用的统计学工具,助推语言学研究的跨学科交流和发展,从而帮助提升国内语言学研究的质量和水平,加速中国语言学研究的国际化进程。
本中文译本是团队合作的成果。我和我的研究生团队(他们是孔蓬琳、刘思圻、徐偲妤、郑桑焙、林永康、谢运佳、付豪、韩劲涛、石涵雨)在翻译过程中秉持严谨的学术态度,力求准确传达原著的精神。学术著作的翻译涉及面广、要求高。因此,我们对原文进行了仔细的研读和探讨,对其中众多的专业术语展开深入分析和核对,务求术语翻译的精确与统一。在翻译过程中,我们也及时与原书作者温特博士保持沟通,修正了原书中的纰漏。
当然,由于时间和水平的限制,我们的译本肯定还存在不少可改进之处。我们诚挚地希望读者能够提出宝贵的意见和建议,以便后续不断改进和完善。R语言更新迭代快,我们建议读者在使用本书时结合自身研究需求,进一步拓展和应用本书所介绍的统计知识与方法。我们相信,随着统计学在国内的普及和推广,语言学研究将取得更加丰硕的成果。
最后,感谢温特博士在我们翻译过程中给予的信任和支持,感谢上海外语教育出版社提供宝贵的学习机会,感谢北京外国语大学王克非教授的信任和指导,感谢责任编辑潘敏老师的辛勤付出与专业建议。你们的帮助都是本书顺利出版的有效助力。
戴光荣
于广东外语外贸大学白云山校区
【目录】
译丛总序
译者序
致谢
前言
0.1本书的策略
0.2为何要学R语言?
0.3为何要学tidyverse?
0.4本书所需的R包
0.5非本书内容
0.6如何使用本书
0.7教师必读
第一章R概述
1.1引言
1.2入门阶段:R语言与简单数学运算
1.3创建R脚本
1.4变量赋值
1.5数值向量
1.6索引
1.7逻辑向量
1.8字符向量
1.9因子向量
1.10数据框
1.11载入文件
1.12绘图
1.13安装、加载与引用包
1.14寻求帮助
1.15键盘快捷键
1.16 R语言学习:未来之旅
1.17练习
第二章tidyverse和可重复的R工作流程
2.1引言
2.2 tibble包和readr包
2.3 dplyr包
2.4 ggpot2包
2.5用magrittr包设计管道
2.6更全面的例子:象似性与感官
2.7 Rmarkdown标记语言
2.8数据分析项目文件夹结构
2.9自述文件和其他markdown知识
2.10开放、可重复的研究
2.11练习
第三章 描述统计学、模型与分布
3.1模型
3.2分布
3.3正态分布
3.4视均值为模型
3.5其他汇总统计数据:中位数和极差
3.6箱须图和四分位差
3.7 R的汇总统计数据
3.8探索情绪效价评分
3.9小结
3.10练习
第四章 线性模型入门:简单线性回归
4.1词频效应
4.2截距和斜率
4.3拟合值和残差
4.4假设:正态性和同方差
4.5用R²衡量模型拟合优度
4.6 R简单线性回归模型
4.7线性模型与tidyverse函数
4.8模型公式符号:截距占位符
4.9小结
4.10练习
第五章 相关性、线性与非线性变换
5.1中心化
5.2标准化
5.3相关性
5.4通过对数变换描述数量级
5.5实例:反应时间与词频
5.6在R中进行中心化和标准化
5.7有关术语“归一化”的提醒
5.8小结
5.9练习
第六章 多元回归
6.1含一个以上预测变量的回归
6.2多元回归与标准化系数
6.3评估假设
6.4共线性
6.5调整R²
6.6小结
6.7练习
第七章 分类变量
7.1引言
7.2建立味觉词和嗅觉词的情绪效价模型
7.3处理味觉和嗅觉数据
7.4 R中的虚拟编码
7.5动手完成虚拟编码
7.6改变参照水平
7.7 R中的求和编码
7.8两个水平以上的分类变量
7.9再次假设
7.10其他编码方案
7.11小结
7.12练习
第八章 交互作用和非线性效应
8.1引言
8.2分类变量和连续变量之间的交互作用
8.3分类变量之间的交互作用
8.4连续变量之间的交互作用
8.5非线性效应
8.6高阶交互作用
8.7小结
8.8练习
第九章 推断统计学1:显著性检验
9.1引言
9.2效应量:科恩d值
9.3在R中计算科恩d值
9.4标准误差和置信区间
9.5零假设
9.6使用t检验来测量数据与零假设的不兼容性
9.7使用t分布来计算p值
9.8小结
9.9练习
第十章 推断统计学2:显著性检验中的问题
10.1对p值的常见误解
10.2统计效力和I、Ⅱ、M和S类错误
10.3多重检验
10.4停止规则
10.5小结
10.6练习
第十一章 推断统计学3:回归背景下的显著性检验
11.1引言
11.2标准误差和回归系数的置信区间
11.3多层次分类变量的显著性检验
11.4另一个例子:味觉词和嗅觉词的绝对效价
11.5阐明分类变量的不确定性
11.6阐明连续预测变量的不确定性
11.7小结
11.8练习
第十二章 广义线性模型1:逻辑回归
12.1认识广义线性模型
12.2理论背景:数据生成过程
12.3对数优势比函数与logit
12.4言语失误和血液酒精浓度
12.5预测与格变化
12.6手势感知分析
12.7小结
12.8练习
第十三章 广义线性模型2:泊松回归
13.1认识泊松回归
13.2泊松分布
13.3用泊松回归分析语言多样性
13.4添加暴露变量
13.5过度离散计数数据的负二项回归
13.6广义线性模型框架:概览与综述
13.7小结
13.8练习
第十四章 混合模型1:概念介绍
14.1引言
14.2独立性假设
14.3通过实验设计与平均化解决非独立性
14.4混合模型:变截距与变斜率
14.5更多变截距与变斜率的相关信息
14.6解释随机效应与随机效应的相关性
14.7指定混合效应模型:Ime4语法
14.8关于混合模型的推理:变斜率的重要性
14.9小结
第十五章 混合模型2:拓展示例、显著性检验、收敛相关问题
15.1引言
15.2为混合模型分析模拟生成元音音长数据
15.3用混合模型分析模拟元音音长数据
15.4从lme4对象中提取信息
15.5用错模型
15.6似然比检验
15.7遗留问题
15.8混合逻辑回归:丑陋的自拍
15.9收缩与个体差异
15.10小结
15.11练习
第十六章 建模的前景和策略
16.1目前为止你所学到的
16.2模型选择
16.3食谱法
16.4逐步回归
16.5倡导主观与理论驱动的统计建模
16.6可重复性研究
16.7结语
参考文献
附录A 显著性检验与线性模型的对应关系
A.1 t检验
A.2分类数据检验
A.3其他检验
附录B 阅读建议
B.1书籍推荐
B.2文章推荐
B.3与时俱进
附录C 术语英汉对照表