《基于计量语言学指标的汉英文本特征比较研究》是一部探讨汉英文本特征的学术著作,旨在展示计量语言学在研究语言系统中的重要应用。书中深入探讨了熵和主题集中度这两个关键的计量指标,通过系统的计算和分析,揭示了汉语和英语文本在句法、词汇和语义三方面的显著差异。作者全面整合了传统语言学与计量语言学的方法,展现了数据驱动的研究带来的全新视角。 本书具有以下三大创新特点:首先,系统介绍了熵和主题集中度的起源、计算步骤及其在语言学中的意义,使读者能够全面理解和应用这两个重要指标;其次,详细阐述了量化研究中常用的统计方法,并通过精心制作的图示使复杂的数理概念更加直观易懂;最后,灵活运用计量语言学的研究范式,深入分析了汉英语体的句法、词汇和语义特征,为基于量化方法的语言研究开辟了新的路径。 本书适合计量语言学、应用语言学及语言学相关领域的研究者、学生以及对语言系统有浓厚兴趣的专业人士。无论是从理论还是实践的角度,均能为读者提供丰富的启示与实用的参考价值。期待本书能激发更多学者对语言复杂性和规律的深入探索,在学术研究中取得更为丰硕的成果。
序言
语言是一个人类驱动的复杂适应系统。为了探究这一与人类紧密相关的系统的运作规律,我们可能需要采用系统科学的方法来研究语言。计量语言学是一个严格按照科学哲学构建的语言学分支,旨在探究人类语言系统的运作规律。使用计量语言学研究语言时,提出并选择能够反映语言系统某些特征的可量化指标至关重要。
“熵”(entropy)最早在热力学中提出,后被香农(Shannon,1948)引入信息论。语言研究借用“嫡随概率变化而变化”的特性,来整体反映某种语言特征的平均信息量。“主题集中度”(thematic concentration:TC)则是一种基于文本中词汇频率特征的量化描述指标,用于衡量文本中某一主题的集中程度。这两个指标已在多项研究中被证明是有效的工具,可用于探究语言系统的运作规律。
陈蕊娜的专著通过使用熵和主题集中度这两个指标,对汉英语体的异同进行了深入的探索。本书结合了计量语言学和传统语言学的研究方法,展现了数据驱动的语言研究与数字人文的独特优势。
我认为这本专著具有以下三方面的特点。
首先,本书系统地介绍了熵和主题集中度这两个指标的起源、计算步骤及其语言学意义,有助于学界全面理解其内涵。大多数基于计量语言学指标的语言特征研究对计量指标的语言学意义探讨不够详尽,本书选择了在计量语言学领域较为成熟,且文献基础广泛的两个指标,具有进一步开展学术研究的潜力。深入解析这两个指标,并在源头上夯实基础,才能使科学研究走得更长远。
其次,本书详细介绍了量化研究中常用的一些统计方法,并精心制作了图形来解释某些数理概念,为语言学习者和研究者提供了清晰且实用的参考资料。数理统计中的常用方法常常零星地散落在浩瀚的统计学书籍中,且网上搜索到的内容也不一定完全准确。此外,这些概念和统计方法通常由纯理工科背景的人阐释,与语言研究的关联性较弱。本书作者基于文本数据,在第三章介绍了熵的意义,在第四章探讨了幂律分布的性质、“帕累托分布”(Pareto distribution)和“无标度网络洛伦兹曲线”(scale-free network Lorenz curze)的历史渊源;并使用图形展示了不同类符在同一语体中不同长度文本的概率独立同分布、幂律曲线的无标度特征、帕累托分布与齐普夫定律(Zipf's law)的同源关系;在第五章中,作者还介绍了主题集中度、两种聚类方法及其聚类效果的判断系数,展现了数理知识与语言研究的深度融合。
第三,本书灵活运用了熵和主题集中度两个指标,遵循计量语言学的研究范式,探究了汉英不同语体在句法、词汇和语义层面的差异。第三章分别提取了句子中不同位置上词或词性的概率,以及不同体标记的概率,从纵聚合和横组合两个维度研究了不同语体句法变化的差异;第四章将词汇丰富性差异理解为“类符概率分布”(word type probabilitydistribution)的差异,考察了熵所反映的总体词汇丰富性随文本长度增长在不同语体中的变化。第五章通过结合主题集中度的两个衍生形式,即第二主题集中度(secondary thematic concentration:STC)和比例主题集中度(proportional thematic concentration:PTC),从语义差异上区分了汉英不同语体。
值得注意的是,计量语言学范式下对不同语体的句法、词汇和语义层面的研究,重点不在于通常语言学论著中常见的微观和具体语言特征,而在于通过对不同语体中具体词汇使用的分析,抽象概括出这些语体的整体系统统计规律,即计量语言学所强调的“语言现象背后的数理规律”。
近年来,语言研究的量化浪潮方兴未艾,这得益于语言计量研究的丰硕成果和自然语言处理技术的快速发展,使得获取文本特征变得相对便捷,所得结论由于高度抽象,具有较强的普适性。然而,正如之前所述,语言是一个人类驱动的复杂适应系统,这种复杂性不仅体现在系统科学的层面,也体现在许多其他方面。
因此,我们提倡采用定量方法研究文本特征规律,并不是为了取代传统的质性研究,而是为了形成优势互补。只有这样,我们才能更深入地探索和发现人类语言的各种隐秘规律,使语言学早日走出象牙塔,更好地服务于人类和社会。
陈蕊娜是一个纯外语背景的研究者,在跟随我攻读博士学位之前,她对计量语言学几乎一无所知。然而,经过几年的努力,她不仅顺利完成了学业,还撰写了一篇出色的博士论文。她根据“汉英不同语体主题集中度的差异”这一章提炼出的论文“Thematic Concentration as aDiscriminating Feature of Text Types”,发表在国际计量语言学的权威期刊Journal of Quantitative Linguistics上,并荣获了贵州省第十三次哲学社会科学优秀成果一等奖。从这个意义上说,蕊娜完美诠释了“进来,就有希望!”这句话。
总体而言,陈蕊娜的这本书通过句法、词汇和语义层面对汉英语体差异的比较研究,为传统的语体定性研究方法提供了有益的补充。本书的出版,对于计量语言学学习者、应用语言学研究者以及其他相关领域的学者具有一定的理论意义和参考价值。
我很高兴有机会向大家推荐这本书,并相信蕊娜在未来会取得更多更有意义的成果。
刘海涛
浙江大学博士生导师
2024年10月8日