内容摘要:语言是人际间一种基本交流方式,既用于思想交流,也用于情感表达。由于语言社会具有自然和人文双重属性,提倡质性研究和量化研究并存,有“质”有“量”,是此类研究的最佳选择。
关键词:语言;研究;因果关系;语言社会;时态
作者简介:
语言是人际间一种基本交流方式,既用于思想交流,也用于情感表达。受气候、地理等自然因素的影响,世界上的语言呈多样性的分布;但随着经济发展,政治稳定,这种多样性又逐步趋向统一,成为各族群身份、地位、边界的重要标志。当今社会,语言的作用越发突显,已经渗透到社会生产生活的各个方面。由于语言社会具有自然和人文双重属性,提倡质性研究和量化研究并存,有“质”有“量”,是此类研究的最佳选择。
近年来,随着计量技术的发展以及大规模数据库的应用,人文社科领域科研工作者开始有能力驾驭海量信息,能够较为简便、快速地从诸多现象中寻找相关关系。相关是统计学的概念,指的是用量化的方式来表达两个现象或变量之间的关联变化程度。比如,运动员的身材越高,体重通常越大;语言的词汇形式越长,句子可能越短。这分别是正相关和负相关的例子。相关有利于因果关系的发现,因果关系也可能被量化为相关,但因果关系不一定必然存在于可观测的相关性分析中。语言社会领域的相关性研究不仅关乎该领域的未来导向,还可能对公共政策产生影响。其中一些潜在的问题不容忽视。
2011年,耶鲁大学教授陈凯世(M.K. Chen)通过几个数据库的统计,发现语法规则和经济行为具有相关性。他认为有“强将来时”表达的语言(如英语),对“未来”的设定较为遥远,其国民储蓄率和养老储备率相对较低;反之,“弱将来时”的语言(如德语),把现在和将来融为一体,其国民储蓄率和养老储备率则相对较高。这种从相关到因果的解释似是而非,却引发媒体的较大关注,很快有人宣称“要解决全球债务危机,请放弃英语、希腊语和意大利语,采用德语、芬兰语和韩语”(Fellman 2012)。由于普通民众缺乏必要的技术背景,很容易相信此类研究的结论,这就可能导致一些意料不到的后果(类似还有“巧克力消费量与诺贝尔奖获得者数量相关”“潮湿气候和复杂声调相关”)。
事实上,两个因素是否相关或具有因果关系是一个复杂的问题。借助统计技术,我们或许不难发现某种相关,但要随之做出因果推断则需慎重,因为这需要一定的理论支持和实验数据,有时甚至是跨越几代人的实验数据。大数据技术之所以不是万能的,就在于它代替不了各个领域的基础性研究,也解释不了相关背后的因果关系。我们不妨从以下几个方面来看待:
每一种现象都有与之关联的若干现象,这种关联的确立本质上取决于研究者的认识框架和处理问题的层级。比如,语言学研究可以优先选择字、词、形态作为基本分析单位,也可以选择构式、句子、语篇等;不同层级的处理方式,不仅体现研究者间认识框架的差异,也会导向不同的研究结论。把语言分为“强将来时”和“弱将来时”是一种质性认识,也代表研究者处理问题的层级和水平。问题在于,世界语言并非都拥有“时态”,“强弱”也是一种较难把握的分类标准,这就给此类研究带来不少争议。就汉语而言,我们可以说“明天下雨”,也可以说“明天将要下雨”,“将要”就是汉语表达“将来”义的词汇手段,但不是“时态”。
大数据的“大”并非万能灵药,数据的性质和成分非常关键。以文本大数据为例,这类数据本质上是种离线数据,并不能完全反映语言的实际使用或说话人的语用、心理或认知过程。比如,汉语的“呵呵”“好冷”“三更灯火五更鸡”等都存在超越字面意义的多个含义,对母语者来说不难理解,但却很难被机器识别或有效计量。







