语言学研究怎么保证语料的覆盖面

如题所述

语言学研究语料的覆盖面有以下几个方面:语料库及语料库语言学的概念,探讨了语料库在语言研究方面的作用,提出大范围培训语言教师和语言学习者掌握语料库资源的使用方法是有效利用随着计算机科学的迅猛发展,人类对语言学的研究也不断深入拓展,语料库语言学就是在这一背景下茁壮成长起来的。自20世纪80年代以来,国内外越来越多的学者致力于语料库的建设和研究,语料库语言学借助计算机,对语言进行存储、标注、并在此基础上描述语言的运用实例。其研究手段与“语言学是一种描写式科学”的观点不谋而合,由此而开创了语言学研究的新时期[1]。本文将讨论语料库及语料库语言学的概念、发展及其在语言研究中的作用。

一、语料库及语料库语言学的概念语料库亦称语库或素材,是存放语言材料的仓库。语料库是收集并科学地组织起来的语言材料数据库,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的,这些未经加工的材料是语言统计的基础,是分析和研究语言规律的第一手资料[2~3]。而语料库语言学就是在文本语料的基础上进行语言研究的一门学科。对于语料库语言学这一术语,不同的研究者持有不同的观

点。有人认为语料库语言学是一种理论构架,是一门与语言学的其他分支并驾齐驱的新学科;另外一些研究者认为语料库语言学并不是一个独立的学科领域,只是为语言研究提供了一种方法论基础,同时它又给语言学的研究提供了新的哲学思路。针对这一问题,我国研究者在总结国外著名语言学专家Halliday ,Leech ,Tognini -Bonelli 等人研究成果的基础上指出,只有语料库

中的语言材料和语言事实被语言学家用来对现行语言学理论进行批判,提出新观点或新理论时,语料库语言学才是一个新学科的名称[3~6]。而通常情况下,语料库是运用真实的语言材料对语言的某一方面进行研究的方法和手段。借助于语料库语言学所提供的方法,语言学家既可以验证已有的语言规则,也可以基于语料库提供的数据描写演变中的语法、语用规则。过去,语料库中的材料由人工收集和整理,通常用来计算词汇使用的频率,以此作为编写教材和字典的依据;现在,运用计算机建设语料库的效率和规模都有了很大提高。语料库是由从有代表性的语言材料中随机抽



09



样输入计算机并可由计算机处理的大量文本组成的。语料库收入的文本越多,其所覆盖的面越宽,则语料库提供的信息就越可靠。语料库的建设包括原始材料的收集工作,构成原始语料库,然后对语料进行标注,生成标注语料库。我们可以应用语料分析软件,对标注的语料库进行各种不同的统计分析,从而揭示目标语言的各种特征。

二、语料库语言学在语言研究中的作用

语料库语言学的发展对语言的深入研究起到了积极的促进作用,一方面,影响了语言学习理念和语言学习方法;另一方面,为某些语言学习理念提供了实施依据。本文仅探讨语料库影响语言研究的三个方面。

(一)语言是描写式的还是规定式的

对于语言究竟是描写式的还是规定式的,不同时期的侧重点不同。18世纪,主要的欧洲语言都是通过规定式的方法进行研究的,语言学家总是努力为正确运用语言制定各种规则,它强调语言的正确性和拉丁语标准模式的应用。因此,语法是语言研究和语言学习的重点,一些用法被规定后需要不断重复记忆,“因为这是黑或白,正确或错误的问题”[7]。在这一观点影响下,语言教学采用的是以教师为中心的语法翻译法。语言教学的方法包括对大量定义、规则的解释和记忆。书面语往往受到更多的关注。与此相对应的观点是语言是描写式的科学,在此观点的引导下,语言学家尽力去发现和纪录某一语言社团实际运用的语言,而不用其他规则来修正该社团的语言。而语料库语言学为这一观点提供了依据和可实施性。语言的实际运用规则可以通过对语料库中大量实例的研究分析而得出结论。这一观点在语言学习中的体现是更加注重学习者的个人需求,将以教师为中心的填鸭式教学转变为以学生为中心的知识探索型教学,在教学活动中,教师不再一味地灌输语言规则和语言知识,而是要求学习者可以通过搜索语料库,接触真实自然的语言,观察语言现象,分析和归纳语言规律,做出假设,并在语言运用中不断检验和修正自己的假设。教师也由传统的知识传授者转变为与学生平等的知识探索者,语言研究者。诚然,片面强调语言是规定式或描写式似乎都不够客观。以语言的规定式为出发点,可能会使语言研究者和学习者将复杂的语言简单化,能够宏观把握语言的基本框架,减少语言研究和学习的难度。对语言学习者而言,学习动机以及学习兴趣可能不太高,学习方法比较刻板。从语言的描写式观点出发,会令语言研究者和学习者置身于丰富真实的语言,通过观察、分析和归纳语言规则达到研究和掌握语言的目的,在这一过程中,研究者和学习者是主动的,因此,动机和兴趣会极大地提升。

(二)语言和言语以及语言能力和语言运用

索绪尔将语言区分为语言和言语。语言是社会系统中各个成员使用的语法系统,是在一群人中的大脑中的潜力,具有社会性,是同质的、抽象的语言形式;而言语是社团中每一个个体所产出的语言,是异质的、五花八门的语言[5]。由于对语言本质的不同认识以及对语言和言语的划分,产生了结构主义和功能主义两大派别,他们对语言的研究重点也不尽相同。结构主义研究的语言是凌驾于个人和社会之上的一个抽象的符号系统;功能主义则强调语言的使用功能,调查实际发生的语言现象,并试图从中找出共性的结构。乔姆斯基在索绪尔研究的基础上提出了语言能力和语言运用两个概念。乔姆斯基认为语言使用者对语言的规则有着本能的把握,语言能力是个人能根据有限规则生成无限言语的,根植于大脑中的语言知识。语言学家研究的重点是能生成无限言语的有限规则。而语言运用这一概念与索绪尔定义的言语概念十分相似,是指在具体场景中语言的真实使用。语料库语言学为功能主义的进一步发展提供了更为科学的研究方法,它的研究重点在言语和语言运用方面,通过对言语和语言运用的深入研究,可以验证已有的规定性的语言规则并试图概括出新的语言规则。语料库对言语和语言运用的研究体现在语言研究的各个方面,如对语域的研究;对本族语者的话语进行分析,归纳出其典型结构,用于口语教材编撰;统计高频词,运用于教学大纲的设计;对外语学习者语言运用进行分析比较,探求更加有效的学习策略等。而对语言和语言能力的研究则落实到了语言习得方面,即以潜意识形式存在于人的大脑中的规则是何时形成的,怎样形成的。因此,语料库研究的是具体语言,而对语言和语言能力的研究更侧重抽象语言的研究。我们不能盲目地肯定或否定某一种研究方法,因为语言可以从多个角度进行研究,不同的研究角度可以相互补充,服务不同的目的,满足不同的需要。但语料库的出现为语言研究提供了



1

9



新的视角,使语言研究更加客观,真实。

(三)组合关系和聚合关系

索绪尔是结构主义学派的创始人,他认为语言是一个符号系统,因此语言学家必须努力从一个符号与其他符号的关系中发现语言的价值,了解符号在系统中的地位。索绪尔提出了两种主要语言关系类型:组合关系和聚合关系。组合关系指一个单位和同一序列中的其他单位之间的关系,或者说是在现场中的所有成分之间的关系。而聚合关系也称为联想关系,是指在结构的某个特殊位置上彼此可以相互替换的成分之间的关系,或者说是在现场的成分与不在现场的成分之间的关系。处于聚合关系中的词语具有共同的句法特征,但在语义上不能替换[7]。大型语料库的出现给两种关系的研究提供了极大的空间,对组合关系的研究尤其活跃。因为计算机有能力搜索一个特定的词,研究与该词具有共现关系的所有词。这也就是通常所研究的搭配关系。韩礼德(1976)将搭配界定为“体现词项在某种显著的临近范围内组合关系的线性共现”。该定义明确无疑地将搭配界定为组合关系。在搭配关系的研究方面,琼斯和辛克莱(Jo nes&Sinclair)是第一个研究语料库的词语搭配的研究者。20世纪80年代至今,基于语料库或语料库驱动的词语搭配研究广泛展开,使搭配研究发生了巨大变化。研究效度提高,量化研究的比重增大,搭配力等都具有了可观察、可操作性。自动化程度愈来愈高,研究过程中的人为干扰因素大大降低。Daniel Krieger在他的论文中用“any”的用法研究肯定了语料库语言学在组合关系研究中的客观性[9]。根据传统语法规则,“any”通常用于否定句和疑问句中,但Mindt通过语料分析统计出“any”在肯定句中出现的频率是50%,否定句中出现的频率是40%,而疑问句仅占10%。因此,语料库为组合关系的研究提供了极大便利。对于聚合关系的研究更多体现在对某些近义词的研究方面。如崔淑珍在其文章中指出Rundell利用语料库对“start”和“begin”这一组近义词做了比较研究[10]。这些研究成果为利用语料库对组合关系和聚合关系的研究提供了样板,语言研究者可以利用语料库做很多类似的研究。

三、目前语料库研究存在的问题

语料库对语言学研究的积极作用是毋庸置疑的,但目前存在的最大问题是只有一小部分语言研究专家掌握语料库研究方法,绝大多数语言教师和语言学习者不了解语料库,不会使用语料库,更不懂如何运用语料库资源进行科学研究。而关于语料库使用问题的文章又很少。因此,大范围地培训语言教师和语言学习者学会使用语料库资源会更加有效地发挥语料库的作用,极大地推动语言研究和语言学习的步伐。

语料库为语言研究提供了新的思路和方法,但语料库资源的利用率需要大幅提高,只有当更多的与语言接触最密切的语言教师和语言学习者掌握语料库时,语料库才能真正推动语言研究和语言学习。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2022-12-26
这个问题归根到底体现了生成语言学研究中的一个矛盾:一方面,生成句法对研究对象是仅存于每个人的脑中的i-language,而不是存在于社会中的e-language语言现象;但同时,我们的研究手段不允许我们系统可靠地研究某一个具体的人的语言能力,要想得到可靠的对语言现象的归纳总结就需要分析大量的语料、进行大规模的实验研究。
对于一些很看重“理论纯洁性”的生成语言学家,一旦语言学的研究对象上升到一个人以上,就已经不再是对i-language的研究了。持这类观点的很多人都是做microvariation研究的,他们认为这种研究忽略了人与人之间i-language的差异,得到的结论也都是逻辑上不可靠的。下面这篇文章 (Den Dikken et al.) 就是这种观点的代表:
gc.cuny.edu/CUNY_GC/med
这种观点看似极端,但其实也可以理解。如果不研究清楚人与人之间i-language的差异,而是直接进行大数据语料分析,很可能观察到的现象是很多个人差异叠加在一起的假象。例如,对于某种句法结构,100个人里有50个人完全接受,50个完全不接受,不进行个体研究而是把数据叠加在一起分析就会得到 “这种句法结构有中等的可接受度”的错误结论。
但是,如果只依赖于语言学家自己一个人的语感判断,或者在实验研究中只研究一个被试,得到的数据也通常是信噪比很低,很不可靠的。所以很多时候我们还是需要大规模的实验研究,或者用语料库进行分析。只不过这类研究都一定要建立在个体差异可以忽略不计的前提上,不然很可能会得到错误的结论。
相似回答