您所在位置: 网站首页 / 语料库与语料库建设教学幻灯片.doc / 文档详情
语料库与语料库建设教学幻灯片.doc 立即下载
2024-12-03
约6.8千字
约7页
0
71KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

语料库与语料库建设教学幻灯片.doc

语料库与语料库建设教学幻灯片.doc

预览

免费试读已结束,剩余 2 页请下载文档后查看

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

1
语料库和语料库建设
一、什么叫语料库
1、定义
语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的
语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins&Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。
语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。
语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。
二、语料库产生的背景及发展历史
对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期,
在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(SurveyofEnglishUsage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》(AGrammarofContemporaryEnglish)和《英语语法大全》(AComprehensiveGrammaroftheEnglishLanguage)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。
20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并不能确切的反映语言能力。2、语料的不充分性。他们认为自然语言句子的数量是无限的,语料库的规模即使再大也无法穷尽所有可能的句子,因此“任何自然语料都是偏颇的”。在此后的长达20年的时间里理性主义在欧美一直占有统治地位,语料库研究一度陷入低谷。但在此期间仍有些语言学家凭着非凡的勇气继续不懈地从事语料库研究。最早的计算机语料库布朗语料库(BrownCorpus),1961年由纳尔逊(F.Nelson)和库切拉(H.Kucera)建立。布朗语料库容量为100万词,收集了60年代有代表性的美国英语语料,语料选自各种出版物,建库时照顾到了各种文体的平衡,严格按照随机原则抽样,是一个标准语料库。布朗语料库是第一个现代语料库,它对于后来的语料库的发展具有重要的影响。1975年,JanSvartvik开始创建伦敦——隆德语料库(London—LundCorpus),这两个语料库堪称现代语料库的开山鼻祖。
20世纪80年代以来,在相对沉寂了近20年之后,语料库研究重新萌发了生机,迅速得到发展。
语料库研究的迅速发展基于以下三个方面的原因:首先,具有语言学基础。在英国语言学研究中,实证主义从弗斯到韩礼德再到辛克莱一直被传承了下来,实证主义的基石是对可观察
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

语料库与语料库建设教学幻灯片

文档大小:71KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用