语料库建设中影响其代表性的因素Factors contributing to corpus representativeness in corpus building
刘兴兵
摘要(Abstract):
影响语料库代表性的主要因素有:语料库总体的定义、语篇的分类和层次、语料库的规模。建立具有代表性的语料库,首先必须从时间、地域、社会语言学、类型等方面对语言总体进行明确地限定;设计语篇的抽样层次必须对语料进行多维、全面地分类,并确定各层次和部分的合理比例,决定语料库的总体规模应该考虑建库的目的以及财力和技术的限制,确定语篇类型的大小和单个语篇的长度,主要依据所研究的语言现象的常见程度。
关键词(KeyWords): 语料库;语料库的创建;代表性;影响因素
基金项目(Foundation):
作者(Author): 刘兴兵
参考文献(References):
- [1] Barnbrook G. Language and Computers: A Practical Introduction to the Computer Analysis of Language[M]. Edinburgh: Edinburgh University Press, 1996.
- [2] 桂诗春,宁春岩.语言学方法论[M].北京:外语教学与研究出版社。1997.
- [3] Sinclair J. Corpus, Concordance, Collocation [M]. Oxford & New York: Oxford University Press, 1991.
- [4] Biber D. Representativeness in Corpus Design [J]. Literary and Linguistic Computing, 1993, (4) .
- [5] Kennedy G. An Introduction to Corpus Linguistics [M]. New York: Longman, 1998.