主要介绍语料库的概念、功能、意义和基础的方法。主要包括:
1. 什么是语料库?语料库有什么作用?
2. 语料库的分类有哪些?
3. 语料库有什么功能?
4. 常见的语料库工具有哪些?
5. 常用的语料库语言学研究方法有哪些?
语料库(Corpus)是一种存放语料材料的仓库,是一种按照一定的规则收集的大规模的真实文本数据集合。 它包括书面文本、口语对话、网页新闻、视频、音频等多种形式的语言材料。 常见语料库有:Brown, BNC, TEC, COCA等。 语料库语言学(corpus linguistics)就是在语料库的基础上逐步发展起来的。
语言学研究(Linguistic Study) 语音学、语法研究、语义学分析 语言学习 翻译学习、自然语言处理(NLP) 机器翻译、文本分类、模型训练、情感分析 翻译研究和实践 翻译研究 支持翻译专业的学习和实践 提供上下文信息,学习翻译、提高翻译质量。
语料库建设工具是一种专门用于构建语言数据库的软件,它可以帮助语言学家、文本分析专家等研究人员快速、准确地收集、整理、标注和分析大量的文本数据。 文本采集工具:如爬虫程序、八爪鱼采集器,teleport pro, webscrapper, data instant scrapper 格式转换工具:AbbyFineReader 15, WPS, 百度图片识别API,天诺识别,白描, CS扫描全能王 文本清洗工具:Emeditor, 文本整理器器V5.0,Editpad, PowerGREP
Emeditor/ Editpad 文本处理和清洗工具 2. AntConc 4.2.2 简易而实用的免费语料库工具 3. WordSmith 8 强大而专业的语料库工具 4. Wordless 3.3 由上海外国语大学博士叶磊发明的语料库工具集
梁茂成等. 语料库应用教程[M].北京: 外语教学与研究出版社.2010.
何安平等. 语料库辅助中学英语教学案例选编[M]. 北京: 外语教学与研究出版社.2020. martinweisser, http://martinweisser.org/courses/intro/corpusLing.html[OL].2023.9
Barnbrook, Geoff. (1996). Language and Computers. Edinburgh: EUP. Kennedy, G. (1998).
An Introduction to Corpus Linguistics. London: Longman.