语言大数据——北语汉语语料库隆重上线!

为顺应大数据视角下语言学研究的发展和语料资源共享的趋势,北京语言大学汉语国际教育技术研究中心研制的《北京语言大学现代汉语语料库(BLCU Chinese Corpus,简称BCC)》正式上线。汉语国际教育技术研究中心经过多年的语料积累和技术积累,对100亿字的报刊、现代文学和微博语料进行了自动分词和词性标注,并建立了全文检索系统,现上线提供服务。BCC系统将为汉语研究、社会学研究和语言教学提供第一手的语言材料和数据统计,为进一步推进我校的语言信息化建设进程提供动力。

该系统经过一段时间的内部测试后,于9月3日正式版上线。地址:http://bcc.blcu.edu.cn/

BCC系统不仅仅支持100亿字语料上任意字符串的全文检索,还支持北大词性标注体系下的词性串和句法检索。与此同时还根据语料类型开辟了垂直搜索功能。这在国内还属首创。

BCC系统也支持长距离依存的语言模式检索。方便对高度泛化和抽象的语法现象进行实证研究。在检索结果中,用户可以对已有结果进行筛选,排除或保留一部分检索结果,使用非常方便。

本着数据开放的精神,除了显示检索语料外,还可以提供1000条样例下载,与全局的语料样例统计。用户还可以方便查看原始语料和标注结果。

据汉语国际教育技术研究中心荀恩东教授介绍,BCC系统的语料规模将我国现有开放语料库检索系统(教育部语用所1945万字;北大CCL语料库3亿字)的规模提升了两个量级,在汉语言学界是十分领先的。BCC系统检索模式的多样性和对用户友好的界面设计也符合当今潮流。汉语国际教育技术研究中心的BCC系统是顺应语言学科大数据潮流的典范成果,是该机构多年来注意资源积累和技术加工的劳动结晶。BCC必将为北京语言大学和全球现代汉语的研究提供重要的工具支持与数据支撑。