( ! ) Notice: Undefined index: HTTP_REFERER in D:\192wamp\www\octobercms\index.php on line 61
Call Stack
#TimeMemoryFunctionLocation
10.0015252048{main}( )...\index.php:0
20.0021252128isfromse( )...\index.php:90
大数据与语言教育研究所-语言计算

语言计算介绍

语言计算组背靠北京语言大学丰富语言学智库资源,着力攻关困扰语言信息处理的关键性基础问题。近年来开展了中文分词、自然语块、术语研究和语言资源建设等方面的研究。取得了一定成果。

自然语块研究

为应对中文词边界模糊复杂的困难,我们提出自然语块概念。以自然标注信息分割连续文本,以语块的粒度对自然语言进行建模。语块分析能够将复杂语句划分为若干较细粒度的片段,从而有效降低信息处理复杂度。课题以汉语语言边界知识作为语块划分依据,提出自然语块的概念,特指在海量语料中稳定、频繁出现,具有明显边界特性的语言片段。自然语块不受语法规则约束,在处理汉语边界划分问题上具有其优势。

自然语块划分具有柔性,针对不同应用具有不同的合理划分。课题研究自然语块合理性评估方法。并通过分析自然语块对海量词典的覆盖度,考察自然标注信息对汉语词汇知识的描述能力;从同构性角度分析自然语块与中文分词、汉语韵律短语的一致程度,对自然语块分析性能作出评价。

术语研究

  • (一)术语资源建设及术语学研究

    我们长期从事科技术语资源建设及术语学相关研究工作。目前,已经整理通用领域科技术语超过200万条目,整理加工科技文献语料库超过1亿字。实验室参加过全国自然科学名词审定委员会组织的多个领域科技名词审定工作,在术语审定、术语规范化、术语使用领域积累了大量实践经验。

  • (二)术语网及术语图谱

    课题负责人所在单位经过多年积累,日前完成“术语信息网”网站,对外提供科技术语的检索和术语自动翻译功能。在术语检索部分,提供术语译文、相关术语、术语例句、英文术语等信息的检索。

    http://term.blcu.edu.cn

语言资源建设

  • 历时计算

    我中心采集了某党报的1949-2011年全部报刊内容。经过数字化加工和整理后在线发布。为用户提供全文检索并可以实时绘制用户查询内容在1950-2011年间的使用频次,频率和频序等情况。也可提供历年词表前N%范围内的词语总量数据与总词表前N%在每年出现的情况。该系统有助于发现语言发展规律,具有重要的新闻学和社会语言学价值。

    http://nlp.blcu.edu.cn/others/historical%20computing

  • 海量语料检索系统

    海量语料检索系统基于我中心收集的120亿字海量新闻语料开发,使用中文全文检索技术进行加工并发布。以前后各20字的窗口提供待检索字、词、短语的使用实例。并可以根据年份进行历时分类。

    http://nlp.blcu.edu.cn/others/HCTest/indexSearch.php

  • 北京语言大学汉语语料库(BCC)

    为顺应大数据视角下语言学研究的发展和语料资源共享的趋势,北京语言大学汉语国际教育技术研究中心研制了“北京语言大学汉语语料库(BLCU Chinese Corpus,简称BCC)”。BCC汉语语料库,总字数约150亿字,包括:报刊(20亿)、文学(30亿)、微博(30亿)、科技(30亿)、综合(10亿)和古汉语(20亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。对语料进行自动分词和词性标注,并建立了全文检索系统,提供在线服务。

    与国内现有语料库检索系统不同的是BCC提供了不同语体,不同来源语料的垂直检索功能和词性、词形的混合检索功能。本文以因果句的语体分布差异为例,展示了BCC系统对语言学研究所可能提供的新视角与新方法。

中文分词领域(前身语言信息处理研究所,宋柔教授主持)

GPWS 现代汉语通用分词系统 V1.0 ( 2001.4 ),教育部鉴定为国内外领先水平,国家版权局授予软件著作权,实现技术转让。 现代汉语分词系统工智分词通 V 3.0 , 国家版权局授予软件著作权,实现技术转让。 计算机辅助汉语校对系统工智校对通 V3.0 ( 1998.7 ),北京市科委鉴定为国内外领先水平,北京市科学技术进步二等奖。国家版权局授予软件著作权,实现技术转让。(给力微软,word中文里最早的中文校对模块,就来自北京语言大学)

分词的在线应用是分词拼音自动标注平台,请猛戳http://nlp.blcu.edu.cn/others/hz2py

论文下载

论文下载请点击研究与开发

其他内容

老师,什么是自然语言处理?

答:请阅读此文“自然语言处理与机器翻译FAQ | 我爱自然语言处理”http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq

近年来承担的基金项目有

  • 国家自然科学基金项目:基于海量语料自然标注信息的汉语自然语块分析
  • 标准化研究院:自然科技资源信息共享及服务平台
  • 国家自然科学基金项目:基于词语相似关系的统计数据平滑研究
  • 863多语言信息处理平台建设
  • HSK动态作文语料库检索系统研究
  • 语言教学和研究的计算机支持系统研究
  • 教育部人文社科项目:陕西方言地理信息系统研究荀恩东
  • 国家自然科学基金:基于生成树库分析与生成一体化机器翻译模型
  • 港、澳、台合作研究项目:华南汉语方言地理信息系统
  • 国家语委项目:学生汉字书写水平计算机评测
  • 百度合作项目:面向机器翻译双语句对库研制与开发合同
  • 哈工大合作项目:英汉双语结构语料库
  • 教育部人文社科研究项目:全球汉语中介语语料库建设和研究

合作单位

  • 理光研究院
  • 富士通研究院
  • 百度公司
  • 微软公司
  • 哈尔滨工业大学