自然语言处理——4. 语料库与语言知识库

如题所述

第1个回答  2022-06-12
语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等

(1)计算机的迅速发展;
(2)转换生成语言学派对语料库语言学的批判不都正确(如指责计算机分析语料是伪技术),有的是片面的甚至是错误的(如对语料数据价值的否定)。

两种含义:一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。

另一种平行语料库是指在两种或多种语言之间的平行采样和加工,例如,机器翻译中的双语对齐语料库

•加拿大议会会议录(Canadian Hansards) http://www.isi.edu/natural-language/download/hansard/
•克姆尼茨英-德翻译语料库(Chemnitz E-G Translation Corpus) http://www.tu-chemnitz.de/phil/english/chairs/linguist/real/independent/transcorpus/index.htm
•英语-挪威语平行语料库(ENPC) https://www.hf.uio.no/ilos/english/services/omc/enpc/
•葡-英双向平行语料库(Compara) http://www.linguateca.pt/COMPARA/Welcome.html
•香港立法委员会会议记录(Hong Kong Hansards) http://catalog.ldc.upenn.edu/LDC2000T50
•香港新闻(Hong Kong News)
•香港法律(Hong Kong Laws)

历时8年,两个阶段:1996年至2000年为第一阶段,主要完成了形态和句法分析层的标注工作,形成了PDT 1.0版;2000年至2004年为第二阶段,主要进行树库的深层语法层(tectogrammaticallayer) 的信息标注,形成PDT 2.0 版。

http://www.chineseldc.org (192. 168. 88. 2)
相似回答