语料库的双语或多语

如题所述

第1个回答  2016-05-14

大致可分为三类:
一是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993];
二是研究双语语料的各种应用,如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984],双语词典编纂[Klavans and Tzoukermann 1990]技术中,双语语料库都发挥着十分重要的作用;
三是双语语料库的设计、采集、编码和管理问题。比较著名的语料库编码方案有TEI 文本编码标准以及CES标准,两者均基于SGML标记语言研究
指不只有一种语言的语料库。分为平行语料库和对照语料库两种。平行语料库指库中的两种或多种文本互相是对方的译文,因此可以用于翻译或者机器翻译研究;对照语料库中两种或多种语言的文本不构成对译关系,只是领域相同,主题相近。通常只能用于两种或多种语言的对比。

就前两类研究来说,中国国内做了较多的跟踪研究工作,而对于第三类研究,即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究,探索工作似乎做的相对较少。
目前国内最大的语料交换平台是瓦特开元。

相似回答