2020.4.4修改:
我都要快便乘猪场吹了,有道翻译是真的强,强推的PDF翻译功能。顶会论文一般都是10页,前4页方法,4-8页试验,9-10页总结+参考。免费pdf翻译一次4页,正好可以用pdf编辑软件给论文拆开,还不影响阅读连贯性。我现在abstract,introduce都是直接丢进有道pdf翻译看,等到了method和model部分,开始列公式了,再去看原文,效率极高。
2020.4.13添加:最近有些人私信我问为什么有道翻译好使,那就大概说一下原理。
决定一个翻译软件精度的因素有两个,一个是翻译模型的好坏,一个是语料的丰富程度。模型是计算机领域的称呼,通俗的讲就是方法,而语料库则是训练模型的数据。类比一下,模型就是做数学题时的解题技巧,技巧越高超做题能力自然越强。而语料库就是习题集,空有技巧从不练习,也不可能培养出解题高手。
先说模型,现在算法理论的发展其实是远超实际应用的,而且优秀的模型大多公开发表,所以在顶尖技术上倒是不太存在技术垄断,大多还是数据垄断(语料库)。语言翻译多是使用编解码架构的时序模型,这句话有两个关键词,一个是编解码,一个是时序。编解码的意思就是模型会先将原始输入的句子编码成一串数字,再解码成目标语言。各国语言的遣词造句、语法多种多样,所以世上唯有一种东西在表意上是统一的,就是数字。从原始语言编码成数字的过程,其实就是将原始语句的含义,用一串数字表示出来。而解码过程,就是将这一串包含实际意义数字,解码为目标语言。这样来说,一个理论上完美的模型,对于任何不同语言,但相同含义的句子,都应该生成完全一样的编码,而一串相同的编码,翻译成各国语言后应该体现出完全相同的含义。时序则是指编解码过程中遵循时序原则,就是考虑时间顺序。放在翻译中,就是考虑单词或字的出现时间。对于时序模型,输入“好吃”和“吃好”应该对应不同的编码结果,而对于非时序模型,则对应相同的结果。
再说语料,语料库库要丰富,丰富不单止要多,而且要有质量。就像做数学题不仅要多做,还要做好题,1+1=2做的再多也提高不了考试分数。在语料库这方面,谷歌这个外来的和尚肯定是比不过本土的百度网易的。同样的模型为什么使用结果也有差异?为什么北京话粤语可以,山东话就不行?这就是语料库的问题。如果语料库有“昨天晚饭真好吃”和“昨儿晚饭真好吃”两句话,并且被标注为了相同的含义,那模型就应该理解“昨天”和“昨儿”虽然不是一个词,但是意思相近。上面说了模型的理论其实远超实际应用,优秀的模型有很多,还是开源的,所以实际决定各大著名翻译软件的还是语料库的好坏。在这个大数据时代,数据才是最珍贵的资源。比如谷歌百度的搜索历史数据,淘宝京东的商品数据、购买数据,豆瓣的评论数据,这些才是可遇而不可求的东西。没准网易翻译的语料就是从网易音乐的评论、歌词,网易游戏的文本语音、搜索记录等等取到收集来的。作为一个本地公司,这种收集力必然比谷歌这种外国公司强上不少。
当然目前机器学习中还有几种流派,比如无监督学习和强化学习,虽然概念完全不同,但是都不太依赖于数据。强化学习典型如AlphaGo,类似于周伯通的左右互搏,不需要对手和别人的功法,自己和自己打架练习武功,更学术一点的说法叫做“从与环境的交互中学习行为规律”。而无监督学习则更像是最大化差异,比如你不告诉我抽一巴掌和摸摸头分别是什么含义,但我依旧能分辨出来摸摸头很舒服,而抽一巴掌很难受。这类算法虽然对数据依赖小,但是缺点是大部分只能完成比较简单、逻辑性强的任务。因为虽然不需要数据,但是模型需要输入规则,而人类对客观世界的规则还知之甚少。体现在语言上,英语是一种形合的语言可能稍微好点,中文是一种意合的语言,中文并不是通过结构,而是通过不同字的组合来表现不同含义,是无法用几句规则就总结出来的。
评论中有人说不应该拿出地方话让软件翻译,而应该用标准汉语,因为不是每一个英文单词都对应中文词语。这就是典型的对翻译模型的误解,认为机器翻译是一种单词一一对应的东西,但看过我上面解释的应该就明白,翻译模型并不是针对字,而是针对含义,并不是因为输入了“好”这个字输出就应该包含“good”,而是我输入的句子有“好”这个含义,才会输出good。这也体现出编解码模型的优势,确实中英文不是每个词都有对应词,但是中英文没有相互之间转换不了的含义,目前还没有听说有什么句子含义中文表达不了或者英文表达不了的案例。一个意思一个字表达不了就用一句话,一句话表达不了就用一篇文章。
评论还有人说我是偷知乎的内容,确实,百度知道这样“低端”的地方不配这样一次一次更新回答(!´Д`)
2019.9.22修改,
这段时间又读了上百篇顶会,更新一下感受,工科学术英译汉有道很强。我是深度学习方向的,这个方向的顶会论文很多都是亚裔在发,十篇里面6篇中国人的2篇外籍华裔1篇亚裔1篇白人。偶尔有一些外籍华裔和亚裔,使用一些很晦涩的语法结构。这个时候一般是“谷歌翻译:翻译完更难懂了。百度翻译:翻译完大概知道了,但是不得要领。有道翻译:原来是这样”。不知道是不是加入了递归网络或者马尔科夫链这种东西,有道在翻译工科论文时语序翻译相当准确。
口语英译汉百度不错。
汉译英百度有道差不多。
谷歌翻译现在是真的真的垃圾。
=====下面是原答案:=====
请上面几位盲猜谷歌的云用户原地爆炸。
先给结论:
工科领域,学术性强的中译英,英译中,请选择谷歌。
日常对话中译英选择百度,英译中百度谷歌随意。
原因:
在学术翻译,三个翻译工具翻译的都不咋地,语法混乱,遇到从句嵌套和倒装就更拙荆见肘。但是相比较而言,谷歌翻译能把专有名词翻译的比较精准,英译中翻译论文谷歌基本可以看懂,百度有道有些专有名词翻译的很尴尬。所以矬子里拔将军,选择谷歌。
在日常对话翻译中,谷歌对商业对话或者其他比较正式的口语的翻译差强人意,但是对非常口语化的表达,翻译极其差劲,意思表达都不全,相比较而言百度虽然语法可能不准确,但是意思表示的比较完全。比如“昨儿晚饭咋样”,谷歌的结果是“Yesterday'sdinner”,百度的结果是“Howwasdinnerlastnight?”。百度在正式的口语和口语化的口语中译英的效果相对精确很多,用词算不上地道,但起码语法错误比谷歌中译英好多了。我想这应该归功于百度对中文的自然语言语义分析做的比谷歌好。