DeepL:一家在翻译领域超越谷歌和微软的德国公司

BackendDev
• 阅读 7058

技术编辑:鸣飞 发自北京
SegmentFault 思否报道丨公众号:SegmentFault


DeepL:一家在翻译领域超越谷歌和微软的德国公司

科技巨头谷歌、微软和Facebook都在将机器学习的经验教训应用到翻译领域,但一家名为DeepL的小公司却超越了他们,提高了这个领域的标准。它的翻译工具的速度不亚于那些规模庞大的竞争对手,但比我们尝试过的任何一款翻译工具都要准确和细致。

经过几次试验,我们都认为DeepL的翻译普遍优于Google Translate和Bing的翻译。Google Translate经常会去找一个非常直白的翻译,错过了一些细微的差别和成语(或者是把这些成语翻译成错了),而DeepL经常提供一个更自然的翻译,更接近于一个训练有素的翻译者的翻译。

DeepL从Linguee演化而来

DeepL诞生于同样优秀的Linguee,这是一款已经存在多年的翻译工具,虽然很受欢迎,但一直没有达到谷歌翻译的水平--毕竟后者在品牌和地位上有很大的优势。Linguee的联合创始人Gereon Frahling曾在Google Research工作过,但在2007年离开Google并开始了自己的新的事业Linguee。

这支团队多年来一直致力于机器学习,从事与核心翻译相邻的任务,但直到去年,他们才开始认真地研究一个全新的系统和公司,而这两个系统和公司的名字都将是DeepL。

Frahling提到现在时机已经成熟:"我们已经建立了一个神经翻译网络,其中包含了大部分最新的发展,我们在其中加入了自己的想法。"

一个由超过10亿个翻译和查询组成的庞大数据库,再加上通过在网络上搜索类似的片段进行落地翻译的方法,为新模型的训练打下了坚实的基础。他们还把他们声称的世界上第23台最强大的超级计算机放在了一起,位于冰岛境内。

DeepL的翻译服务使用了搭建在Linguee数据库之上的卷积神经网络及另一种并未公布的专有方法涉及注意力机制。DeepL GmbH拥有一台浮点性能为5 Petaflops的机器,用于其翻译服务的训练和生产。

由大学、研究机构以及Linguee公司的竞争对手所公布的发展情况表明,卷积神经网络才是发展的方向,而不是该公司之前一直使用的递归神经网络。现在真的不是深入研究CNNs和RNNNs之间的区别的地方,所以必须要说的是,对于长的、复杂的相关词串的准确翻译,只要你能控制好它的弱点,前者是一个更好的选择。

例如,CNN大致可以说是可以一次解决一个单词的句子。但当比如经常发生的情况,句尾的一个词决定了句子开头的一个词应该如何组成时,这就成了问题。通读整个句子,只是发现网络选取的第一个词是错误的,然后再根据这个知识重新开始,这是很浪费的,所以DeepL和机器学习领域的其他人应用了 "注意力机制",监控这种潜在的绊脚石,并在CNN转移到下一个词或短语之前解决它们。

关于隐私政策

无论是DeepL Pro还是免费的DeepL Translator都不允许被用于翻译“包含任何种类个人资料的文本” 与免费版不同,DeepL Pro宣称并不会储存翻译文本。更多可以查看他们的privacy

感兴趣的同学们可以试一试,相信Deepl会成为你新的助力你翻译的生产力工具。我们也非常欢迎对Deepl背后技术的同学们分享更多他们更多技术相关的细节。

DeepL:一家在翻译领域超越谷歌和微软的德国公司

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
可莉 可莉
3年前
2020 最新报告,Java 仍是最受欢迎的语言!
!(https://oscimg.oschina.net/oscnet/8d4c563cf3f14f228af0e1a83bf0779f.png)技术编辑:宗恩丨发自SiFouOfficeSegmentFault思否报道丨公众号:SegmentFault本报告介绍了由JetBrains进行的
Wesley13 Wesley13
3年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Stella981 Stella981
3年前
2020 最新报告,Java 仍是最受欢迎的语言!
!(https://oscimg.oschina.net/oscnet/8d4c563cf3f14f228af0e1a83bf0779f.png)技术编辑:宗恩丨发自SiFouOfficeSegmentFault思否报道丨公众号:SegmentFault本报告介绍了由JetBrains进行的
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
PHP创建多级树型结构
<!lang:php<?php$areaarray(array('id'1,'pid'0,'name''中国'),array('id'5,'pid'0,'name''美国'),array('id'2,'pid'1,'name''吉林'),array('id'4,'pid'2,'n
Wesley13 Wesley13
3年前
Uber准备放弃自动驾驶,转手卖给前谷歌无人车CTO,估值曾被孙正义炒到72.5亿美元
!(https://oscimg.oschina.net/oscnet/0fe7cb00a0cf4872b022342d1e21d47e.png)杨净发自凹非寺量子位报道|公众号QbitAI最新消息,Uber要出售无人驾驶部门(ATG)了。据TechCrunch报道,Uber有意向出售,而也有人愿意买。
Wesley13 Wesley13
3年前
Java日期时间API系列36
  十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰。二十四小时和十二时辰对照表:时辰时间24时制子时深夜11:00凌晨01:0023:0001:00丑时上午01:00上午03:0001:0003:00寅时上午03:00上午0
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
美凌格栋栋酱 美凌格栋栋酱
5个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
BackendDev
BackendDev
Lv1
等待着大雪的纷纷扬扬,把每一个梦筑成洁白的巢。
文章
4
粉丝
0
获赞
0