神经网络时代的机器翻译质量到底怎么样

H套餐：包成功定制宝针对客户群体： 35岁以下，AMH3，FSH8，FSH/LH2。所有的风险我们承担，两年内保
G套餐：助孕包成功（针对客户群体： 35岁以下，AMH3，FSH8，FSH/LH2 所有的风险我们承担，两年内保证
E套餐：二代试管第三针对客户群体： 35岁以下，AMH3，FSH8，FSH/LH2。交费流程助孕妈妈第一次移植
D套餐：自卵自怀三代针对客户群体： 35岁以下，AMH3，FSH8，FSH/LH2，月经规律，子宫情况达标。交费
C套餐：单次三代试管针对客户群体： AMH2，基础卵泡大于6个。收费项目：志愿者体检费、药费、取
B套餐：供卵自怀二代针对客户群体：女方年龄小于42岁，月经规律，子宫情况达标，男方精子活力

神经网络时代的机器翻译质量到底怎么样

时间：2019-09-04 来源：http://www.baidu.com/ 点击：150次

随着NMT(神经机器翻译)正在成为新标准，量化新技术的质量收益越来越成为一项挑战。在最近提交给arXiv.org的一篇论文中，ADAPT数字内容技术中心副主任AndyWay教授解释了机器翻译(MT)的质量预期。Way并没有进行大量的技术研究，而是讨论了MT的质量评估，以及这是NMT作为主要的行业变革者继续发展时要解决的重要问题。

“公司经常忽略技术中心实际上具有破坏性：它不仅影响技术培训的员工，还影响项目经理，销售和营销人员，培训团队，财务人员，当然还有后期编辑和质量评审员，“Way在他的论文中说。“如果要在充分了解预期投资回报的情况下做出正确的决定，所有这些都应该事先采纳，但在实践中很少。”

“公司经常忽视技术MT实际上具有破坏性”-ADAPT数字内容技术中心副主任AndyWay教授对于NMT，其中一个主要问题是双语评估低级研究(BLEU)，这是大多数研究中使用的长期自动评估指标。

BLEU的限制

BLEU由于流行而成为事实上的自动评估系统：在MT研究中显示获益的最简单方法是使用先前使用的相同评分。然而，对于NMT而言，相对于前代MT的改进-更不用说设计上的差异(即NMT通常运行在字符级编码器-解码器系统上)-使BLEU更不适合量化输出质量。除了BLEU将MT输出与单个参考人类翻译进行比较的问题之外，Way更具体地通过样本参考翻译和样本MT输出来说明BLEU的局限性。

参考翻译是："ThePresidentfrequentlymakeshisvacationinCrawfordTexas.“

MT输出是：

1、GeorgeBushoftentakesaholidayinCrawfordTexas

2、holidayoftenBushatakesGeorgeinCrawfordTexas 神经网络时代的机器翻译质量到底怎么样

3、GeorgerhododendronoftentakesaholidayinCrawfordTexas

注意1和2和3得到相同的BLEU分数，这是由于BLEU计算分数的固有限制。

他提出解决MT产量的最佳方法是考虑两个因素：

1、适合翻译的目的

2、内容的易腐性。

用他自己的话说：“如何使用翻译，以及我们需要多长时间查阅翻译?”

对NMT质量度量的需求

Way继续在他的论文中解释说，“基于n-gram的度量标准如BLEU不足以真正证明NMT对[基于短语，统计和混合]MT的好处”。

他解释说，现有关于NMT与前代技术相比的收获的研究表明，各个领域都有显着的改进，但总体而言，BLEU总分的增加只能达到2BLEU点左右。另外，在人机交互方面，Way说MT和翻译记忆(TM)模糊匹配已经是人类翻译工具中常见的工具，因此它“迫使MT开发人员开始用他们的MT系统输出翻译伴随着对翻译人员有意义的质量评估。“在这方面，“虽然BLEU成绩无疑对MT开发者有用，但输出BLEU成绩(例如)0.435的目标句对翻译来说毫无意义。”

此外，这影响定价和支付。Way在他的论文中写道：“根据TM系统为每个输入字符串所建议的模糊匹配级别，翻译者习惯于支付不同的费率。在NMT驱动的行业中寻找量化质量的方法Way指出，由于许多NMT引擎都是角色级别的系统，因此在角色级别运行的ChrF(由MajaPopovi?在2015年提出)等评估指标更为合适。“Slator作为我们NMT2018年报告的主题专家接触了柏林DFKI-语言技术实验室的研究员Popovi?。当被问及BLEU时，她说：“BLEU达到了任何翻译的极限，不仅NMT。”

Popovi?对基于角色的评分进行了信任投票，例如BEER，chrF和character等，因为他们有潜力进行MT评估。“她还告诉Slator 神经网络时代的机器翻译质量到底怎么样她期待将语言信息纳入NMT系统，“因为我相信语言知识很重要。”该领域的其他专家提供了他们对NMT质量评估的展望，包括YannisEvangelou，语言质量保证公司LexiQA的创始人兼首席执行官，他说明了NMT分为三个阶段的过程：翻译前，机器翻译和后期编辑。

Slator报告中的其他受访者，如Systran首席技术官JeanSellenart，SDL机器学习解决方案副总裁MihailVlad，甚至纽约大学的NMT研究先驱KyunghyunCho也同意Way在他的论文中关于MT输出质量的衡量标准正在使用的场景的上下文。

弗拉德举了一些例子：

1、翻译员的质量可以通过提高翻译效率来衡量。

2、多语言电子发现的质量是通过识别正确文件的准确性来度量的。

3、多语言文本分析的质量通过分析师识别相关信息的有效性来衡量。

4、多语言聊天的质量由最终用户的反馈评价来衡量。

Booking.com的研究员PavelLevin认为，在不久的将来，NMT质量保证的标准化可能与需求一样分散：“我们将看到从业者推出他们自己的与他们问题更相关的指标(例如指标与处理特定命名实体相关，来自定制QA系统的分数，可能基于机器学习等)，并将其中几个组合使用。“Way在他的论文中写道：“如果NMT确实成为最新的最新技术，现场预计，人们可以预见，更加精确地对这种范式进行调整的更多新的评估指标将会更快出现，而不是更晚。

参考资料

------分隔线----------------------------

相关文章：