浅析人工智能在电话翻译系统中的应用

(整期优先)网络出版时间:2019-09-19
/ 2

浅析人工智能在电话翻译系统中的应用

林智星

广西中电瑞达科技有限公司南宁分公司广西南宁530000

摘要:机器翻译已经有70年的发展历史,但直到近两年,神经网络机器翻译技术异军突起才将翻译应用进一步革新。同时,语言处理、语音交互、人工智能、神经网络等技术的进步又加速了翻译产品的场景升级。一种便于同不能讲不同语音的人在通话中通过人工智能电话翻译系统进行对话,它不需要翻译人员轻松实现对话,电话运营商机构每天提供24小时服务,配备有能处理143种外语和方言的自动翻译库,基本覆盖全球官方语种和方言,从而降低沟通成本。

关键词:神经网络翻译,人工智能,语音语义识别

一、引言

与以往领域不同,AI(人工智能)技术应用的竞赛更加国际化,近期各方势力在机器翻译领域频繁发声,谷歌、微软相继宣布新一代翻译工具技术提升,国内百度、搜狗、科大讯飞新一代翻译产品也在争相亮剑。谷歌日前宣布旗下神经网络机器翻译系统(GNMT:谷歌NeuralMachineTranslation),正式被应用到谷歌翻译中,神经机器翻译是端到端的学习架构,它能从数百万的实例中学习,提供大幅提升的翻译效果。虽然功能得到了改善,但是让谷歌翻译把当下支持的103种语言全部采用神经机器翻译技术,却是一项巨大的挑战,英语和法语、英语和西班牙语的互译质量已经超过了90%,中英互译准确率也在80%左右。

智能识别技术是基于计算机人工智能发展起来的一项技术,这项技术的开发和研究主要是对人的智能进行模拟和延伸,通过分析智能的实质,开发出一种与人类智能反应相似的全新智能机器,该领域的研究主要包括图像识别、语言识别、机器人和自然语言处理技术等。语音语义识别将成为人机交互的重要方式。从应用上看语音识别更容易为智能终端带来便捷的服务,在语音输入、语音导航等方面均已有不少尝试,但如今结合机器翻译却并不容易满足复杂的需求。

机器翻译已经有70年的发展历史,但直到近两年,神经网络机器翻译技术异军突起才将翻译应用进一步革新。同时,语言处理、语音语义交互等分析技术的进步又加速了翻译产品的场景升级,未来可将神经网络翻译系统与现有的通信系统相融合,实现拨打国际间电话即可实现自动翻译,在文化交流、旅游、外交、企业贸易等广泛领域带来突破性应用场景。

二、神经网络翻译技术在电话翻译系统中实现方式探讨

1、神经网络翻译技术分析

过去几年中,人工智能应用在改变我们的生活上最让人印象深刻的两点:一、人工智能可以改变我们和机器交互的方式,从而改变消费者领域产品的形态;二、人工智能可以向专家学习专业知识。使用循环神经网络来直接学习一个输入序列(如一种语言的一个句子)到一个输出序列(另一种语言的同一个句子)的映射。基于短语的机器学习会将输入句子分解成词和短语,然后对其中的大部分进行独立翻译。GNMT则将整个输入句子视作翻译的基本单元,优点是所需调整更少,很快就在中等规模的公共基准数据集上达到了与基于短语的翻译系统不相上下的准确度。多语言神经机器翻译系统可类似于AlphaGo人工智能机器那样自行训练学习,在完成语言A到语言B的翻译训练之后,语言A到语言C的翻译不需要再经过任何学习。它能自动把之前的学习成果转化到翻译任意一门语言,从而在通话中实时为沟通服务。

GNMT相对于传统技术是一种革命性的改变。基于短语的统计机器翻译是拼图过程,通过对短语对的排列和组合,尝试找出较好的翻译选项,但整个决策过程是离散的、这个决策的信息也都是局部的。GNMT学习反其道而行之,使整个决策过程既是连续的也是全局的。GNMT相对传统技术的巨大优势,对于词根距离非常长的英文单词来说,传统机器翻译技术和难解决。英语复杂程序结构带来了很多调序以及省略,如果不能够利用整个云语言句子全局信息,就可能会得到一种不连续、不自然、不准确的结果,而GNMT在这两方面都有了长足进步。

(1)多语言GNMT为神经机器翻译系统扩展到全部语言的难题。有了它,一套系统就可以完成所有语言的互翻。从前两种语言之间都需要多个翻译系统的情况,从此成为了历史。这套架构在翻译其他语言时,不需要在底层GNMT系统做任何改变。只需在输入语句的开头插入一个输出语种标记,就可以把结果翻译为任意语言。

(2)电话运营商通过集成相关机器学习API的公共云服务到通讯系统中,在通话过程中实时调用API进行翻译,使用单个神经机器翻译(NMT)模型在多种语言之间进行翻译,不需要对现有的基础翻译系统的模型架构进行修改,而是在输入句子的一开始引入了一个人工token来确定所需的目标语言,而且可以在所有语言上共享使用。使用一个共享的词块词汇集,而不需要增加参数,这种方法往往能提升所有相关语言对的翻译质量,同时还能保持总的模型参数恒定,模型还能执行在训练过程中没有明确遇见过的语言对之间的特定桥接。

(3)对现有电话系统进行改造,包括前端电话麦克风阵列、前端声学处理、语音唤醒、端点检测、语音识别、语义理解、语音合成等技术,是在整个交互链上进行深度融合的电话翻译系统。

(4)需要支持全双工、多轮交互等新特性,并在单点技术上进行突破和演进,包括声源定位与追踪、持续在线,有效人声智能检测、基于用户意图的动态语音端点检测、支持上下文交互的语义理解、基于对话场景自适应的语音识别等。

2、实时通话翻译功能分析

(1)在线通话语音合成

在线实时通话转换为流畅、清晰、自然和具有表现力的语音数据,进行高质量合成音频语句,而不是简单的词汇播报。

(2)定制化母语语音播报

集成众多极具特色的发音人(音库)供通话方选择,这些发音人配合语音合成技术,使得合成音在音色、自然度等方面的表现均接近甚至超过了人声。同时可以定制母语定制专属语音库,放入云端语音播报库中供用户选择。

(3)快速语音云识别

将传统固定电话、移动电话传输的音频识别转换成文字并播报给通话用户需要使用到语音云,语音云是连续语音识别技术,听写结果快速反馈,动态实时修正,将识别准确率超过95%,实现快速精准的语音听播报,在语音输入速度达180字/分时要求识别结果响应时间低于500ms,无论是识别实时率还是响应时间,系统运行效率都让电话语音沟通变得顺畅。

(4)视频通话语音翻译处理

将视频通话中的音频实时进行语音转写,轻松生成与视频通话相对应的同步对话记录,同时可进行将视频通话和访谈的音频转换成文字存稿,让后期的信息检索和整理更方便快捷。

三、语音语义识别与电话翻译系统融合实现步骤

语音自动识别与电话翻译系统融合包括以下步骤:

1、电话翻译系统服务器临时数据库和服务器标准数据库的建立将全部字、词、句的原文和对应链接的译文的文字资料和翻译检索应用程序、寻求翻译端学习帮助应用程序、标准字典和词典存储到服务器标准数据库中;以机器学习技术为基础,运用语音识别和机器翻译技术。机器学习软件从训练数据中学习,建立关于对话用词、对话背景的学习统计模式。

2、从用户端输入模块输入需翻译的通话原文、翻译语种,在用户说话时,机器学习软件可从统计模式中找出相似的内容并进行记忆训练,对于不常用数字、日期、姓名、品牌以及不常见短语翻译改进训练方法并进行收录工作,自行建立新的翻译模型;

3、用户端传送模块将翻译请求通过通信网传送给服务器,把以前学到的东西从音频转化为文本,再从文本转化为外语文本并播报。

四、结束语

通过多种语言翻译系统与电话通讯系统进行深度融合实现在线实时翻译沟通,自动电话翻译集神经网络语音学、语言学、声纹信号自动化处理技术和、人工智能技术、通讯技术应用之大成,其核心系统是“智能转接电话翻译系统”。这套系统宛如一名精通多国语言的“翻译专家”,能实时地将您需要的语种翻译接入,提供各种外语翻译服务,从而可以使不同语言的人消除语言障碍,自由自在地进行交谈。用网络的多功能、低成本性、人工翻译的准确性,及公用电话网、移动电话网的方便性,为跨语种人员沟通时提供一种低成本、实时的、便捷的途径,人工智能新技术带来的变革,将给世界沟通带来新的变化,无论如何,神经网络机器翻译系统仍然代表着一个重大的里程碑。

参考文献:

[1]《基于人工神经网络的机器翻译》中国科学出版社