中国人工智能学会

Chinese Association for Artificial Intelligence

GAITC 2021 演讲实录丨百度首席技术官王海峰:机器翻译——从梦想到现实

发布时间:2021-08-11

2021年6月5日至6日,由中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导,中国人工智能学会、杭州市人民政府主办,杭州市余杭区人民政府筹备组承办,浙江杭州未来科技城管理委员会具体执行的2021全球人工智能技术大会在杭州成功举办。在6月6日举办的多语种智能信息处理专题论坛上,百度首席技术官、CAAI/ACL Fellow王海峰博士为我们带来了题为《机器翻译:从梦想到现实》的精彩演讲。


微信图片_20210830173018.png

王海峰

百度首席技术官

CAAI/ACL Fellow

以下是王海峰的演讲实录:

机器翻译迈入深度学习时代

机器翻译的发展历程可以追溯到1947年机器翻译设想的提出。在70多年的时间里,机器翻译经历了基于规则的方法、统计机器学习和神经网络机器翻译三个阶段,进入深度学习时代。

神经网络机器翻译的大规模产业应用面临高质量、多语言、跨模态的产业化需求。在翻译质量方面,百度研发了融合丰富特征的神经网络机器翻译模型,漏译率降低80%;多智能体联合学习模型,突破单一模型学习能力不足的限制;在国际权威机器翻译评测中获得第一名,翻译质量大幅提升。2015年5月,百度在全球率先上线大规模神经网络机器翻译产品。


在多语言翻译方面,针对语言数量多、语料分布不均衡、部署复杂、实现难度大等难题,百度研发了基于共享编码器的翻译模型,突破了低资源语言的翻译瓶颈,研制了多语言翻译统一框架,大幅提升部署效率,实现203种语言互译,支持41006个翻译方向。


机器同传方面,针对同传翻译质量与时延难以兼顾的痛点,百度打造了基于语义单元的同传模型,翻译准确率超过80%,时间延迟约为3秒,翻译水平媲美人类译员。同时,在端到端同传模型方面,突破了语音识别和机器翻译交互同步解码,实现跨模态知识共享。百度在机器翻译技术上持续创新突破的同时,也积极开放合作,联合Google、清华大学等举办机器同传研讨会、发布面向真实演讲场景的中英同传数据集,促进同传研究。


每天翻译超千亿字符,跨语言沟通正在成为现实


机器翻译是百度很早就开始积累和打造的AI技术之一。2010年以来,百度在大规模产业化机器翻译技术、海量翻译知识获取、多语言翻译、机器同声传译等方面均进行了系统而深入的研究,技术上不断突破创新,产业应用不断丰富。百度翻译已形成包括翻译PC 版、翻译APP、AI 同传,以及翻译开放平台等完整的产品矩阵,实时准确地响应全球海量复杂多样的翻译请求,每天翻译超过千亿字符,较十年前增长了10万倍。


截止目前,百度翻译已服务50多万家企事业单位和开发者,覆盖30多个领域,持续在人们生活工作、公共服务、科研学习等方面发挥作用:服务服贸会、进博会、全球人工智能技术大会等上百场重要国际会议;服务经济发展、助力跨国贸易平台/企业降本增效;免费开放生物医药领域翻译,与防疫志愿者小组等合作,助力全球抗疫等等。


资料显示, 全球权威咨询机构Gartner 发布“Hype Cycle for Natural Language Technologies,2020”,将百度评为神经网络机器翻译标杆机构。百度是国内机器翻译领域唯一入围单位。2020 年12月,Gartner 在报告“Market Guide for AI-Enabled Translation Services”中提到,百度凭借在机器翻译方面出色的表现强势入围全球AI翻译服务代表性提供商。


百度将始终坚持技术创新,推动技术进步,为产业升级、社会经济高质量发展、国家繁荣昌盛做出更大贡献。



文章摘自

https://baijiahao.baidu.com/s?id=1701821071186699753&wfr=spider&for=pc


CAAI原创 丨 作者王海峰

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会