4月12日,中国移动在首钢园国家冬季训练中心速滑馆举办“5G新通话,预见新未来”产品发布会,正式发布5G新通话产品,并宣布部分终端已在全国支持5G VoNR超清通话业务,打造可视化、多媒体、高感知、全交互的全新媒体。
5G新通话可以让通话双方实现语音转文字,同时还可以在屏幕上实时翻译,让通话人在听见的同时,“看懂”通话的内容。看似好理解的技术,背后蕴藏的大量“黑科技”,例如语音识别、口语理解、语音同传等等,非深厚的AI语音技术积累不可为。
这些背后的“黑科技”,主要来自智能语音和人工智能的头部企业科大讯飞,因此,科大讯飞也成为了中国移动5G新通话的官方合作伙伴。
5G“杀手级应用”,今年7月后覆盖所有新上机型
在发布会上,中国移动市场经营部总经理首建国介绍,与互联网的语音视频通话相比,5G新通话能够基于中国移动5G网络,实现高清视频通话,通话质量稳定,几乎没有时延,且电话呼入不中断。同时,结合AI技术,5G新通话可以在通话过程中实现中英文实时翻译、语音转文字等功能,此外还提供了屏幕共享、远程协作等特色功能。首建国还介绍说,目前5G新通话功能正陆续在各大手机终端进行适配,到今年7月,所有终端新推出机型都将支持5G新通话。
从5G新通话所展示的功能来看,有望成为一款“5G杀手级应用”。在这一被业界普遍看好的业务背后,5G网络是核心基础,媒体互动是重要功能扩展,终端支持是保障,其中还有一个关键,就是AI智能语音技术。
不仅听见,还能看懂
科大讯飞是北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商。
资料显示,面向冬奥会场景的多语种语音及语言服务平台,采用了科大讯飞的“自动语音转换与翻译”技术,支持60个语种语音合成、69个语种语音识别、168个语种机器翻译和6个语种交互理解,其中重点语种翻译准确率达到了95%,平均每句翻译响应时间不超过0.5秒。
口语化的流畅体验
通话场景下有大量的口语化表达,口语化表达不同于规范的书面文本,一般表现为内容表述不符合语法规范、语气词过重、重复冗余等,这使得直译时出现明显的“机翻”痕迹,给机器翻译在通话场景中的应用提出了更高的挑战。
科大讯飞的技术负责人介绍,针对5G新通话口语化场景优化,采取了三大措施:一是人机协同标注常用口语数据,并补充口语双语训练;二是系统性运用了无监督/弱监督训练方法,基于大量口语化表达的源、目标语言单语数据,采用自训练、回译算法等强化翻译模型和语言模型,对口语化表达特性实现增强训练;三是针对语音识别后处理阶段,设计语气词顺滑、规整等模块,将口语化表达尽可能书面化,从而减少机翻“痕迹”,帮助用户更好地理解。
冠军的底气
中国移动5G新通话背后的人工智能技术,来源于科大讯飞23年来坚持源头技术自主创新的深厚积累,科大讯飞在人工智能语音识别、机器翻译、语义理解等技术领域处于国际领先地位,在诸多国际技术赛事中取得冠军。
在语音识别领域,科大讯飞参加了2021年OpenASR国际低资源多语种语音识别挑战赛15个语种受限赛道和7个语种非受限赛道,全部取得第一;在机器翻译领域,先后获得了2018年IWSLT国际口语机器翻译评测比赛端到端任务第一和2021年IWSLT国际口语机器翻译评测比赛英德语音同传、文本同传和英日文本同传全部三个同传赛道冠军;在多语言理解领域,获得世界权威多语言理解评测XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)四项任务中的三项最好成绩,标志着科大讯飞多语言理解与跨语言迁移能力再上新台阶。在语义评测领域,在第十六届国际语义评测SemEval 2022的比赛中,科大讯飞从30余支参赛队伍中脱颖而出,获得“多语种新闻相似度评测任务”和“多语种惯用语识别任务”两项冠军。
以数智化技术构建美好世界是人类共同的希冀。5G新通话只是5G+AI有机融合的一小步,星空(中国)有理由相信,在中国拥有全球规模最大的5G精品网络,拥有世界领先的人工智能自主核心技术,科大讯飞和中国移动这样深度协同的模式,将会让5G+AI发挥更大的融合倍增效应,必将加速推进科技创新、推动数智化转型,共创人工智能美好新世界。