音讯新华社“语音智能 +”采编应用矩阵

所属分类：文史论文阅读次时间：2020-12-31 10:36

本文摘要：摘要：音视频新闻相比于文字、图片等新闻类型，往往在携带信息量、传播影响力等方面更具优势。近年来，音视频新闻数据量爆发式增长、人工智能理论与技术创新式发展，为新闻生产传播流程与语音智能技术深度融合创造了无限可能。本文从媒体智能化升级探索中

高端学术服务项目

　　摘要：音视频新闻相比于文字、图片等新闻类型，往往在携带信息量、传播影响力等方面更具优势‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。近年来，音视频新闻数据量爆发式增长、人工智能理论与技术创新式发展，为新闻生产传播流程与语音智能技术深度融合创造了无限可能‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。本文从媒体智能化升级探索中，语音智能在多场景应用、多语种识别、多品类终端与强算力支撑等不同角度切入，对新华社“语音智能+”采编应用矩阵“音讯”的相关工作进行了阐述与展望‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。

　　关键词：语音智能; 人工智能; 新闻生产

当代江西

　　导语

　　新华社作为国家通讯社、世界性现代通讯社，每天24小时同时使用十余种语言滚动发稿，权威、准确、及时播发国内外重要新闻和重大突发事件。近年来，音视频素材与稿件的制作需求与日俱增，这既对音视频智能化分析技术提出了更多的挑战，也给相关技术的更大空间发展创造了无限可能。

　　从全球范围看，媒体智能化进入快速发展阶段[1]。人工智能技术正深刻改变着人类社会生活，改变着世界，同时也成为突破媒体融合发展的前沿技术和体现国际竞争力的关键技术之一。语音智能技术作为音视频智能化处理领域的代表组成部分，新的科研成果也层出不穷。

　　为进一步利用人工智能技术提升“采编发供”各阶段生产传播效率，新华社技术局推出“语音智能+”采编应用矩阵(下简称“音讯”)。经过一年多的技术建设，目前已支持9种国内外语种、8种国内方言的语音智能分析功能，包含移动客户端、PC桌面端、网页端以及多款智能硬件等产品形态，全面赋能记者编辑采访整理、会议记录、唱词制作、稿件校对及旁白配音等采编场景。同时，音讯业界领先的智能算法、各具特色的智能终端、自主可控的超级算力与安全高效的使用体验，实现了移动化与智能化下音视频素材整理与新闻制作效率的大幅提升。

　　1.语音智能应用，加速媒体智能化升级

　　1.1 多场景语音智能，赋能采编业务

　　1.1.1 AI实时速记，采访边说边识别

　　时间性越强，新闻的社会效果就越大。音讯将语音实时转写技术有效嵌入至新华社采编客户端中，可将语音信息实时转换成文字，并支持一键建稿至新华社采编系统。在实际采访过程中，记者仅需携带安装有客户端的智能手机，即可实现“AI录音笔”与“AI速记本”的效果，进一步提高编稿与签发时效。

　　围绕PC机音视频信息实时转写文字的采编需求，音讯同步推出桌面版应用，实现了PC机音频信息的实时采录与转写等功能。该工具不仅能实现浏览器内的各种直播、点播音视频同传字幕，而且能对系统播放软件的音视频进行实时转写，可对重要报道中领导人或记者会的发言与翻译内容进行实时记录与快速整理，有效压缩稿件生产过程中录音整理方面的重复工作。

　　1.1.2 AI录音转写，素材整理好助手

　　面对采访过程中收集的大量录音或视频素材，记者从中去粗取精，提炼新闻灵感与线索，往往需要反复回放录音与核查信息。为此，音讯定制研发了音视频语音转录工具，可支持小时级的录音或视频文件在数分钟内的高效转写，准确率可达95%以上，并针对实际业务场景推出采访发音角色分离、口语表达智能过滤、视频唱词智能切分及SRT字幕导出等采编功能，可大幅提升采访素材整理与视频后期的工作效率。

　　1.1.3 AI语音互联，解放双手更省劲

　　人机交互的方式正在因语音输入而改变，其便捷、快速与个性化等特点赋予媒体领域更多落地场景。在全国两会前夕，音讯推出了“大屏智能声控”方案。管理员仅需对着遥控拾音设备口述大屏页面跳转指令，大屏即可根据指令内容做出切换，实现更智能、便捷地大屏操控体验。

　　1.1.4 AI稿件唱校，机器辅助读校审

　　语音合成技术即将文字信息转化为声音信息，使文字化的新闻更加“声情并茂”。音讯结合新闻稿件检校需求推出了“AI唱校”功能，稿件校对时可以选择不同的播放语速、男女声进行智能唱校，同时支持各个标点符号、回车换行等字符的朗读，一定程度上缓解了人工校对的工作压力。

　　1.1.5 AI视频配音，一键搞定画外音

　　音讯“智能配音工具”则主打音视频制作需求。它具有57位AI配音员，包括9大语种及6种地方方言。该工具操作简单，用户可一键合成纯正地道的AI配音，也可根据实际采编需求修改音色、音调、语速，甚至可以指定插入图片与变更多音字的读法，实现了方便快捷的视频多语种配音制作，为视频新闻创作带来无限可能。

　　1.2 多语种语音智能，坚持内外并重

　　进入新时代，构建内外并重的体制机制成为新华社技术建设新目标之一[2]。音讯近年来不断拓宽语音智能技术的支持语种。目前已支持中、英、西、法、俄、阿、葡、日、韩语在内的9种语种(其中还包括加拿大法语、墨西哥西语等8国语言变种)，广东话、河南话、四川话等8种国内方言的语音智能处理功能，推动对内对外报道新闻素材整理与制作效率进一步提升。

　　1.3 多品类定制终端，录音提质增效

　　“音讯盒子”是基于3D技术打造、具有自主知识产权的智能硬件系列产品，可与电视、固定电话、终端及机顶盒等设备外接，通过对音视频信号的高保真降噪与极速转码，实现音源更精准的实时转写效果。适合于新闻采访、新闻发布会等业务场景，可提高采访报道新闻生产效率。

　　除此之外，音讯还与市面在售的若干款录音笔硬件实现“智能互联”。图8是一款具有8麦环形高保真拾音、数据多重保障、智能电池控制等特性的专业录音笔，经过新华社技术人员的研发，目前已实现了与新华社新采编客户端的无线信息传输，支持手机远程控制录音笔启停、录音转录及采编一键建稿等功能，满足了更高品质拾音与转写、安全距离采访与整理等场景需求，可进一步提升采访智能化体验。

　　1.4 强算力极致安全，架构稳若磐石

　　目前，音讯具有新华社遍布全球各地的庞大采编用户群体，基础设施的自主可控、核心数据的存储传输等安全要素也显得尤为重要。为此，音讯围绕实际需求打造了“超强算力+智能中台+全球加速”的全链路一体化系统架构。与市面商业化产品不同，其核心功能均部署在新华社自主可控的GPU高性能计算平台之上，处理性能大幅提升的同时，也完全保证了数据安全; 音讯“智能语音中台”目前具有强大定制与高扩展能力，可通过灵活开发，满足新华社不同部门与分社定制化语音智能需求; 同时，为保证驻外采编人员的使用体验，音讯针对性实现全球内容分发网络(CDN)链路加速优化，大幅降低了海外访问延迟，使北美等地区的使用体验进一步提升。

　　2.产品效能初显，用户活跃度口碑高涨

　　当前，音讯产品的用户已达数千人，分布在全球各地。自2019年上线至今，已累计语音转写各语种素材超1.9万小时，共计7.3万余单，平均1小时录音仅需9分钟即可获得转写结果(图9为转写工具用户数目及转写单数月活跃量数据示例); 另一方面，累计语音合成超过4700万字的稿件内容，合成时长超过2400小时。音讯通过与新华社采编流程打通并融合，为采编人员节省了大量宝贵的人力与物力，受到了广泛认可。

　　在2019年一带一路高峰论坛及中国国际进口博览会等重大报道期间，音讯多次辅助新华社前后方采编人员素材整理素材，提升各语种出稿效率; 亚洲文明交流大会开幕式的报道前方，音讯盒子对领导人讲话中文原声和英文同声进行实时语音转写，在无英文稿情况下供新华社多个编辑部参考与发稿，加快了发稿时效; 2020年全国两会期间，音讯转写工具辅助音视频编辑听打唱词，节省了大量人工拍词工作; 抗击疫情期间，音讯“智能远程录音”的采访模式，使记者在采访录音与记录的同时，保证了采访安全距离，成为疫情相关报道的重要助力。

　　3.融合潜力巨大，媒体智能化未来可期

　　近年来，音视频产业爆发式增长，逐渐成为新闻传播的重要媒介载体。媒体融合发展的路上，语音智能未来仍具有很大的应用空间。音讯将围绕采编需求，继续在如下方面进行更深入的研究，持续推进媒体智能化工作纵深发展。

　　3.1增强语音智能应用的融合力度

　　本文所阐述的语音智能的应用主要集中在新闻生产系统，当前新华社技术局还在对语音识别与合成技术在智能硬件及交互式AR/VR产品等方面的集成应用等方面不断拓展，增强系统实用性、激发产品趣味性，将现有技术更全面地赋能新闻生产传播各个流程。

　　3.2扩展语音成熟技术的应用广度

　　语音智能的新技术也日新月异。例如，语音识别中的声纹识别技术，不仅可用于标记采访录音中更多的讲话者，亦可用于权限认证，提升新闻素材整理的便捷性与新闻审核签发的安全性; 基于语音迁移学习、小样本学习等技术[3]，可在数分钟内实现个性化配音角色的快速制作，合成语音的自然度和相似度均可以假乱真; 藏语及维语等少数民族语言语音智能技术，可辅助记者提升采访沟通与记录效率。

　　音频论文投稿刊物：《当代江西》杂志是一本教育党员，指导基层党组织建设的综合性党刊，由中共江西省委主管主办，2005年1月10日，出版创刊号。《当代江西》是2003年10月，整合省委7家部门刊物，创办的一本以全面反映党的建设为重点的综合性党刊，并明确由中共江西省委主管主办。

　　3.3细化音视频的跨媒介检索粒度

　　随着语音转文字技术准确度的不断提升，所有音视频稿件中的语音内容，均可以文字形式予以保存并建立索引，进而实现稿件中语音内容的精准检索。这样可大幅提升新闻采编素材的选择范围，即使是文字稿件也能广泛采用视频同期声等文字内容。

　　参考文献：

　　[1]习近平.加快推动媒体融合发展构建全媒体传播格局[J].当代江西，2019(3)： 4-7.

　　[2]蔡名照.始终履行好党中央“喉舌”“耳目”职能[J].求是，2016(6)：33-34.

　　[3]俞栋，邓力.解析深度学习：语音识别实践[M].电子工业出版社，2016.

　　作者：李泽魁孙霏刘一闻