浅析电视台全链路音频元数据处理及响度控制

文章作者：中国新闻技术工作者联合会 2021/12/30-04:43 阅读: loading...

宋蔚郭敏

(中央电视台)

[摘要] 本文介绍了在高标清同播，单声道、立体声及环绕声节目混播这种复杂背景下的三种电视台全链路音频元数据处理的解决方案，分析了全流程各环节对声道的处理及音频元数据的应用方式；阐述了既要制定统一的响度规范，也要采用不同的响度控制方法和应用策略，以达到响度管控目的，使观众在收看电视节目时获得更好的听音体验。[关键词] 音频元数据高标清同播环绕声播出响度规范响度控制随着频道高清化播出进程的推进，同时还要兼顾不同观众的收视需求，大部分电视台选择了高标清同播方式，在制作播出领域既要考虑电视节目的画幅比变化，还要考虑单声道、立体声和环绕声节目的混播。另一方面，观众在收看电视节目时，还会遇到节目之间和频道之间的响度差异问题，观众需要靠遥控器的音量调整来控制响度。怎样正确有效地利用大量单声道、立体声的历史节目，怎样进行高标清同播，怎样适应不同需求终端用户的视听环境，怎样减少节目间的响度差异，成为当前电视台亟待解决的问题。本文将着重探讨如何应对不同音频来源及类型场景，尽量保证接收终端的艺术效果，同时解决声音的响度控制问题，以提供更好的节目声音质量。 1. 建立全链路音频元数据处理的重要性电视台首先要了解电视用户的听音需求，再通过制定声道分配、元数据嵌入方式，规范立体声和环绕声制作，梳理全台全链路元数据处理方式，统筹总控、演播室、后期到播出传输各环节，提高音频制播的全面性和专业化水平。1.1 电视用户听音需求：根据不同人群的实际接收情况，考虑有以下三类用户使用场景：1）收看高清频道，且具备环绕声收听条件；2）收看高清频道，不具备环绕声收听条件，只能收听立体声；3）只能收看标清频道，且收听立体声。1.2 音频元数据的关键参数音频元数据是节目制作者为向用户提供高质量音频信号所使用的处理手段，能够指导AC-3编码器进行控制编码，用户端解码器可以根据下混参数、动态范围控制等元数据信息及实际听音环境进行效果控制。1）声道模式（Channel Mode）Channel Mode声道模式描述除低频声道以外，5个声道的输入情况，例如3/2代表左中右及左环绕、右环绕。LFE Channel低频声道参数描述码流中是否包含低频声道。2）下混参数（Downmixing）Downmixing下混使用户在不同听音环境下，都能对5.1声道节目进行还音，用户机顶盒（解码器）提供数字输出给5.1环绕声音响系统使用，以及经过下混的模拟立体声输出给电视机或2.0音响系统使用。下混控制参数支持以下两种方式，一是将环绕声道信号相加，同相信号入左声道，反相信号入右声道；二是将左环绕声道入左声道，右环绕声道入右声道，同时通过Center Downmix Level、Surround Downmix Level参数控制中央声道和环绕声道写入左、右声道时的电平大小。因此节目制作者就需要在制作过程中，根据音频效果将参数确定，保证用户能够以正确的方式下混还音。3）对白电平（Dialogue level）对白电平又称为对白归一（dialogue normalization 或者 dialnorm），代表了节目的平均对白响度，对白电平的参数设置是为了保证用户在接受到节目信号以后，音频输出将“归一化”为标准音量，即使在节目切换、广告插播甚至频道切换时，电视节目的听音效果能够一直保持在一个舒适的状态，不会因为节目变化而引起大的音量起伏。4）动态范围控制（Dynamic Range Control）动态范围控制的作用是，节目制作者根据不同使用场景选择不同的动态范围控制类型，包括电影轻度型（Film Light）、电影标准型（Film Standard），音乐轻度型（Music Light）、音乐标准型（Music Standard）、语言型（Speech）以及不作处理（None）六种预置模式，每种模式的中心区域则是由对白电平决定，当用户选择动态范围模式时，解码器将根据其数据描述类型进行动态范围的压缩，避免了将音频信号简单做压缩处理，使不同类型节目能够将听音效果发挥到最好。1.3 电视台全链路音频元数据处理的关键点1）根据制作、播出和传输需要，在全链路内制定可行的声道分布，并实施全线元数据解决方案；2）能明确标识、区分节目的声音类别，单声道、立体声还是环绕声，根据不同的类别，进行不同的处理；3）能明确提供给最终视听终端进行下混和响度控制的元数据，最大限度还原艺术效果；4）依据高标清同播系统的特点，确保高清频道和标清频道音频播出的安全和质量。 2 电视台全链路音频元数据处理的解决方案根据音频信号在制播链路中的携载方式，以及传输系统进行AC-3编码处理选择的不同，分为以下三种解决方案。2.1 解决方案一，环绕声采用Dolby E编解码，高清频道支持环绕声或立体声播出，标清频道立体声播出节目交换时采用Dolby E编码传输至总控，总控信号调度至演播室系统或后期制作系统，节目制作时使用Dolby E解码后的8轨PCM进行编辑，根据实际情况选定适当的元数据参数，经过Dolby E编码后传到播出系统，播出系统遇到Dolby E的节目直通不处理，在传输系统经AC-3编码器，依据元数据的参数设定一起进行编码。如果信号不携带Dolby E则认为该节目为立体声节目，编码器预置一个2.0立体声的静态元数据。1）节目声道分布单声道节目：CH1单声道，CH2单声道国际声；立体声节目：CH1、CH2立体声，CH3、CH4立体声国际声；环绕声节目：CH1、CH2立体声，CH3、CH4 Dolby E环绕声；2）演播室、后期岛针对环绕声节目的处理在各个演播室、后期岛制作域均需部署Dolby E的编解码器，制作域内进行PCM分声道编辑。这种方法会增加台内节目交换的成本，还需关注每次Dolby E的编解码均会造成1帧延时，考虑是否视频延时。3）播出域对各类节目的音频处理方式播出域首先根据单声道、立体声、环绕声等不同节目的声道类型，在播出切换台上进行音频声道倒换处理，具体处理方式如下：单声道节目：CH1送CH1、CH2；立体声节目：CH1、CH2送CH1、CH2；环绕声节目：CH1、CH2、CH3、CH4送CH1、CH2、CH3、CH4；播出域需部署具备Dolby E解码能力的监听单元用来监听环绕声节目。4）传输域的音频处理方式高清频道：部署Dolby E解码器，如遇到CH3、CH4声道是Dolby E信号时，将Dolby E信号解码，6个声道和元数据传输至Dolby D编码器AC-3 5.1编码；如果只有CH1、CH2有信号，2个声道据传输至Dolby D编码器AC-3 2.0编码。标清频道：将CH1、CH2声道进行MPEG layer2编码。

图1 环绕声采用Dolby E应用的音频元数据处理解决方案一示意图

2.2 解决方案二，环绕声采用PCM音频，高清频道支持声音上混、全环绕声播出，标清频道立体声播出这种方案要求制作源向播出提供PCM音频，并且符合特定声道分布规范要求，才能完成声音的自动上混，使高清频道实现全环绕声播出，并在传输域Dolby D编码器预置AC-3 5.1环绕声静态元数据，以解决该类上混的环绕声节目没有元数据的问题。1）声道分布单声道节目：CH1单声道节目声，CH2单声道国际声；立体声节目：CH1、CH2立体声节目声，CH3、CH4立体声国际声；环绕声节目：CH1～CH6 PCM环绕声节目声，CH7、CH8立体声节目声。2）总控系统对环绕声节目的处理当外来信号为Dolby E时，则由总控系统负责完成Dolby E解码，将元数据写入SDI的VANC区，CH1～CH6为环绕声，CH7、CH 8为立体声；非Dolby E信号则不做处理；再将信号收录或直送演播室。3）演播室、后期岛针对环绕声节目的处理按照立体声和环绕声的声道分布，在制作域制定严格的立体声和环绕声制作规范，以适应环绕声和立体声的混播，也就是要充分考虑环绕声节目使用立体声素材，以及立体声节目使用环绕声素材。如果需要动态元数据，则应在制作域将元数据写入SDI的VANC区，并一直传输到Dolby D编码器端。4）播出域对各类节目的音频处理方式播出域首先根据单声道、立体声、环绕声等不同节目的声道类型，在播出切换台上进行音频声道倒换处理，具体处理方式如下：单声道节目：CH1送CH1、CH2，mute CH3～CH6；立体声节目：CH1、CH2送CH1、CH2，mute CH3～CH6；环绕声节目：CH1～CH8直通；响度控制器根据信号中CH3~CH6是否为mute来决定是否上混，如果mute则证明该信号为单声道或立体声，先进行响度控制再进行声音上混为5.1环绕声，如果不mute则证明该信号为环绕声，不做任何处理。这样保证送至传输域的CH1～CH6为环绕声，CH7、CH8为立体声。5）传输域的音频处理方式高清频道：Dolby D编码器使用CH1～CH6的音频信号进行AC-3编码，通过元数据检测，如果携带有动态元数据，则将该元数据与音频信号一起进行编码，如果不存在动态元数据，则写入预置的5.1环绕声静态元数据。标清频道：将CH7、CH8声道进行MPEG layer2编码。

图2 环绕声采用PCM应用的音频元数据处理解决方案二示意图

2.3 解决方案三，环绕声采用PCM音频，高清频道支持环绕声、立体声播出，标清频道立体声播出。本方案与方案二基本一致，区别在于取消了播出系统的声音上混，并且要求所有环绕声节目必须携带正确的元数据信息，高清频道节目不再是全部环绕声播出，会存在环绕声和立体声两种播出形态。传输域的Dolby D编码器预置一个AC-3 2.0静态元数据。高清频道： Dolby D编码器对音频信号进行AC-3编码，通过元数据检测，如果携带元数据，则依据该元数据信息的参数对CH1～CH6的音频信号进行AC-3 5.1编码；如果没有元数据，则在编码时对CH1、CH2的音频信号进行AC-3 2.0编码，并写入预置的AC-3 2.0静态元数据。标清频道：将CH7、CH8声道进行MPEG layer2编码。

图3 环绕声采用PCM应用的音频元数据处理解决方案三示意图

2.4 三个解决方案的对比总的来说，这三种解决方案从效果上，都能满足观众在收看高清频道时的各种听音环境，最大程度地还原艺术效果，但他们在实施上各有利弊，在音频编码上也各有特点。方案一优点是Dolby E到Dolby D解决方案成熟，应用案例多，缺点是全台均需部署Dolby E编解码器，设备采购、维护成本大，多次编解码会造成声画不同步。方案二避免在各制作岛或演播室部署Dolby E编解码器，降低了成本，立体声节目在播出域将实时自动上混，这种全环绕声播出，减少了用户在终端AC-3 5.1和AC-3 2.0转换可能出现的问题，但也会让听众质疑“假环绕声”效果。方案三可以真实地还原环绕声和立体声节目，但要求制作人员制作环绕声节目时，必须正确嵌入元数据，全线保证元数据的无误传输，以避免在Dolby D编码时错误识别元数据，造成无解说声的播出事故。 3. 电视台全链路响度管控手段3.1 制定电视节目音频制作的响度规范1）国际通用规范目前国际通用响度规范使用ATSC A/85、ITU-R BS.1770及EBU R.128，其中ATSC A/85建议了建立和保持数字电视音频响度的技术手段，ITU-R BS.1770建议了测量音频节目响度和真正峰值音频电平的算法，EBU R.128建议了音频信号的响度标准化和允许的最大真实峰值电平，将Program Loudness节目响度、Maximum True Peak Level最大真实峰值等用于描述区分音频信号。2）制定台内规范与国际通用规范针对外国人群适用不同的是，中央电视台《电视节目音频制作的响度规范》及其附件的各项关键数值都是针对中国人的人耳特性、主观听觉的舒适区间和视听习惯，结合当前电视节目的实际现状和制作特点制定的，如表1所示。表1：国际规范与台内规范对比表

规范	适用人群	听觉舒适区	目标响度值	允许偏差	最大真实峰值
台内规范	中国人	11-12LU	-24LKFS	±2LU	-2dBTP
EBU R128	欧洲人	---------	-23LKFS	±1LU	-1dBTP
ATSC A85	美国人	7.8LU	-24LKFS	±2LU	-2dBTP

3.2 全台响度控制流程建立适用于电视台制播全流程的响度管控方案，为台内的各个环节制定统一的节目响度标准，全流程部署实施。依据制播流程中不同的特点，对于各视频制作岛、音频制作岛、演播室音频系统、播出总控系统分别采用了不同的响度控制方法和应用策略，如图4所示。

图4：全流程响度控制采取的三种方式

1）手动调节响度以往音频岛、演播室在制作音频过程中，一般是通过“PPM”表以及“VU”表来估算节目素材响度，只能保证声音电平符合相关规范。因此为真正解决节目响度问题，需要引入实时监看响度表和真实峰值，通过手动来调整节目的响度。2）自动控制响度对于视频岛制作音频，以及台外制作节目，如广告等在制作过程中不具备响度监看条件，可以采取基于文件的自动校正的方法，依据节目类型不同采用模板式软件程序控制，进行多倍速响度测量与校正，能够满足非专业音频制作人员对响度控制时效性和易用性的需求。3）实时控制响度在播出系统链路中加入响度控制设备，能够对节目进行信号级的自动响度校正，实现自动监测、自动记录响度指标，还能通过SNMP协议监控网络服务器接收并统计，统计信息包括节目条目的起始时间、结束时间、节目响度、最大短时响度、响度范围和最大真实峰值等数值。 4 结束语高清节目按照声道分布规范制作完成以后，嵌入相应的元数据信息，按照播出传输系统对音频的不同处理方式，提出了三种音频元数据处理的解决方案，以保证到达用户以后环绕声能高质还音，或以正确方式进行声音下混。通过建立符合中国人听觉习惯的响度规范，并在节目制作播出过程中，采取多种响度监看及调整方法，达到响度管控的目的，以保证节目切换时，减少响度的跳变，为观众带来更好的听音感受。编辑：中国新闻技术工作者联合会

评论 点击评论

评论点击评论