构建干涉仪测向系统的数据评估体系
叶翠环
(国家新闻出版广电总局厦门监测台)
【摘要】 基于中短波干涉仪测向系统和我台自主开发的测向软件,通过深入分析和挖掘测向数据、监测信号指标数据,实现了监测和测向系统的实时互动,解决了测试数据不足的问题。通过对测向数据示向度中值、离散度、变化率和置信度等参数的研究,初步形成了完整的测向结果科学评估体系,实现了测试数据事后综合分析,可对获取的数据进行多方位的深入分析,提高测向数据的可信度。【关键词】 信号采集 测向数据 监测数据 数据分析1 引言无线电测向是无线电管理的一种技术手段,在整个无线电监测中有着重要的地位。由于短波信号的稳定性差而且短波信道十分拥挤,导致短波测向难度大,示向游动,测向模糊。通过测向员人工测量获取的测试数据非常有限,而且由于测量数据变化非常快,在短时间内通过人眼观察来获取准确的数据难度很大。2 测向数据分析和算法厦门台自行开发的测向软件实现了测向数据和监测数据的自动采集。现在操作员只需要输入一个频率就可以得到所有来波方向的方位角、场强等信息,与数据库的比较可以帮助操作员了解这个角度所存在的电台,结合对频率的了解,可以找到一个可能的发射地点。计算出的数据还包括效果评分和置信度,对于发射地点变更也有判断。2.1 示向度数据算法分析由于短波信号的不稳定性,获取的信号是非常离散的,自动获取发射地点的准确位置难度很大,我们通过算法对测试数据进行了深入研究和分析。(1)数据的筛选:我们首先对测量的数据进行筛选,筛选前对测量数据按照360个等分来进行统计,代表方向360°,统计示向度在每个等分出现的次数,小数点后的数据不予考虑,去掉过于离散的测试数据。由于发射机的位置是不变的,但在传输过程中由于电离层的不稳定,及测向机本身的误差,导致示向度数据变化较大,但总体来讲,总是会在实际的发射方向上有一定的集中度。自动框选出所需要的数据,是获取准确的示向结果的关键。考虑到示向度数据的连续性,由于测试数据比较分散,要自动框选难度较大,通过采用量能连续累计的方法来框选数据,选择以5°作为量能的累加依据(经过多次实际测量验证),即两个统计格栅只要不超过5°就累加,超过的就重新开始累加。框选数据与测量数据的个数和测量数据的离散度有关系,测量数据越多,框选时难度越大,可能导致各测量数据间距过小,离散数据没有明显的分界线,导致区间和量能的统计出现难度,这种情况下一般可能将5°作为量能的累加依据更改为3°。过少的测量数据,有时信号离散较大时,量能累加各段数据时,有时难以找到能量突增的统计区间,通过实际测量与对比,每组统计测量数据以50-100为宜。(2)示向度的中值算法:示向度的中值算法借鉴于短波场强时间-概率的统计方法,引入了新的统计理念,在示向度统计中是这样定义的:① 示向度中值Φ50:在一组示向度测试数据中,有50%的次数达到或者超过的值为这组数据的示向度中值Φ50。② 示向度离散度ΔΦ: 在一组示向度测试数据中,有10%的次数达到或者超过的值为这组数据的示向度上十分值Φ10。在一组示向度测试数据中,有90%的次数达到或者超过的值为这组数据的示向度下十分值Φ90。每组数据离散度定义如下:③ 示向度变化率δ:在一组示向度测试数据中,单个示向度上下通过示向度中值Φ50的次数,注意统计该参数时,示向度的数据应按采集到的数据顺序排列,不能按大小进行排列。有了对示向度的三种参数的定义,实际在计算时又可以采取两种计算方法,一种为数据筛选前的算法,另一种为数据筛选后的算法,筛选前与筛选后统计数据分析出以下结果:(3)框选数据的占比度分析在框选数据后,还可以采用取90%的能量方法,去掉左右两边的占比量比较小的数据,数据计算的准确度还会提高。实际框选数据的计算方法还依赖于累加统计值相对于全部统计值的百分比,这个比值定义为框选数据的占比度,实际上就是有效数据比。这个比值可以成为评估示向度数据准确与否的一个重要依据。这个数据越大,一般而言数据集中度就高,再配合示向度离散度ΔΦ的大小一起判断,示向度离散度ΔΦ越小,数据集中度越高,测试数据的可信度也就越高。要注意的是在数据累加中,如果还有另外一个示向度区间存在占比度比较高的数据集中区时,如超过10%以上,可能在改信道上还有一个信号存在,可与语音识别引擎配合分析。2.2 示向度数据的置信度分析从上述分析来看,在统计后,只给出一个最后的结果不利于分析数据,存在不足,有的结果虽然也接近理论值,但其可靠程度还需要其它参数进行验证,因此引入置信度的概念。对于利用收测值对示向度进行估测可以考虑采用统计理论中的区间估计。真实的示向度是总体参数,而利用多个收测值作为样本均值可以估计总体均值,也就是实际值。具体到测向数据,也就是说在一定的概率条件下,根据收测数据的统计值求出实际示向度所在的区间。这个区间范围除了与规定好的概率条件有关以外,还和样本数据的数量、均值以及标准差有关。区间估计的特点是它不是指出被估计参数的确定数值,而是指出被估计参数的可能范围,同时对参数落在这一范围内给定相应的概率保证程度。参数的可能范围是估计的准确性问题,而相应的概率保证程度(置信度)是估计的可靠性问题。在作估计时常常希望准确性尽可能提高,而且可靠性也不能小,但是这两个要求是矛盾的。在样本容量不变的条件下,要缩小估计区间,提高估计准确性,势必减少置信度,降低估计的可靠性。如果希望在保证一定准确性的同时达到高可靠性,则只能提高样本容量,也就是收测数据的数量。在总体方差未知的情况下,对总体均值区间估计的公式如下:对应测量数据而言,在同一数据区间(区间上限与下限的差值)的条件下,置信度越高表明数据的可信度越大。2.3 复杂信道下弱信号的测试方法优化在对一个信号较弱的电台进行长时间测向时,或存在同频干扰等其他干扰信号时的测向时,自动测向系统的优势尤为明显,主要有:(1)在测试前要对信号质量进行评估,采用语音评估的方法。(2)可以采用频谱分析法。采集中频信号的频谱,计算载波的能量谱和两个边带的能量谱,分析其变化,判断信号的调制质量,当信号质量较好时,两个边带的能量谱对称性好,能量谱变化范围大。(3)频率偏差判定法。读取信号的频率偏差,要准确起见,接收机应接入频标信号,去除接收机本身的频率偏差,在测试周期内,观察和统计频率偏差曲线,数据偏移范围收敛的越好,表示信号的接收效果越好。(4)调幅度参数优选法。读取信号的调幅度,可在测量周期内,统计10%的时间概率值和90%的时间概率统计值,这两个值之差越大越好,90%的时间概率统计值越小越好,越小代表频道清净。(5)场强强度和稳定度分析法。读取信号的场强值,可以读取测向系统返回的场强值,也可以读取监测接收机返回的电平值,通过计算每个测试周期的场强时间概率值,分析数据的大小和变化的范围。场强值越大,稳定性越好越好,表示信号的质量越好。这个参数最好还要和其他参数一并分析更好。通过以上方法的综合判定,可以优选出一段或几段数据,来进行分析计算,而人靠主观判断难以捕获最佳测向时间窗口,难以框选出合适的测试数据。3 监测指标数据的分析和算法监测指标数据包括场强、调幅度、频偏、占用带宽、信噪比等,这些数据也是同时获取。通过对比一个接收效果好的电台和一个效果较差的电台,几个重要的指标数据分析如下:(1)场强分析:随时间变化的场强常用″50%时间-概率场强″来表示,有时并同时用″10%时间-概率场强″与″90%时间-概率场强″来表示。″50%时间-概率场强″称为中值(或中位值)场强。″10%与90%时间-概率场强″分别称为准最大值(上十分值)与准最小值(下十分值)场强,两个值的差值称为衰落深度。两个信号场强对比数据显示强信号场强要明显高于弱信号,强信号衰落深度要小于弱信号,稳定性也要好于弱信号,但这只能作为判断电台效果好坏的条件之一。当信道上有强烈干扰时,也能达到场强高,衰落深度小的状态。(2)调幅度分析:调幅度的分析与场强的分析方法有些差异也有相同之处,同样也可以用10%准最大值(上十分值)与90%准最小值(下十分值)来分析,差值为准最大值与最小值的差。调幅度的分析方法是,分析调幅度先看最小值和准最小值,最小值越小,说明信道越清净,干扰信号也越小。通过大量的实际测量表明,当信道上有干扰存在时,由于其干扰信号一直存在不会消失,就会导致信号的最低调幅度偏大,最低调幅度越大,则干扰越大,效果越差。有的电台调幅度开不足,会导致准最大值变小,也会导致接收效果的下降。一个信号好,声音饱满的电台,其最小值越小越好,准最大值与最小值的差越大越好,调幅度的最大值不宜超过100%,否则会产生过调失真,一般准最大值达到或接近100%时,应为噪声信号。中值统计数据可以作为分析调幅度的中轴线,用于统计调幅度曲线上穿或下穿该线的次数,穿越次数越多越好,而且穿越的密度越均匀越好,这些均可作为分析和判断信号效果好坏的重要依据。当节目为音乐节目时,由于音乐节目的信号是连续的,不像是语音节目会有停顿,会导致最低调幅度偏大,尤其是播打击乐节目时尤为明显,解决的方法是通过语音识别引擎,先分析是否是音乐节目。(3)中频带宽分析:带宽的分析方法与调幅度类似,一个好的信号既要有很多6kHz以上的带宽,又要有很多2kHz以下的带宽,说明边带信号变化丰富,那节目效果就会更好。同样可以统计带宽的准最大值和准最小值,计算差值,越大越好。(4)频率偏差分析:频率偏差的分析是考察一个信号效果与稳定与否的一个重要参数,在测量信号的频率偏差时,对被测信号要求很高,信号有干扰或稳定性差时,频率偏差测试结果偏离实际值会越大。分析可以采用频点散落区间统计法来评估信号的好坏,即散落频率区间越小的数量占比越大,表示效果越好,如可采用频率偏差绝对值为10Hz、20Hz、……100Hz的统计次数占总次数的百分比进行评估,超过100Hz的频率偏差按100Hz来统计,数据依次累加,获得统计结果,对比强弱两个电台的频率偏差统计结果可以看出,强信号在10Hz内占有绝大多数,而弱信号则占比很小,信号越弱占比就会越小。考虑到设备的误差和发射机的实际频率误差,一般都不会超过10Hz,实际分析时,占比能超过50%时,可以获得比较理想的测试效果。(5)信噪比分析:信噪比是一种广为应用的简单客观评价方法,高信噪比是高质量语音的必要条件,但不是高质量语音的充分条件。强信号信噪比数据大且离散度小,这个数据是判断信号效果好坏的重要条件之一,而且可以采用中位值数据比较法来判断,实际运用中,信噪比能到10dB以上,测试数据的可信度就会比较高。但该参数来自测向设备,无法与示向度数据同时获取,如数据采集有先后,判断可信度就会大打折扣,但也可以作为参考依据之一来考虑。4 参数评估与判断流程测向和监测各项数据均能作为数据评估的依据之一,但这些数据在评估的过程中所起到的作用是不一样的,有些指标可以作为测试数据有效与否的判断先决条件,判断流程的验证和优化是系统成功与否的关键因数,参数评估、判断流程如图所示:(1)测试对象和效果的识别:数十年来,电台是否是被测的电台只能靠人工来判断,广播电台的综合效果只能靠人来评判。应用与中科院联合开发的语音识别和评估引擎,经过几年的运行和不断优化,其评估的准确性可达到90%左右。在验证了测试对象后,就可以进行自动语音效果的评估,采用机器来自动判别语音质量。声音质量评价采用5分制进行综合评分。通过对音频信号分类,还可将语音信号区分为静音、噪声、音乐、话语等种类, 获得声音质量评价结果后应考虑以下几种情况,并采用不同的策略:① 若能到3分以上的效果,后期对测试结果的分析判定就有了很高的可靠保证;② 若效果介于2-3分左右,就应适当增加测试的周期,获取最佳的时间窗口,来获取满意的结果;③ 若效果介于1-2分左右,就应增加测试的周期,总测量的周期一般不能低于30分钟,通过判断数据的离散度和置信度,来分析数据的可靠性,要对多组测试结果进行分析,一般可获得比较满意的结果;④ 语音识别引擎可以判断信道上是否还有其他电台存在,若判断该信道上有两个电台或更多,在通过几组数据的测试后,框选数据就要考虑几个数据的累加段的结果,若两个电台的发射位置与测试点的方向小于5°时,分析结果可能出现误判。⑤ 若效果介于1分以下,还可以再延长测试周期,但测向数据的可信度就大大的降低了。可见,语音识别和评估引擎的引入,为后期分析提供了采用策略的依据。(2)监测数据的辅助分析、评估:监测数据的分析重点是调幅度和频偏数据,通过建立不同效果的调幅度和频偏数据模板,对比其变化的范围和小频偏数据的统计,再加上场强大小和时间概率的的分析,基本可获得满意的辅助分析结果。(3)干扰条件下,获取数据的再分析:在干扰条件下,要获得满意的测试结果可以采用以下两种方法:① 最优时间窗口法:在多个测量周期内,测量周期一般定义为30秒到1分钟,通过各项参数的筛选,分析出最佳的一组测试数据作为最终的测试结果。② 分组数据再统计分析法:在多个测量周期内,测量周期一般定义为30秒到1分钟,通过各项参数的筛选,如果无法得到比较满意的分析周期数据,可以通过上述的测向数据分析方法,对每组统计分析后的数据再归为一组进行框选、累加、中值统计和可信度的分析。如每组获得100个数据,共获得30组的数据,先从100个数据中求出一个示向度值,这样得到30个示向度数据,用同样的方法对这获得30个示向度结果进行分析,再获得一个最终的结果,其准确度得到很大的提升,这是人工监测无法想象的。对于自动获取的示向度数据,一方面可以排除对人的依赖,另一方面,通过对信号质量的分析评估,可以最大限度的减少电离层对测向数据的影响。也就是说,系统可以选择在电离层传输情况最好,信号质量最好的条件下,完成测向任务,以获得最好的测向数据。5 结论数据分析需要通过长期的测试和在工作中的实际应用,对系统的体系架构、数据流程和统计分析算法进行不断的优化和完善,通过对测向数据示向度中值、离散度、变化率和置信度的参数的分析研究,初步形成了完整的测向结果的科学评估体系,可对测试数据进行事后综合分析,建立了对测向数据的研究和验证模本,对提升测向系统的智能化水平发挥重要作用。 编辑:中国新闻技术工作者联合会
评论 点击评论