语音质量(MOS)专题分析
PESQ MOS专题分析:目前话音质量分析主要采用语音感知MOS指标、下行误码率指标(rxqual)。其中语音感知MOS指标包含了下行误码率、切换、时延等多种因素。本专题主要针对第一阶段的数据对MOS指标进行专题分析。
表:第一阶段MOS指标对比表 方式 人工 自动 人工 自动 人工 自动 人工 人工 话音质量 移动比例 移动比例 联通比例 联通比例 电信比例 电信比例 W比例 TD比例 >3.5 3.3-3.5 3.1-3.3 9.10% 7.12% 7.62% 2.9-3.1 5.97% 7.58% 2.7-2.9 3.28% 4.44% 3.33% 5.27% 2.83% 1.70% 6.28% 2.5-2.7 1.56% 3.05% 2.09% 2.45% 5.20% 1.08% 0.76% 4.80% 2.3-2.5 0.73% 2.65% 1.06% 2.35% 3.04% 0.38% 0.49% 3.75% 2-2.3 <2 68.80% 9.73% 60.96% 6.84% 62.24% 6.79% 57.94% 5.16% 0.45% 0.37% 7.37% 0.61% 1.07% 7.49% 1.83% 1.69% 1.26% 0.46% 0.50% 3.60% 2.67% 15.74% 7.06% 12.91% 4.07% 15.41% 43.68% 16.55% 7.33% 36.17% 37.10% 14.45% 6.74% 81.55% 7.49% 4.04% 3.00% 36.50% 22.73% 11.74% 7.93% 表:GSM第一阶段人工和自动路测MOS指标对比表
方式 自动 人工 MOS均值 移动 联通 移动 联通 0-2 2-2.5 2.5-3 3-3.5 3.5-3.8 大于3.8 总数 100.00% 100.00% 100% 51.36% 4.30% 5.72% 11.01% 18.01% 10.40% 50.56% 4.81% 5.04% 11.96% 20.26% 6.58% 0.36% 1.18% 7.21% 1.07% 1.67% 7.85% 22.46% 24.28% 44.51% 100.00% 27.17% 10.49% 51.75% 备注:2G中,人工测试均为华星的MOS盒;3G和自动路测均采用鼎利的MOS盒。
一 鼎利MOS盒分析,五网质量对比情况
话音质量 移动比例 联通比例 电信比例 W比例 TD比例 >3.5 60.96% 57.94% 36.17% 81.55% 36.50% 3.3-3.5 6.84% 5.16% 37.10% 7.49% 22.73% 3.1-3.3 7.12% 7.62% 14.45% 4.04% 11.74% 2.9-3.1 7.58% 12.91% 6.74% 3.00% 7.93% 2.7-2.9 4.44% 4.07% 2.83% 1.70% 6.28% 2.5-2.7 2.3-2.5 3.05% 2.45% 1.08% 0.76% 4.80% 2.65% 2.35% 0.38% 0.49% 3.75% 2-2.3 7.37% 7.49% 1.26% 0.46% 3.60% <2 0.50% 2.67% 备注:分析发现,自动路测系统的MOS值为PESQ-LQ值(2.0);W网和TD网的MOS为映射后的MOS值(2.2);华星仪表为直接PESQ值(2.2),三者之间有一定的关系,但并不一致。
移动比例110.000.00?.00?.00p.00`.00P.00@.000.00%≥3.5≥3.3联通比例电信比例W比例TD比例≥3.1≥2.9 ≥2.7≥2.5≥2.3All
话音质量 移动比例 联通比例 电信比例 W比例 TD比例 ≥3.5 60.96% 57.94% 36.17% 81.55% 36.50% ≥3.3 67.80% 63.10% 73.27% 89.04% 59.23% ≥3.1 74.92% 70.72% 87.72% 93.08% 70.97% ≥2.9 82.50% 83.63% 94.46% 96.08% 78.90% ≥2.7 86.94% 87.70% 97.29% 97.78% 85.18% ≥2.5 89.99% 90.15% 98.37% 98.54% 89.98% ≥2.3 92.64% 92.50% 98.75% 99.03% 93.73% All 100.00% 100.00% 100.00% 100.00% 100.00% 从上图分析可以看出,指标排名如下:
1) 2) 3)
以2.5为标准,质量高低分别为联通W网、电信C网、联通GSM网络、移动GSM网络、移动TD-SCDMA网络; 以3.3分为标准,质量高低分别为联通W网络、电信C网络、移动GSM网络、联通GSM网络、移动TD-SCDMA网络;
以大于3.5为标准,质量高低分别为联通W网络、移动GSM网咯、联通GSM网络、移动TD-SCDMA网络、电信CDMA网络;
结论:从自动路测(鼎利)的PESQ计算方法上看,电信CDMA网络话音质量高于3.5分的比例较低,但是高于3.3和3.1分的比例很高。按照大于3.3(或者3.3以下)的比例,CDMA的MOS质量要好于联通和移动的GSM网络。
二 华星MOS和分析,三网对比测试情况;
话音质量 移动比例 联通比例 电信比例 ≥3.5 3.3-3.5 3.1-3.3 2.9-3.1 2.7-2.9 2.5-2.7 2.3-2.5 2-2.3 <2 5.97% 3.28% 1.56% 0.73% 1.06% 3.04% 汇总 ≥2.5 ≥3.3 68.80% 9.73% 9.10% 0.45% 0.37% 100.00% 98.44% 78.53% 0.61% 1.07% 100.00% 97.25% 69.03% 1.83% 1.69% 100.00% 93.44% 59.09% 62.24% 6.79% 15.74% 7.06% 3.33% 2.09% 15.41% 43.68% 16.55% 7.33% 5.27% 5.20% 移动比例105.00?.00?.00u.00e.00U.00E.005.00%.00.00%>=3.5话音质量 移动比例 联通比例 电信比例 ≥3.5 68.80% 62.24% 15.41% 联通比例电信比例3.3-3.53.1-3.32.9-3.12.7-2.92.5-2.72.3-2.5≥3.3 78.53% 69.03% 59.09% ≥3.1 87.63% 84.77% 75.64% ≥2.9 93.60% 91.83% 82.97% ≥2.7 96.88% 95.16% 88.24% ≥2.5 98.44% 97.25% 93.44% ≥2.3 99.17% 98.31% 96.48% 2-2.3≥2.0 99.62% 98.92% 98.31% <2 <2 100.00% 100.00% 100.00% 结论:从flywire(华星)的PESQ计算方法上看,电信CDMA网络话音质量一直很低,在各个分数段均明显低于联通和移动的GSM网络。
三 PESQ MOS指标测试研究
从1..5.1和1.5.2可以看出,华星PESQ MOS的分值和鼎利PESQ MOS分值相差较大。特别是CDMA的MOS分值,在对比中的排名完全相反。因此我们对PESQ的MOS算法进行了专题测试和研究分析。
1. 研究结论如下:
1. 不同测试厂家的MOS盒使用不同标准,如自动路测采用P862.1标准,分数为PESQ-LQ;华星flywire
MOS算法采用P862.2标准,所选值为PESQ score;3G测试MOS盒采用P862.2标准,选值为PESQ-MOS分值;
2. 语音样本格式不同,华星采用PCM格式,鼎利使用WAV格式,规范定义采用WAV格式(两者相差
微小);
3. MOS盒硬件实现方式不同:MOS盒测试CDMA差别大,其中华星MOS盒原因为MOS到手机两端
均为耳塞插孔,失真较大;而鼎利MOS盒在CDMAMOS评估的时候采用模块化的设计,失真较少。 4. CDMA MOS测试使用终端的不同。在MOS盒相同的情况下,使用三星手机和LG CDMA手机所测
试MOS分值相差较大,平均相差0.4分。
5. 实现方式不同:由于规范并无规定静默音是否含在评估中,因此两家选取方式不同,但是相差不大(在
0.00x之内),以后我们将会做统一要求。
2. 解决建议:
1. 统一PESQ算法标准,选用标准暂定为P862.2。
2. 统一MOS分值计算方法估规范。为了更好的贴近感知度,决定以后使用PESQ值映射成的MOS值最
为最终结果,保留中间过程的PESQ值、PESQ-LQ值。
3. 统一样本格式,所有样本统一为A-law编码的16bit的8000Hz的WAV格式音频文件。 4.CDMA测试值偏差较大的问题,继续研究。
3. 附专题分析情况:
测试时间:2010年8月18日下午,测试地点:北京移动菜市口机楼 参与厂家:华星GSM人工设备,鼎利TD人工设备、鼎利GSM自动设备
测试方法:使用相同的WAV格式样本文件,三套设备于下午2点30分到3点进行测试,记录各自的WAV格式录音文件。暂定华星GSM人工设备生成的录音文件为A,鼎利TD人工设备生成的的录音文件为B, 鼎利GSM自动设备生成的的录音文件为C
分析方法:
1、使用华星后评估软件对所有录音文件进行打分得到分值A1,B1,C1; 2、使用鼎利后评估软件对所有录音文件进行打分得到分值A2,B2,C2; 3、鼎利自动路测前端生成的打分值为C3 通过比较得出下表:
项目 华星人工设备生成WAV 鼎利人工设备生成WAV 鼎利自动设备生成WAV 华星后评估软件 A1 B1 C1 鼎利后评估软件 A2 B2 C2 鼎利自动路测打分软件 C3 现象 A1≠A2 B1=B2 C1=C2但C2≠C3 问题分析:
3.1 C2与C3不一致
鼎利回复:自动路测前端使用MOS评估算法是pesq2.0,人工测试采用是pesq2.2。自动路测上报的是PESQ-LQ值,后评估软件上报的是由PESQ值映射成的MOS值,映射公式为MOS=0.999+(4/(1+EXP(-1.4945*B2+4.6607))),其中B2为PESQ值。该公式已经确认。浙江所有自动路测设备均使用的是是pesq2.0。
解决措施:设计院将根据这次试验完善自动路测设备MOS评估规范。鼎利后续将对自动路测前端进行升级。为了更好的贴近感知度,决定以后使用PESQ值映射成的MOS值最为最终结果,保留中间过程的PESQ值、PESQ-LQ值。
3.2 A1与A2不一致
,鼎利对A文件中的28个样本,打分出来的PESQ值、PESQ-LQ值15个偏高,7个一致,6个偏低。但是B1,B2是一致的,C1与C2也是一致的。
根据ITU标准样本文件进行了下一步验证,经过多个样本的背靠背打分试验,两家打分的结果与ITU完全一样。经过双方的介绍,两家公司的实现方式有一些差别,所以打分结果不完全一致。两者之间的差别主