MPEG2-PS
1. PS介绍
MPEG2-PS是一种多路复用数字音频、视频等的封装容器。PS是Program Stream(程序流或节目流)的简称。程序流将一个或多个分组但有共同的时间基准的基本数据流 (PES)合并成一个整体流。它是为可靠稳定的储存媒介如光盘而设计的。
TS流与PS流的区别在于TS流的包结构是固定长度的,而PS流的包结构是可变长度的。它是分包发送的,每一个包长为188字节。在TS流里可以填入很多类型的数据,如视频、音频、自定义信息等。他的包的结构为,包头为4个字节,负载为184个字节。
PS包与TS包在结构上的这种差异,导致了它们对传输误码具有不同的抵抗能力,因而应用的环境也有所不同。TS码流由于采用了固定长度的包结构,当传输误码破坏了某一TS包的同步信息时,接收机可在固定的位置检测它后面包中的同步信息,从而恢复同步,避免了信息丢失。而PS包由于长度是变化的,一旦某一PS包的同步信息丢失,接收机无法确定下一包的同步位置,就会造成失步,导致严重的信息丢失。因此,在信道环境较为恶劣,传输误码较高时,一般采用TS码流;而在信道环境较好,传输误码较低时,一般采用PS码流。辨别这两种格式最简便的方法是利用MediaInfo工具查看MPEG视频的编码信息,这样就能确定它是何种格式,以方便后续的无损剪辑。一般来说,采用MPEG2-HD格式的高清数码摄像机一般以“MPEG2-PS”来保存文件;而采用AVCHD格式的高清摄像机则通常以“.M2TS”或“.MTS”保存文件。
2. PS封装H264的流程
PS封装按照ISO DEC-13818-1标准。一个PS包包含PS Header, PES Header, PS system header, PS system map等。
针对H264做如下PS封装:每个IDR NALU前一般都会包含SPS、PPS等NALU,因此将SPS、PPS、IDR 的NALU封装为一个PS包,包括ps头,然后加上PS system header,PS system map,PES header+h264 raw data。所以一个IDR NALU PS包由外到内顺序是:PS header | PS system header | PS system Map | PES header | h264 raw data。对于其它非关键帧的PS包,就简单多了,直接加上PS头和PES头就可以了。顺序为:PS header | PES header | h264 raw data。以上是对只有视频video的情况,如果要把音频Audio也打包进PS封装,也可以。当有音频数据时,将数据加上PES header 放到视频PES后就可以了。顺序如下:PS包=PS头|PES(video)|PES(audio),再用RTP封装发送就可以了。
视频数据视频编码器视频PES节目流音频数据音频编码器音频PES分组器复合器节目流分组器传输流复合器传输流系统规范TISO5760-95/d01
对应的解码流程则为:
已解码视频视频解码器通道通道特定解码器节目流解码器时钟控制已解码音频节目流音频解码器TISO5800-95/d05
GB28181对RTP传输的数据负载类型有规定(参考GB28181附录B),负载类型中96-127动态范围:
RFC2250建议96表示PS封装 RFC3016建议97为MPEG-4 RFC3984建议98为H264
即我们接收到的RTP包首先需要判断负载类型,若负载类型为96,则采用PS解复用,将音视频分开解码。若负载类型为98,直接按照H264的解码类型解码。
基于 RTP 的PS 封装首先按照 ISO/IEC 13818-1将视音频流封装成 PS 包,再将 PS 包以负载的方式封装成 RTP 包。PS 包的主要参数设置针对本文档规定的几种视音频格式,PS 包中的流类型(stream_type)的取值如下: a) MPEG-4视频流: 0x10; b) H.264视频流: 0x1B; c) SVAC视频流: 0x80; d) G.711音频流: 0x90; e) G.722.1音频流: 0x92; f) G.723.1音频流: 0x93; g) G.729音频流: 0x99; h) SVAC音频流: 0x9B。
3. PS的结构
3.1 PS包头
节目流包标题
offset 0 4 pack_header() { pack_start_code '01' system_clock_reference_base[32..30] marker_bit system_clock_reference_base[29..15] marker_bit 语法 位数 32 2 3 1 15 1 助记符 bslbf bslbf bslbf bslbf bslbf bslbf 10 13 14 system_clock_reference_base[14..0] marker_bit system_clock_reference_extension marker_bit program_mux_rate marker_bit marker_bit reserved pack_stuffing_length for (i=0;i 包起始码字段 pack_start_code 值为'0000 0000 0000 0000 0000 0001 1011 1010' (0x000001BA)的位串,用来标志一个包的开始。 系统时钟参考字段 system_clock_reference_base,system_clock_reference_extenstion 系统时钟参考(SCR)分两部分编码的42位字段。第一部分system_clock_reference_base是一个长度为33位的字段;第二部分system_clock_reference_extenstion是一个长度为9位的字段。SCR字段指出了基本流中包含ESCR_base最后一位的字节到达节目目标解码器输入端的期望时间。 标记位字段 marker_bit 1位字段,取值'1'。 节目复合速率字段 program_mux_rate 一个22位整数,规定P-STD在包含该字段的包期间接收节目流的速率。其值以50字节/秒为单位。不允许取0值。该字段值在本标准中的节目多路复合流的不同包中取值可能不同。 包填充长度字段 pack_stuffing_length 3位整数,规定该字段后填充字节的个数。 填充字节字段 stuffing_byte 8位字段,取值恒为'1111 1111'。该字段能由编码器插入,例如为了满足通道的要求。它由解码器丢弃。在每个包标题中最多只允许有7个填充字节。 3.2 系统标题 offset 0 4 6 system_header() { system_header_start_code header_length marker_bit rate_bound marker_bit 语 法 位数 32 16 1 22 1 助记符 bslbf uimsbf bslbf uimsbf bslbf 9 10 11 12 audio_bound fixed_flag CSPS_flag system_audio_lock_flag system_video_lock_flag marker_bit vedio_bound packet_rate_restriction_flag reserved_bits while (nextbits()=='1') { stream_id '11' P-STD_buffer_bound_scale P-STD_buffer_size_bound } } 6 1 1 1 1 1 5 1 7 8 2 1 13 uimsbf bslbf bslbf bslbf bslbf bslbf uimsbf bslbf bslbf uimsbf bslbf bslbf uimsbf 系统标题起始码字段 system_header_start_code 取值'0000 0000 0000 0000 0000 0001 1011 1011' (0x000001BB)的位串,指出系统标题的开始。 标题长度字段 header_length 16位字段。指出该字段后的系统标题的字节长度。在本规范将来的扩充中可能扩展该字段。 速率界限字段 rate_bound 22位字段,取值不小于编码在节目流的任何包中的program_mux_rate字段的最大值。该字段可被解码器用于估计是否有能力对整个流解码。 音频界限字段 audio_bound 6位字段,取值是在从0到32的闭区间中的整数,且不小于节目流中音频流的最大数目。 固定标志字段 fixed_flag 1位标志位。置'1'时表示比特率恒定的操作;置'0'时,表示操作的比特率可变。 CSPS标志字段 CSPS_flag 1位字段。 系统音频锁定标志字段 system_audio_lock_flag 1位字段。表示在系统目标解码器的音频采样率和system_clock_frequency之间存在规定的比率。 系统视频锁定标志字段 system_video_lock_flag 1位字段。表示在系统目标解码器的视频帧速率和system_clock_frequency之间存在规定的比率。比率SCFR的值是精确的。 视频界限字段 video_bound 5位字段,取值是在从0到16的闭区间中的整数且不小于节目流中解码过程同时活动的流的最大数目。 分组速率限制标志字段 packet_rate_restriction_flag 1位标志位。若CSPS标识为'0',则该字段的含义未定义。 保留位字段 reserved_bits 7位字段。被保留供ISO/IEC将来使用。它的值应为'111 1111',除非ISO/IEC对它作出其 它规定。 流标识字段 stream_id 8位字段。指示其后的P-STD_buffer_bound_scale和P-STD_buffer_size_bound字段所涉及的流的编码和基本流号码。若取值'1011 1000'(0xB8),则其后的P-STD_buffer_bound_scale和P-STD_buffer_size_bound字段指节目流中所有的音频流;若取值'1011 1001'(0xB9),则其后的P-STD_buffer_bound_scale和P-STD_buffer_size_bound字段指节目流中所有的视频流;若stream_id取其它值,则应该是大于或等于'1011 1100'的一字节值且应根据下表解释为流的编码和基本流号码。 a) MPEG-4视频流: 0x10; b) H.264视频流: 0x1B; c) SVAC视频流: 0x80; d) G.711音频流: 0x90; e) G.722.1音频流: 0x92; f) G.723.1音频流: 0x93; g) G.729音频流: 0x99; h) SVAC音频流: 0x9B。 节目流中的每个基本流应在每个系统标题中通过这种机制精确地规定一次它的P-STD_buffer_bound_scale和P-STD_buffer_size_bound; P-STD缓冲区界限比例字段 P-STD_buffer_bound_scale 1位字段。表示用于解释后续P-STD_buffer_size_bound字段的比例系数。若前面的stream_id表示一个音频流,则该字段值为'0'。若表示一个视频流,则该字段值为'1'。对于所有其它的流类型,该字段值可以为'0'也可以为'1'。 P-STD缓冲区大小界限字段 P-STD_buffer_size_bound 13位无符号整数,取值不小于节目流中流n的所有分组的P-STD缓冲区大小BSn的最大值。若P-STD_buffer_bound_scale的值为'0',则该字段以128字节为单位来度量缓冲区大小的边界。若P-STD_buffer_bound_scale的值为'1',则该字段以1024字节为单位来度量缓冲区大小的边界。 3.3 PES分组头部 offset 0 3 4 PES_packet(){ packet_start_code_prefix stream_id PES_packet_length if(stream_id != program_stream_map && stream_id !=padding_stream && stream_id !=private_stream_2 && stream_id !=ECM && stream_id !=EMM && stream_id !=program_stream_directory && stream_id !=DSMCC_stream && stream_id !=ITU-T Rec.H.222.1 type E stream){ 语 法 位数 助记符 24 8 16 bslbf uimsbf uimsbf