首先说明一下,本人只是从MP4(AVC)封装的h264视频流中成功把裸流提取出来并进行播放,而这一段MP4封装的流中是不含音频流的,因为项目并不需要实现这个,所以我也就偷懒了,需要从含有音频流的MP4当中提取h264的裸流,还请详细阅读ISO/IEC 14496系列文档,特别是12和15部分。
原理说明如下,.h264文件只需要写入sps,pps以及后面的视频裸流(nalu)就可以播放了,播放器可以选择VLC或者迅雷看看播放器,其它的没有测试过。
MP4文件是由一个一个box组成的文件,每个box的开头是box的length(4 byte),紧接着是4 byte的box type,如果length是0x01的话,那么在box type后面接着的就是8 byte的box length,再剩下的就都是box所包含的内容了,注意,box length包含box length本身的字节数。当然,如果length是0x00的话,我就不是非常了解了,因为没有测试过,具体还是看一下的标准吧。
以下是 ISO/IEC 14496-12 4.2 对于box的定义。
aligned(8) class Box (unsigned int(32) boxtype, optional unsigned int(8)[16] extended_type) { unsigned int(32) size;
unsigned int(32) type = boxtype;
if (size==1) { unsigned int(64) largesize;
} else if (size==0) {
// box extends to end of file
}
if (boxtype==‘uuid’) {
unsigned int(8)[16] usertype = extended_type;
}
}
上面的图片当中,第一个box的长度是0x18,类型是ftyp,第二个box的长度是 0xa3c0,类型是mdat。注意,这里的话,我是认为滴吧mdat的box放置于moov的box前面,只是为了能更好地说明签名length的表示方式。在没有封装音频的MP4文件当中,mdat的box中内容就是slice了,每一个slice包含了nalu的长度(默认4 byte)以及nalu的数据。
第一步,我们先来提取视频的sps,以及pps,一开始,看别人关于一些转码的视频总是不明白,为什么每次总是要先录制一段大概0.1秒的视频,然后才开始正式录制视频。原来相同的手机在相同的录制设定下sps以及pps是相同的,而moov的box有时候是放在mdat的box之后的,我们需要提取的视频的裸流是从mdat中提取的,这就不难解释了。废话少说,以下是 ISO/IEC 14496-15 5.2.4.1.1关于avcC的数据的定义,这些数据是封装在avcC当中的。
aligned(8) class AVCDecoderConfigurationRecord {
unsigned int(8) configurationVersion = 1;
unsigned int(8) AVCProfileIndication;
unsigned int(8) profile_compatibility;
unsigned int(8) AVCLevelIndication;
bit(6) reserved = ‘111111’b;
unsigned int(2) lengthSizeMinusOne;
bit(3) reserved = ‘111’b;
unsigned int(5) numOfSequenceParameterSets;
for (i=0; i< numOfSequenceParameterSets; i++) {
unsigned int(16) sequenceParameterSetLength ;
bit(8*sequenceParameterSetLength) sequenceParameterSetNALUnit;
}
unsigned int(8) numOfPictureParameterSets;
for (i=0; i< numOfPictureParameterSets; i++) {
unsigned int(16) pictureParameterSetLength;
bit(8*pictureParameterSetLength) pictureParameterSetNALUnit;
}
}
对照上面的定义,我们可以知道avcC的box长度是0x21。lengthSizeminusone是0xff & 0x03=3。这个参数加上1也就是4描述的是在slice里面对于nalu长度描述中的byte的个数(默认是4)。接下来的 0xE1 & 0x1f = 1描述的则是sps的个数,再接下来的两个byte 00 0A 描述的则是第一个sps的长度。所以,这里的sps就是 67 42 80 1E 95 A0 28 0F 5F 40。然后依次就是pps的个数 1 ,第一个pps的长度 00 04, pps就是 68 CE 3C 80。
至此,sps以及pps已经提取完毕。最后提取的就是h264的裸流了,这个裸流就是隐藏在slice当中的nalu了。slice就是mdat当中存放的内容。每个slice是这样定义的,首先是该slice的长度(注:长度的byte数有lengthSizeminusone那个参数决定,另外这里的长度并不包含slice本身所占的byte数目)。
当提取完毕以后,在sps,pps以及每个nalu前写入h264中的start code( 00 00 00 01),即可播放。以下是我所提取的视频,sps以及pps与上述的相同。
以上仅仅是本人在MP4学习中对MP4格式的一些理解,如果有什么错误,还望指出。