ffmpeg用什么图片压缩算法_附加： FFmpeg概念理解

❶ 附加： FFmpeg概念理解

FFmpeg 介绍

FFmpeg是一套可以用旅凳来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec，为了保证高可移植性和编解码质量，libavcodec里很多codec都是从头开发的。

FFmpeg在Linux平台下开发，但它同样也可以在其它操作系统环境中编译运行，包括Windows、Mac OS X等。这个项目最早由Fabrice Bellard发起，现在由Michael Niedermayer维护。许多FFmpeg的开发人员都来自MPlayer项目，而且当前FFmpeg也是放在MPlayer项目组的服务器上。项目的名称来自MPEG视频编码标准，前面的"FF"代表"Fast Forward"。

FFmpeg模块

libavformat：用于各种音视频封装格式的生成和解析，包括获取解码所需信息脊扰以生成解码上下文结构和读取音视频帧等功能；

libavcodec：用于各种类型声音/图像编解码；

libavutil：包含一些公共的工具函数；

libswscale：用于视频场景比例缩放、色彩映射转换；

libpostproc：用于后期效果处理；

ffmpeg：该项目提供的一个工具，可用于格式转换、解码或电视卡即时编码等；

ffsever：一个 HTTP 多媒体即时广播串流服务器；

ffplay：是一个简单的播放器，使用ffmpeg 库解析和解码，通过SDL显示；

H.264编码原理I／B／P帧

三种帧的说明

I帧:帧内编码帧，I帧表示关键帧，你可以理解为这一帧画面的完整保留；解码时只需要本帧数据就可以完成（因为包含完整画面）

I帧特点:

1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输;

2.解码时仅用I帧的数据就可重构完整图像;

3.I帧描述了图像背景和运动主体的详情;

4.I帧不需要参考其他画面而生成;

5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);

6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;

7.I帧不需要考虑运动矢量;

8.I帧所占数据的信息量比较大。

P帧:前向预测编码帧。P帧表示的是这一帧跟之前的一个关键帧（或P帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别，生成最终画面。（也就是差别帧，P帧没有完整画面数据，只有与前一帧的画面差别的数据）

P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。

P帧特点:

1.P帧是I帧后面相隔1~2帧的编码帧;

2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差);

3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像;

4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧;

5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧;

6.由于P帧是参考帧,它可能造成解码错误的扩散樱镇旦;

7.由于是差值传送,P帧的压缩比较高。

B帧:双向预测内插编码帧。B帧是双向差别帧，也就是B帧记录的是本帧与前后帧的差别（具体比较复杂，有4种情况，但我这样说简单些），换言之，要解码B帧，不仅要取得之前的缓存画面，还要解码之后的画面，通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高，但是解码时CPU会比较累。

B帧的预测与重构

B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。

B帧特点

1.B帧是由前面的I或P帧和后面的P帧来进行预测的;

2.B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量;

3.B帧是双向预测编码帧;

4.B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确;

5.B帧不是参考帧,不会造成解码错误的扩散。

注:I、B、P各帧是根据压缩算法的需要，是人为定义的,它们都是实实在在的物理帧。一般来说，I帧的压缩率是7（跟JPG差不多），P帧是20，B帧可以达到50。可见使用B帧能节省大量空间，节省出来的空间可以用来保存多一些I帧，这样在相同码率下，可以提供更好的画质。

h264的压缩方法:

1.分组:把几帧图像分为一组(GOP，也就是一个序列),为防止运动变化,帧数不宜取多。

2.定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧;

3.预测帧:以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧;

4.数据传输:最后将I帧数据与预测的差值信息进行存储和传输。帧内（Intraframe）压缩也称为空间压缩（Spatial compression）。当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息，这实际上与静态图像压缩类似。帧内一般采用有损压缩算法，由于帧内压缩是编码一个完整的图像，所以可以独立的解码、显示。帧内压缩一般达不到很高的压缩，跟编码jpeg差不多。

帧间（Interframe）压缩的原理是：相邻几帧的数据有很大的相关性，或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性，压缩相邻帧之间的冗余量就可以进一步提高压缩量，减小压缩比。帧间压缩也称为时间压缩（Temporal compression），它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值（Frame differencing）算法是一种典型的时间压缩法，它通过比较本帧与相邻帧之间的差异，仅记录本帧与其相邻帧的差值，这样可以大大减少数据量。

顺便说下有损（Lossy ）压缩和无损（Lossy less）压缩。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小，丢失的数据越多,解压缩后的效果一般越差。此外,某些有损压缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。

H264 NAL头解析

如果NALU对应的Slice为一帧的开始，则用4字节表示，即0x00000001；否则用3字节表示，0x000001。

NAL Header：forbidden_bit，nal_reference_bit（优先级）2bit，nal_unit_type（类型）5bit。标识NAL单元中的RBSP数据类型，其中，nal_unit_type为1， 2， 3， 4， 5的NAL单元称为VCL的NAL单元，其他类型的NAL单元为非VCL的NAL单元。

0：未规定

1：非IDR图像中不采用数据划分的片段

2：非IDR图像中A类数据划分片段

3：非IDR图像中B类数据划分片段

4：非IDR图像中C类数据划分片段

5：IDR图像的片段

6：补充增强信息（SEI）

7：序列参数集（SPS）

8：图像参数集（PPS）

9：分割符

10：序列结束符

11：流结束符

12：填充数据

13：序列参数集扩展

14：带前缀的NAL单元

15：子序列参数集

16 – 18：保留

19：不采用数据划分的辅助编码图像片段

20：编码片段扩展

21 – 23：保留

24 – 31：未规定

H.264的SPS和PPS串，包含了初始化H.264解码器所需要的信息参数，包括编码所用的profile，level，图像的宽和高，deblock滤波器等。

码率：256～512 kb/s

帧率：15～20fps

分辨率：1280x720(HD) 640x368(VGA) 1920x1080(UHD)

AAC（Advanced Audio Coding）

中文名：高级音频编码，出现于1997年，基于MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同开发，目的是取代MP3格式。2000年，MPEG-4标准出现后，AAC重新集成了其特性，加入了SBR技术和PS技术，为了区别于传统的MPEG-2 AAC又称为MPEG-4 AAC。

优点：相对于mp3，AAC格式的音质更佳，文件更小。

不足：AAC属于有损压缩的格式，与时下流行的APE、FLAC等无损格式相比音质存在“本质上”的差距。加之，传输速度更快的USB3.0和16G以上大容量MP3正在加速普及，也使得AAC头上“小巧”的光环不复存在了。

音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级，22.05KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。

比特率是指每秒传送的比特(bit)数。单位为 bps(Bit Per Second)，比特率越高，传送数据速度越快。声音中的比特率是指将模拟声音信号转换成数字声音信号后，单位时间内的二进制数据量，是间接衡量音频质量的一个指标。视频中的比特率（码率）原理与声音中的相同，都是指由模拟信号转换为数字信号后，单位时间内的二进制数据量。

信道编码中，K符号大小的信源数据块通过编码映射为N符号大小的码字，则K/N成为码率，其中假设编码前后的符号表没有变化。

FFMPEG中结构体很多。最关键的结构体可以分成以下几类：

解协议（http,rtsp,rtmp,mms）

AVIOContext，URLProtocol，URLContext主要存储视音频使用的协议的类型以及状态。URLProtocol存储输入视音频使用的封装格式。每种协议都对应一个URLProtocol结构。（注意：FFMPEG中文件也被当做一种协议“file”）

解封装（flv,avi,rmvb,mp4）

AVFormatContext主要存储视音频封装格式中包含的信息；AVInputFormat存储输入视音频使用的封装格式。每种视音频封装格式都对应一个AVInputFormat 结构。

解码（h264,mpeg2,aac,mp3）

每个AVStream存储一个视频/音频流的相关数据；每个AVStream对应一个AVCodecContext，存储该视频/音频流使用解码方式的相关数据；每个AVCodecContext中对应一个AVCodec，包含该视频/音频对应的解码器。每种解码器都对应一个AVCodec结构。

存数据

视频的话，每个结构一般是存一帧；音频可能有好几帧

解码前数据：AVPacket

解码后数据：AVFrame

AVCodec

AVCodec是存储编解码器信息的结构体

const char *name：编解码器的名字，比较短

const char *long_name：编解码器的名字，全称，比较长

enum AVMediaType type：指明了类型，是视频，音频，还是字幕

enum AVCodecID id：ID，不重复

const AVRational *supported_framerates：支持的帧率（仅视频）

const enum AVPixelFormat *pix_fmts：支持的像素格式（仅视频）

const int *supported_samplerates：支持的采样率（仅音频）

const enum AVSampleFormat *sample_fmts：支持的采样格式（仅音频）

const uint64_t channel_layouts：支持的声道数（仅音频）

int priv_data_size：私有数据的大小

1.注册所有编解码器：av_register_all();

2.声明一个AVCodec类型的指针，比如说AVCodec

first_c;

3.调用av_codec_next()函数，即可获得指向链表下一个解码器的指针，循环往复可以获得所有解码器的信息。注意，如果想要获得指向第一个解码器的指针，则需要将该函数的参数设置为NULL。

AVCodecContext

这是一个描述编解码器上下文的数据结构，包含了众多编解码器需要的参数信息

如果是单纯使用libavcodec，这部分信息需要调用者进行初始化；如果是使用整个FFMPEG库，这部分信息在调用 av_open_input_file和av_find_stream_info的过程中根据文件的头信息及媒体流内的头部信息完成初始化。其中几个主要域的释义如下：

extradata/extradata_size：这个buffer中存放了解码器可能会用到的额外信息，在av_read_frame中填充。一般来说，首先，某种具体格式的demuxer在读取格式头信息的时候会填充extradata，其次，如果demuxer没有做这个事情，比如可能在头部压根儿就没有相关的编解码信息，则相应的parser会继续从已经解复用出来的媒体流中继续寻找。在没有找到任何额外信息的情况下，这个buffer指针为空。

time_base：

width/height：视频的宽和高。

sample_rate/channels：音频的采样率和信道数目。

sample_fmt：音频的原始采样格式。

codec_name/codec_type/codec_id/codec_tag：编解码器的信息。

AVStream

该结构体描述一个媒体流

主要域的释义如下，其中大部分域的值可以由av_open_input_file根据文件头的信息确定，缺少的信息需要通过调用av_find_stream_info读帧及软解码进一步获取：

index/id：index对应流的索引，这个数字是自动生成的，根据index可以从AVFormatContext::streams表中索引到该流；而id则是流的标识，依赖于具体的容器格式。比如对于MPEG TS格式，id就是pid。

time_base：流的时间基准，是一个实数，该流中媒体数据的pts和dts都将以这个时间基准为粒度。通常，使用av_rescale/av_rescale_q可以实现不同时间基准的转换。

start_time：流的起始时间，以流的时间基准为单位，通常是该流中第一个帧的pts。

ration：流的总时间，以流的时间基准为单位。

need_parsing：对该流parsing过程的控制域。

nb_frames：流内的帧数目。

r_frame_rate/framerate/avg_frame_rate：帧率相关。

codec：指向该流对应的AVCodecContext结构，调用av_open_input_file时生成。

parser：指向该流对应的AVCodecParserContext结构，调用av_find_stream_info时生成。

AVFormatContext

这个结构体描述了一个媒体文件或媒体流的构成和基本信息

这是FFMpeg中最为基本的一个结构，是其他所有结构的根，是一个多媒体文件或流的根本抽象。其中:nb_streams和streams所表示的AVStream结构指针数组包含了所有内嵌媒体流的描述；iformat和oformat指向对应的demuxer和muxer指针；pb则指向一个控制底层数据读写的ByteIOContext结构。

start_time和ration是从streams数组的各个AVStream中推断出的多媒体文件的起始时间和长度，以微妙为单位。

通常，这个结构由av_open_input_file在内部创建并以缺省值初始化部分成员。但是，如果调用者希望自己创建该结构，则需要显式为该结构的一些成员置缺省值——如果没有缺省值的话，会导致之后的动作产生异常。以下成员需要被关注：

probesize

mux_rate

packet_size

flags

max_analyze_ration

key

max_index_size

max_picture_buffer

max_delay

AVPacket

AVPacket定义在avcodec.h中

FFMPEG使用AVPacket来暂存解复用之后、解码之前的媒体数据（一个音/视频帧、一个字幕包等）及附加信息（解码时间戳、显示时间戳、时长等）。其中：

dts 表示解码时间戳，pts表示显示时间戳，它们的单位是所属媒体流的时间基准。

stream_index 给出所属媒体流的索引；

data 为数据缓冲区指针，size为长度；

ration 为数据的时长，也是以所属媒体流的时间基准为单位；

pos 表示该数据在媒体流中的字节偏移量；

destruct 为用于释放数据缓冲区的函数指针；

flags 为标志域，其中，最低为置1表示该数据是一个关键帧。

AVPacket 结构本身只是个容器，它使用data成员指向实际的数据缓冲区，这个缓冲区可以通过av_new_packet创建，可以通过 av_p_packet 拷贝，也可以由FFMPEG的API产生（如av_read_frame），使用之后需要通过调用av_free_packet释放。

av_free_packet调用的是结构体本身的destruct函数，它的值有两种情况：(1)av_destruct_packet_nofree或 0；(2)av_destruct_packet，其中，前者仅仅是将data和size的值清0而已，后者才会真正地释放缓冲区。FFMPEG内部使用 AVPacket结构建立缓冲区装载数据，同时提供destruct函数，如果FFMPEG打算自己维护缓冲区，则将destruct设为 av_destruct_packet_nofree，用户调用av_free_packet清理缓冲区时并不能够将其释放；如果FFMPEG不会再使用该缓冲区，则将destruct设为av_destruct_packet，表示它能够被释放。对于缓冲区不能够被释放的AVPackt，用户在使用之前最好调用av_p_packet进行缓冲区的克隆，将其转化为缓冲区能够被释放的AVPacket，以免对缓冲区的不当占用造成异常错误。而 av_p_packet会为destruct指针为av_destruct_packet_nofree的AVPacket新建一个缓冲区，然后将原缓冲区的数据拷贝至新缓冲区，置data的值为新缓冲区的地址，同时设destruct指针为av_destruct_packet。

AVFrame

构体保存的是解码后和原始的音视频信息。AVFrame通过函数av_frame_alloc()初始化，该函数仅仅分配AVFrame实例本身，而没有分配其内部的缓存。AVFrame实例由av_frame_free()释放；AVFrame实例通常分配一次，重复使用，如分配一个AVFrame实例来保留解码器中输出的视频帧（此时应在恰当的时候使用av_frame_unref()清理参考帧并将AVFrame归零）。该类所描述的数据通常由AVBuffer的API来保存一个引用计数，并保存于AVFrame.buf

/AVFrame.extended_buf，在至少存在一个参考的时候（如AVFrame.buf[0] != NULL），则该对象被标记为“被引用”。在此情况下，AVFrame所包含的每一组数据必须包含于AVFrame的缓存中。

AAC格式ADTS

ADTS流跟Raw流，

1.ADTS是个啥

ADTS全称是(Audio Data Transport Stream)，是AAC的一种十分常见的传输格式。

AAC解码器都需要把AAC的ES流打包成ADTS的格式，一般是在AAC ES流前添加7个字节的ADTS header。也就是说你可以吧ADTS这个头看作是AAC的frameheader。

ffmpeg写 mp4+aac时呢，音频有两个值得注意的地方。

1 写aac音频时，要添加两个字节的信息到AVCodecContext.

2 ffmpeg 写AAC音频数据不能含有ADTS头

在AAC ES流前添加7个字节的ADTS header。也就是说你可以吧ADTS这个头看作是AAC的frameheader。

tvOS必须要支持 bitcode. (iOS bitcode项可选的) 所以在编译的时候Makefile要加上 CFLAGS= -fembed-bitcode 。如果用xcode编译lib，要在Build Settings—>custom compiler flags —>cflags 加上OTHER_CFLAGS="-fembed-bitcode" 。

FFmpeg优化

1 内存优化。内存往上涨。没能及时回收。最好能够使用手动管理内存。

解码优化，看ffmpeg文档，最新的解码库，解码效率，稳定性，综合性考虑。

YUV->RGB OpenGLES shader来显示。

FFmpeg转码

1.分离视频音频流

ffmpeg -i input_file -vcodec -an output_file_video//分离视频流

ffmpeg -i input_file -acodec -vn output_file_audio//分离音频流

2.视频解复用

ffmpeg –i test.mp4 –vcodec –an –f m4v test.264

ffmpeg –i test.avi –vcodec –an –f m4v test.264

3.视频转码

ffmpeg –i test.mp4 –vcodec h264 –s 352 278 –an –f m4v test.264 //转码为码流原始文件

ffmpeg –i test.mp4 –vcodec h264 –bf 0 –g 25 –s 352

278 –an –f m4v test.264 //转码为码流原始文件

ffmpeg –i test.avi -vcodec mpeg4 –vtag xvid –qsame test_xvid.avi //转码为封装文件

//-bf B帧数目控制，-g 关键帧间隔控制，-s 分辨率控制

4.视频封装

ffmpeg –i video_file –i audio_file –vcodec –acodec output_file

5.视频剪切

ffmpeg –i test.avi –r 1 –f image2 image-%3d.jpeg //提取图片

ffmpeg -ss 0:1:30 -t 0:0:20 -i input.avi -vcodec -acodec output.avi //剪切视频

//-r 提取图像的频率，-ss 开始时间，-t 持续时间

6.视频录制

ffmpeg –i rtsp://192.168.3.205:5555/test –vcodec out.avi

7.YUV序列播放

ffplay -f rawvideo -video_size 1920x1080 input.yuv

8.YUV序列转AVI

ffmpeg –s w*h –pix_fmt yuv420p –i input.yuv –vcodec mpeg4 output.avi

system调用

#include<stdio.h>#include<string.h>intmain(){charcommand[50];strcpy(command,"ffmpeg –s w*h –pix_fmt yuv420p –i input.yuv –vcodec mpeg4 output.avi");system(command);return(0);}

FFMpeg 中比较重要的函数以及数据结构如下:

数据结构:

(1) AVFormatContext

(2) AVOutputFormat

(3) AVInputFormat

(4) AVCodecContext

(5) AVCodec

(6) AVFrame

(7) AVPacket

(8) AVPicture

(9) AVStream

初始化函数:

(1) av_register_all()

(2) avcodec_open()

(3) avcodec_close()

(4) av_open_input_file()

(5) av_find_input_format()

(6) av_find_stream_info()

(7) av_close_input_file()

音视频编解码函数:

(1) avcodec_find_decoder()

(2) avcodec_alloc_frame()

(3) avpicture_get_size()

(4) avpicture_fill()

(5) img_convert()

(6) avcodec_alloc_context()

(7) avcodec_decode_video()

(8) av_free_packet()

(9) av_free()

文件操作:

(1) avnew_steam()

(2) av_read_frame()

(3) av_write_frame()

(4) mp_format()

其他函数:

(1) avpicture_deinterlace()

(2) ImgReSampleContext()

❷ FFmpeg调研报告

FFmpeg 是非常强大的多媒体编解码框架，堪称多媒体处理的瑞士军刀，是集录制，转码，流的完整的跨平台多媒体解决方案。本身涵盖了大量的多媒体处理工具。

而我们常说的视频，其实是包含的视频，音频甚至还有字幕的一个整体。因为视频本身是三维的数据，在计算中直接存储空间非常大，通常无法接受，所以，会对其进行一些编码和压缩，这个过程通常是有损的，但却极大了降低了它的存储空间。

视频数据相比位图数据多了一维，但其本身还是由像素点组成。

编码、压缩在流媒体领域是一项非常重要的技术：从 H264码流到 YUV流的过程称为解码，反之称为编码。

帧是流的基本元素，即视频流中的图像。在原始流里，各帧都一样。但经过编码压缩后的帧，通常分为下面几种：

注意：I、P、B帧，并不是依据视频帧数据内部的元素的不同来区分的，从解码后的帧本身而言，它穗态们没有任何区别。仅仅是在编码时，对帧处理的方式不同而已。

首先视频文件与视频编码格猜猜源式是两个概念。

一般包括以下部分：

FFmpeg 处理视频转码时的常规过程如下：

各自状态的数据产物如下：

视频中会有音频，视频，它们在文件有各自的编码压缩方式，但为了传输过程方便，将压缩过的音频和视频捆绑在一起进行传输。首先就需要将媒体文件中的各个音频，视频，字幕流等分开。
这一步叫Demux（解复用）。总结就是把不同的流从某种容器（文件）中解析出来。如上图所示，并且，一个媒体文件中，还可以分别有不止一个音频，视频和字幕流。

媒体数据为了降低存储量，针对里面的音频，视频，字幕等都会采取特定方式的编码压缩。
这一步便对各自的流采用其对应的解码算法进行处理。得到原始流。
即这一步是以帧为单位实现压缩数据到原始数据转换。

这一步再按照目标的编码方式对流进行编码。即这一步是以帧为单位实现原始数据到压缩数据转换。

Demux的逆操作，把不同的流按照某种容器的规则放入容器

按照编解码器的位置划分：

FFmpeg中filter分为：

因其仅有解码部分的硬件加速，缺少编码部分的加速。且Nvidia有单身以NVENC和NVDEC替代掉这一块的意思，这里不多做细节介绍。细节请看文档

支持的格式有：

优点：

各种型号的设计支持情况请看 Video Encode and Decode GPU Support Matrix

查看硬件支持：

使用CUDA解码：

使用CUVID解码：

转码，使用NVDEC和NVENC

可以使用 -hwaccel_device <id> 指定GPU。GPU id可以通过 nvidia-smi 查看

该方案一般通过QSV来进行加速。QSV（Quick Sync Video）即Intel的集成加速器，该方便优缺点如下：

优点：

查看CPU是否支持的方法如下：

该方案支持h264，h265，mjpeg，mpeg2video，vp8，vp9的编解码，和vc1的解码。

更细节的支持情况如下：

解码支持情况：

编码支持情况：

QuickSync对于编码解码在CPU使用率上都有着非常不错的提升。编码提升效果特别明显。
关于抽帧的各种表现，待之后测试补上。TODO

更多细节可以参考官方文档

FFmpeg使用QSV加速的一些命令行参数可参考

使用ffprobe提取兆运出IPB帧的时间

抽取IPB帧到jpg图片：

抽帧流程其实与转码类似，一样是输入视频文件，对视频文件进行Demux，解码视频流，得到原始视频帧，然后挑选相应的视频帧按jpeg编码，mux输出到一个个文件中。

那么要加快抽帧的效率，便是想办法加快上面这各个阶段的速率

抽帧会伴随着大量的文件输出。在有很多抽帧任务并行时，理论上会对磁盘造成大量的随机写入。

其他途径优化：

结合以上各节点，这里列出一些进一步的调研方向：

此方案针对加快解码，加快编码。基于目前的信息来看：

该方案会有非常大的优化效果，若有足够支持QSV的CPU机器，那么该方案可行性非常大。

待进一步补充相关测试数据

同上，针对解码编码方面尝试加快进行优化。目前情况：

该方案理论上也应该会有不错的优化效果。但就目前的一些简单测试来看，即使能达到好的加速效果，其成本也未必能够接受

待进一步补充相关测试数据

该方案针对加快数据读取和数据输出。考虑的点主要是整个抽帧过程中是否对视频文件有不小量的随机读取，大量抽帧任务并行时，会有巨量的图片输出。这块是否会产生大量的随机写入，降低效率。

待进一步补充相关测试数据

该方案针对加解码（更确切地说是减少不必要的解码操作）

例如对于一秒一帧的均匀抽帧，我们针对这种情况，修改为，尽量抽取每一秒中的关键帧。做个伪的一秒一帧的均匀抽帧。这种模式不一定能为所有抽帧情况加速，但若能为大头的需求加速也不错

待进一步测试验证可行性及补充相关测试数据

针对解码编码方面尝试加快进行优化。

ffmpeg中，同样格式可能有多个编码解码器，比如jpeg的就会有mjpeg，libjpeg等。不同的库实现，性能，质量会有一些差距，通过测试实验，改善参数，或许一定程度上能优化性能。

待进一步补充相关测试数据

针对流程的优化。如前面的单帧抽帧， -ss 参数的不同位置会影响 ffmpeg 抽取的时间。理论上，ffmpeg 本身设计是为了通用，而对于专用于抽帧的场景，ffmpeg本身可能存在一些没必要的工作，尝试通过参数和源码级别来优化，或许能省掉这部分的资源消耗。

待进一步补充相关测试数据

TODO

FFmpeg官网
3GP/MP4 视频文件格式解析及其播放原理（转）
FFmpeg视频抽帧那些事
FFmpeg原理和架构
FFmpeg 硬件加速方案概览（上）
FFmpeg 硬件加速方案概览（下）
FFmpeg wiki HWAccelIntro
视频和视频帧：FFMPEG+Intel QSV硬解的环境安装篇
视频和视频帧：视频和帧基础知识整理

❸ ffmpeg基础知识

ffmpeg是音视频处理的c库，音视频在网络传输过程中，由于数据量大，所有需要进行压缩
压缩目的为了去除冗余信息，冗余信息分为：
1、空间冗余：图像相邻像素之间有较强的相关性
2、时间冗余：视频序列的相邻图像之间内容相似
3、编码冗余：不同像素值出现的概率不同
4、视觉冗余：人的视觉系统对某些细节不敏感
5、知识冗余：规律性的结构可由先验知识和背景知识得到

● 无损压缩(Winzip)
压缩前解压缩后图像完全一致
压缩比低

● 有损压缩(H.264)
压缩前解压缩后图像不一致
压缩比高
利用人的视觉系统的特性(人眼能见的动画频率和图像细节有限制)

音视频压缩其实就是对音视频进行编码,
视频编码格式

音频编码格式

封装格式

流媒体协议

YUV ，是一种颜色编码方法。常使用在各个视频处理组件中。 YUV在对照片或视频编码时，考虑到人类的感知能力，允许降低色度的带宽。
YUV是编译true-color颜色空间（colorspace）的种类，Y'UV,YUV, YCbCr ， YPbPr 等专有名词都可以称为YUV，彼此有重叠。“Y”表示 明亮度 （Luminance、Luma），“U”和“V”则是**[色度]
YUV格式有两大类：(平面格式)planar和(打包格式)packed。

1.planar:先存储Y，然后U，然后V

2.packed:yuv交叉存储

还有我们常说的YUV420sp与YUV420p。

YUV420sp: 一种two-plane模式,即Y和UV分为两个平面,U、V交错排列。

YUV420p: 先把U存放完后，再存放V。UV是连续的。

YUV420的数据大小为：亮度（行×列）＋ V（行×列/4) + U（行×列/4）即：W H 3/2,

普遍的编码器都以接受planar的I420数据(YUV420P)

4*4的I420数据排列如下:

y1 y2 y3 y4

y5 y6 y7 y8

y9 y10 y11 y12

y13 y14 y15 y16

u1 u2 u3 u4

v1 v2 v3 v4
Android相机的采集的视频是NV21(YUV420sP), 也是YUV的格式只不过U和V的交叉的。
y1 y2 y3 y4

y5 y6 y7 y8

y9 y10 y11 y12

y13 y14 y15 y16

u1 v1 u2 v2

u3 v3 u4 v4
在采集相机数据时需要把UV数据给转换成上面的顺序。

I frame ：帧内编码帧，I 帧通常是每个 GOP（MPEG 所使用的一种视频压缩技术）的第一个帧，经过适度地压缩，做为随机访问的参考点，可以当成图象。I帧可以看成是一个图像经过压缩后的产物。

P frame: 前向预测编码帧，通过充分将低于图像序列中前面已编码帧的时间冗余信息来压缩传输数据量的编码图像，也叫预测帧；

B frame: 双向预测内插编码帧，既考虑与源图像序列前面已编码帧，也顾及源图像序列后面已编码帧之间的时间冗余信息来压缩传输数据量的编码图像，也叫双向预测帧；

I frame:自身可以通过视频解压算法解压成一张单独的完整的图片。

P frame：需要参考其前面的一个I frame 或者B frame来生成一张完整的图片。

B frame:则要参考其前一个I或者P帧及其后面的一个P帧来生成一张完整的图片。

PTS：Presentation Time Stamp。PTS主要用于度量解码后的视频帧什么时候被显示出来

DTS：Decode Time Stamp。DTS主要是标识读入内存中的帧数据在什么时候开始送入解码器中进行解码。

在没有B帧存在的情况下DTS的顺序和PTS的顺序应该是一样的。

DTS主要用于视频的解码,在解码阶段使用。PTS主要用于视频的同步和输出.在显示的时候使用。

如上图：I frame 的解码不依赖于任何的其它的帧.而p frame的解码则依赖于其前面的I frame或者P frame.B frame的解码则依赖于其前的最近的一个I frame或者P frame 及其后的最近的一个P frame.

libavformat

用于各种音视频封装格式的生成和解析，包括获取解码所需信息以生成解码上下文结构和读取音视频帧等功能；音视频的格式解析协议，为 libavcodec 分析码流提供独立的音频或视频码流源。

libavcodec

用于各种类型声音/图像编解码；该库是音视频编解码核心，实现了市面上可见的绝大部分解码器的功能，libavcodec 库被其他各大解码器 ffdshow，Mplayer 等所包含或应用。

libavfilter

filter（FileIO、FPS、DrawText）音视频滤波器的开发，如水印、倍速播放等。

libavutil

包含一些公共的工具函数的使用库，包括算数运算字符操作；

libswresample

原始音频格式转码。

libswscale
（原始视频格式转换）用于视频场景比例缩放、色彩映射转换；图像颜色空间或格式转换，如 rgb565,rgb888 等与 yuv420 等之间转换。

音视频解5封装流程：

ffmpeg解码流程：

❹ 使用 ffmpeg 实现 MP4 与 GIF 的互转

在 Mac OSX 上使用 Homebrew 安装 ffmpeg ：

从视频中第二秒开始，截取时长为3秒的片段转化为 gif

默认转化是中等质量模式，若要转化出高质量的 gif，可以修改比特率

注意 sacle 值必须是偶数，这里的 -1 表示保持长宽比，根据宽度值自适应高度。

如果要求压缩出来的视频尺寸长宽都保持为猛迟偶数，可以使用 -2

定义帧率 16fps:

-an 就是禁止音频输出

也可以将 gif 转为其他视频格式

使用 ImageMagick 可以方便第提取 gif 图片的第 N 帧图像。

安装 ImageMagick

提取拆知数第一帧

通过 [0] 就可以提取出 gif 的第一帧图像。

有些 GIF 转化出来的 MP4 不能被 Mac QuickTime Player.app 播放，需要添加 pixel formal 参数

使用旅首 yunv420p 需要保证长宽为偶数，这里同时使用了 scale=420:-2 。

wiki 解释： QuickTime Player 对 H.264 视频只支持 YUV 色域 4:2:0 方式的二次插值算法。

❺ FFmpeg功能命令汇总

前言

如此强大的FFmpeg，能够实现视频采集、视频格式转化、视频截图、视频添加水印、视频切片、视频录制、视频推流、更改音视频参数功能等。通过终端命令如何凳睁实现这些功能，Richy在本文做一记录，以备之后查阅。

注意：下面一一列举的命令，未归类整理，命令参数供参考。

如果参数有误，大家可对照首局文章－ FFmpeg参数命令，进行修改。

第一组

1.分离视频音频流

ffmpeg -i input_file -vcodec -an output_file_video//分离视频流ffmpeg -i input_file -acodec -vn output_file_audio//分离音频流

2.视频解复用

ffmpeg –i test.mp4 –vcodec –an –f m4v test.264

ffmpeg –i test.avi –vcodec –an –f m4v test.264

3.视频转码

ffmpeg –i test.mp4 –vcodec h264 –s 352*278 –an –f m4v test.264

//转码为码流原始文件

ffmpeg –i test.mp4 –vcodec h264 –bf 0 –g 25 –s 352*278 –an –f m4v test.264 //转码为码流原始文件

ffmpeg –i test.avi -vcodec mpeg4 –vtag xvid –qsame test_xvid.avi //转码为封装文件

说明： -bf B帧数目控制，-g 关键帧间隔控制，-s 分辨率控制

4.视频封装

ffmpeg –i video_file –i audio_file –vcodec –acodec output_file

5.视频剪切

ffmpeg –i test.avi –r 1 –f image2 image-%3d.jpeg //提取图片

ffmpeg -ss 0:1:30 -t 0:0:20 -i input.avi -vcodec -acodec output.avi //剪切视频//-r 提取图者粗让像的频率，-ss 开始时间，-t 持续时间

6.视频录制

ffmpeg –i rtsp://192.168.3.205:5555/test –vcodec out.avi

7、利用ffmpeg视频切片

主要把视频源切成若干个.ts格式的视频片段然后生成一个.m3u8的切片文件索引提供给html5的video做hls直播源

命令如下：

ffmpeg -i 视频源地址 -strict -2 -c:v libx264 -c:a aac -f hls m3u8文件输出地址

8、ffmpeg缩放视频

假设原始视频尺寸是 1080p（即 1920×1080 px，16:9），使用下面命令可以缩小到 480p：

命令如下：

ffmpeg -i 视频源地址 -vf scale=853:480 -acodec aac -vcodec h264 视频输出地址（如：out.mp4）

各个参数的含义：-i a.mov 指定待处理视频的文件名-vf scale=853:480 vf 参数用于指定视频滤镜，其中 scale 表示缩放，后面的数字表示缩放至 853×480 px，其中的 853px 是计算而得，因为原始视频的宽高比为 16:9，所以为了让目标视频的高度为 480px，则宽度 = 480 x 9 / 16 = 853-acodec aac 指定音频使用 aac 编码。注：因为 ffmpeg 的内置 aac 编码目前（写这篇文章时）还是试验阶段，故会提示添加参数 “-strict -2” 才能继续，尽管添加即可。又或者使用外部的 libfaac（需要重新编译 ffmpeg）。-vcodec h264 指定视频使用 h264 编码。注：目前手机一般视频拍摄的格式（封装格式、文件格式）为 mov 或者 mp4，这两者的音频编码都是 aac，视频都是 h264。out.mp4 指定输出文件名上面的参数 scale=853:480 当中的宽度和高度实际应用场景中通常只需指定一个，比如指定高度为 480 或者 720，至于宽度则可以传入 “-1” 表示由原始视频的宽高比自动计算而得。即参数可以写为：scale=-1:480，当然也可以 scale=480:-1

9、ffmpeg裁剪

有时可能只需要视频的正中一块，而两头的内容不需要，这时可以对视频进行裁剪（crop），比如有一个竖向的视频 1080 x 1920，如果指向保留中间 1080×1080 部分命令如下：ffmpeg -i 视频源地址 -strict -2 -vf crop=1080:1080:0:420 视频输出地址（如：out.mp4）

其中的 crop=1080:1080:0:420 才裁剪参数，具体含义是 crop=width:height:x:y，其中 width 和 height 表示裁剪后的尺寸，x:y 表示裁剪区域的左上角坐标。比如当前这个示例，我们只需要保留竖向视频的中间部分，所以 x 不用偏移，故传入0，而 y 则需要向下偏移：(1920 – 1080) / 2 = 420

10. 转视频格式

ffmpeng -i source.mp4 -c:v libx264 -crf 24 destination.flv

其中 -crf 很重要，是控制转码后视频的质量，质量越高，文件也就越大。

此值的范围是 0 到 51：0 表示高清无损；23 是默认值（如果没有指定此参数）；51 虽然文件最小，但效果是最差的。

值越小，质量越高，但文件也越大，建议的值范围是 18 到 28。而值 18 是视觉上看起来无损或接近无损的，当然不代表是数据（技术上）的转码无损。

第二组

1.ffmpeg 把文件当做直播推送至服务器 (RTMP + FLV)

ffmpeg - re -i demo.mp4 -c - f flv rtmp://w.gslb.letv/live/streamid

2.将直播的媒体保存到本地

ffmpeg -i rtmp://r.glsb.letv/live/streamid -c streamfile.flv

3.将一个直播流，视频改用h264压缩，音频改用faac压缩，送至另一个直播服务器

ffmpeg -i rtmp://r.glsb.letv/live/streamidA -c:a libfaac -ar 44100 -ab 48k -c:v libx264 -vpre slow -vpre baseline -f flv rtmp://w.glsb.letv/live/streamb

4.提取视频中的音频,并保存为mp3 然后输出

ffmpeg -i input.avi -b:a 128k output.mp3

第三组

1.获取视频的信息

ffmpeg -i video.avi

2.将图片序列合成视频

ffmpeg -f image2 -i image%d.jpg video.mpg

上面的命令会把当前目录下的图片（名字如：image1.jpg. image2.jpg. 等...）合并成video.mpg

3.将视频分解成图片序列

ffmpeg -i video.mpg image%d.jpg

上面的命令会生成image1.jpg. image2.jpg. ...

支持的图片格式有：PGM. PPM. PAM. PGMYUV. JPEG. GIF. PNG. TIFF. SGI

4.为视频重新编码以适合在iPod/iPhone上播放

ffmpeg -i source_video.avi input -acodec aac -ab 128kb -vcodec mpeg4 -b 1200kb -mbd 2 -flags +4mv+trell -aic 2 -cmp 2 -subcmp 2 -s 320x180 -title X final_video.mp4

5.为视频重新编码以适合在PSP上播放

ffmpeg -i source_video.avi -b 300 -s 320x240 -vcodec xvid -ab 32 -ar 24000 -acodec aac final_video.mp4

6.从视频抽出声音.并存为Mp3

ffmpeg -i source_video.avi -vn -ar 44100 -ac 2 -ab 192 -f mp3 sound.mp3

7.将wav文件转成Mp3

ffmpeg -i son_origine.avi -vn -ar 44100 -ac 2 -ab 192 -f mp3 son_final.mp3

8.将.avi视频转成.mpg

ffmpeg -i video_origine.avi video_finale.mpg

9.将.mpg转成.avi

ffmpeg -i video_origine.mpg video_finale.avi

10.将.avi转成gif动画（未压缩）

ffmpeg -i video_origine.avi gif_anime.gif

11.合成视频和音频

ffmpeg -i son.wav -i video_origine.avi video_finale.mpg

12.将.avi转成.flv

ffmpeg -i video_origine.avi -ab 56 -ar 44100 -b 200 -r 15 -s 320x240 -f flv video_finale.flv

13.将.avi转成dv

ffmpeg -i video_origine.avi -s pal -r pal -aspect 4:3 -ar 48000 -ac 2 video_finale.dv

或者：

ffmpeg -i video_origine.avi -target pal-dv video_finale.dv

14.将.avi压缩成divx

ffmpeg -i video_origine.avi -s 320x240 -vcodec msmpeg4v2 video_finale.avi

15.将Ogg Theora压缩成Mpeg dvd

ffmpeg -i film_sortie_cinelerra.ogm -s 720x576 -vcodec mpeg2video -acodec mp3 film_terminate.mpg

16.将.avi压缩成SVCD mpeg2

NTSC格式：

ffmpeg -i video_origine.avi -target ntsc-svcd video_finale.mpg

PAL格式：

ffmpeg -i video_origine.avi -target pal-dvcd video_finale.mpg

17.将.avi压缩成VCD mpeg2

NTSC格式：

ffmpeg -i video_origine.avi -target ntsc-vcd video_finale.mpg

PAL格式：

ffmpeg -i video_origine.avi -target pal-vcd video_finale.mpg

18.多通道编码

ffmpeg -i fichierentree -pass 2 -passlogfile ffmpeg2pass fichiersortie-2

19.从flv提取mp3

ffmpeg -i source.flv -ab 128k dest.mp3

第四组

1、将文件当做直播送至live

ffmpeg -re -i localFile.mp4 -c -f flv rtmp://server/live/streamName

2、将直播媒体保存至本地文件

ffmpeg -i rtmp://server/live/streamName -c mp.flv

3、将其中一个直播流，视频改用h264压缩，音频不变，送至另外一个直播服务流

ffmpeg -i rtmp://server/live/originalStream -c:a -c:v libx264 -vpre slow -f flv rtmp://server/live/h264Stream

4、将其中一个直播流，视频改用h264压缩，音频改用faac压缩，送至另外一个直播服务流

ffmpeg -i rtmp://server/live/originalStream -c:a libfaac -ar 44100 -ab 48k -c:v libx264 -vpre slow -vpre baseline -f flv rtmp://server/live/h264Stream

5、将其中一个直播流，视频不变，音频改用faac压缩，送至另外一个直播服务流

ffmpeg -i rtmp://server/live/originalStream -acodec libfaac -ar 44100 -ab 48k -vcodec -f flv rtmp://server/live/h264_AAC_Stream

6、将一个高清流，复制为几个不同视频清晰度的流重新发布，其中音频不变

ffmpeg -re -i rtmp://server/live/high_FMLE_stream -acodec -vcodec x264lib -s 640×360 -b 500k -vpre medium -vpre baseline rtmp://server/live/baseline_500k -acodec -vcodec x264lib -s 480×272 -b 300k -vpre medium -vpre baseline rtmp://server/live/baseline_300k -acodec -vcodec x264lib -s 320×200 -b 150k -vpre medium -vpre baseline rtmp://server/live/baseline_150k -acodec libfaac -vn -ab 48k rtmp://server/live/audio_only_AAC_48k

7、功能一样，只是采用-x264opts选项

ffmpeg -re -i rtmp://server/live/high_FMLE_stream -c:a -c:v x264lib -s 640×360 -x264opts bitrate=500:profile=baseline:preset=slow rtmp://server/live/baseline_500k -c:a -c:v x264lib -s 480×272 -x264opts bitrate=300:profile=baseline:preset=slow rtmp://server/live/baseline_300k -c:a -c:v x264lib -s 320×200 -x264opts bitrate=150:profile=baseline:preset=slow rtmp://server/live/baseline_150k -c:a libfaac -vn -b:a 48k rtmp://server/live/audio_only_AAC_48k

8、将当前摄像头及音频通过DSSHOW采集，视频h264、音频faac压缩后发布

ffmpeg -r 25 -f dshow -s 640×480 -i video=”video source name”:audio=”audio source name” -vcodec libx264 -b 600k -vpre slow -acodec libfaac -ab 128k -f flv rtmp://server/application/stream_name

9、将一个JPG图片经过h264压缩循环输出为mp4视频

ffmpeg.exe -i INPUT.jpg -an -vcodec libx264 -coder 1 -flags +loop -cmp +chroma -subq 10 -qcomp 0.6 -qmin 10 -qmax 51 -qdiff 4 -flags2 +dct8x8 -trellis 2 -partitions +parti8x8+parti4x4 -crf 24 -threads 0 -r 25 -g 25 -y OUTPUT.mp4

10、将普通流视频改用h264压缩，音频不变，送至高清流服务(新版本FMS live=1)

ffmpeg -i rtmp://server/live/originalStream -c:a -c:v libx264 -vpre slow -f flv “rtmp://server/live/h264Stream live=1〃

文／骚之哈塞给（作者）

❻ 图像视频相似度算法

前段时间公司项目用到了语音识别,图像识别,视频识别等,其实不能说是识别,应该说是相似度对比吧,毕竟相似度对比还上升不了到识别哈,等以后有了更深的理解再来讨论修改下!这次就当做一个总结吧!

其实它的原理就是一个把需要的特征总结在一个指纹码里面,进行降维成渣差指纹码,假如个指纹码一模一样,那两张图片就想似了.下面有写怎么编译成唯一标识,再用汉明距离计算两个指纹码的相似度中枝.

图片是采用phash算法,一共分为四步吧.

1.将图片缩放到16*16大小,这是我们选择的合适的大小,假如宽高不一样,直接将其压到16*16,去掉细节,只保留宏观;

2.图片一共是16*16的,共256个像素,我们将图片进行灰度化,灰度化就是只有黑白灰三种,从白到黑,一共分了255层;

3.灰度化之后将图如培皮片进行DCT转换(离散余弦变化),因为为了识别有的图片旋转,这个DCT转换是将图片进行了一种压缩算法;

4.我们对这个算法进行了优化,因为之前是计算像素的均值,我们为了更准确,我们取RGB,rgb一共分为255个像素,我们将255个像素分为16段,如果像素大于0-16记为0,17到32记为1,直到255,这样就得到255位的二进制,这就是这张图片的指纹码.

得到唯一标识的指纹码之后怎么去计算像素度呢?

通过汉明距离比较两个二进制距离,如果距离小于<10的话,我们就判定两张图片相似.如果两个指纹码(二进制)一模一样,我们就判定两个是一张图片,或者类似;

视频的话我们是通过ffmpeg(ff am pig),它是一个专门处理视频的框架,可以从视频中按针提取图片.然后就按照图片的相似度取对比了...

ffmpeg用什么图片压缩算法

与ffmpeg用什么图片压缩算法相关的内容