Стандарт MPEG-2

Рассмотрим в качестве примера стандарт MPEG-2, который состоит из трех основных частей: системной, видео и звуковой.

Системная часть описывает форматы кодирования для мультиплексирования звуковой, видео- и другой информации, рассматривает вопросы комбинирования одного или более потоков данных в один или множество потоков, пригодных для хра­нения или передачи.

Системное кодирование в соответствии с синтаксическими и семантическими налагаемыми данным стандартом, обеспечивает необходимую и достаточную информацию, чтобы синхронизировать декодирование без переполнения или «недополнения» буферов декодера при различных условиях приема восстановления потоков.

Таким образом, системный уровень выполняет пять основных функций:

• синхронизацию нескольких сжатых потоков при воспроизведении;

• объединение нескольких сжатых потоков в единый поток;

• инициализацию для начала воспроизведения;

• обслуживание буфера;

• определение временной шкалы.

Видеочасть стандарта описывает кодированный битовый поток для высококачественного цифрового видео. MPEG-2 яв­ляется совместимым расширением MPEG-1, он поддерживает чересстрочный видеоформат и содержит средства для поддержки ТВЧ (телевидение высокой четкости).

Стандарт MPEG-2 определяется в терминах расширяемых профилей, каждый из которых, являясь частным случаем стан­дарта, имеет черты, необходимые всем классам приложений.

Иерархические масштабируемые профили могут поддержи­вать такие приложения, как совместимое наземное многопро­граммное ТВ (ТВЧ), пакетные сетевые видеосистемы, обратную совместимость с другими стандартами (MPEG-1 и Н.261) и при­ложениями, использующими многоуровневое кодирование.

Звуковая часть стандарта MPEG-2 определяет кодирование многоканального звука. MPEG-2 поддерживает до пяти полных широкополосных каналов плюс дополнительный низкочастот­ный канал и (или) до семи многоязычных комментаторских ка­налов. Он также расширяет возможности кодирования моно-и стереозвуковых сигналов в MPEG-1 за счет использования поло­винных частот дискретизации (16; 22,05 и 24 кГц) для улучше­ния качества при скоростях передачи 64 кбит/с и ниже.

JPEG-форматы (M-JPEG Cine Pack) основаны на сжатии каж­дого кадра из видеопоследовательности. Этот подход получил на­звание intraframe compression (внутрикадровое сжатие). Стандарт MPEG использует как intraframe, так и interframe compression (межкадровое сжатие). При межкадровом сжатии задаются опор­ные кадры, а последующие и предыдущие вычисляются на их ос­нове. Поэтому межкадровая схема позволяет достичь большего сжатия — не надо хранить каждый кадр, запоминаются только различия между кадрами.



Стандарт MPEG-2 не регламентирует методы сжатия видео сигнала, а только определяет, как должен выглядеть битовый по­ток кодированного видеосигнала, поэтому конкретные алгоритмы являются коммерческой тайной фирм—производителей оборудования. Однако существуют общие принципы, и процесс сжатия цифрового видеосигнала может быть разбит на ряд по­следовательных операций (рис. 3.20):

• преобразование аналогового сигнала в цифровую форму;

• предварительная обработка;

• дискретное косинусное преобразование;

• квантование;

• кодирование.

После аналого-цифрового преобразователя (АЦП) произво­дится предварительная обработка сигнала, которая включает в себя следующие преобразования.

1. Удаление избыточной информации. Например, если фон изображения состоит из идентичных символов (пикселей), то совершенно не обязательно их все передавать. Достаточно опи­сать один пиксель и послать его с сообщением о том, как часто и где он повторяется в изображении.

2. Если исходное изображение передается в виде чересстроч­ных полей, то они преобразуются в кадры с прогрессивной раз­верткой.

3. Сигналы цветности (RGB) преобразуются в цветоразностные сигналы U и V и сигнал яркости Y.

4. Изображение достраивается до кратного 16 количества пикселей по строкам и столбцам, чтобы обеспечить разбиение изображения на целое число макроблоков.

5. Производится преобразование из формата цветности 4 : 4 : 4 в формат 4:2:2 (горизонтальная передискретизация цветоразностных компонентов) или 4:2:0 (горизонтальная и вертикальная передискретизация цветоразностных компонентов).

Квантование. Изображение разбивается на последователь­ность макроблоков, каждый из которых состоит из шести блоков по 8 х 8 пикселей:

• четыре образуют матрицу 16 х 16 и несут информацию о яркости;

• по одному — определяют цветоразностные компоненты U и V, которые соответствуют области изображения, покры­ваемой матрицей 16 х 16 пикселей.

Стандарт предусматривает два формата цветности, каждому из которых соответствует свой порядок блоков в макроблоке (рис. 3.21):

• 4:2:0 — макроблок состоит из шести блоков — четыре блока яркости YD и два блока цветности CR И Св;



• 4:4:4 — макроблок состоит из двенадцати блоков. Он со­держит четыре блока YD, четыре CR и четыре Св.

Производится разбиение потока кадров изображения по ти­пам, для них находятся векторы движения, которые необходимы для повышения предсказуемости величин элементов изображе­ния. Векторы движения обеспечивают компенсацию перемещений в прошедших и последующих кадрах.

Компенсация движения применяется при предсказании текущего кадра на основе предыдущих и интерполяционного предсказания на основе прошедших и последующих изображений. Векторы движения определяются для каждой зоны изображения с размерами

16 х 16 пикселей, т. е. для макроблоков. В большинстве случаев видиеопоследовательности содержат избыточность в двух направлениях — временном и пространственном. Главное статистическое свойство, на котором основана аппаратура сжатия, — меж­элементная корреляция, включающая предположение о корре­лированности последовательных кадров видеоданных. Таким образом, значения отдельных пикселей изображения могут быть предсказаны либо по значениям ближайших пикселей внутри одного кадра (внутрикадровое кодирование), либо по значениям пикселей, расположенных в ближайших кадрах (межкадровое кодирование и компенсация перемещения).

Кодирование. В некоторых случаях, например, при смене ви­деосцены в видеопоследовательности, временная корреляция между ближайшими кадрами очень низка. В таких случаях ре­шающую роль в достижении эффективного сжатия видеоинфор­мации играет внутрикадровая корреляция, т. е. пространствен­ная корреляция пикселей изображения. Однако, если корреля­ция между последовательными кадрами видеоданных высока, то в случае, когда два последовательных кадра имеют схожее или одинаковое содержание, желательно применение межкадровой корреляции пикселей с временным предсказанием. На практике для достижения высокого коэффициента сжатия видеоинформа­ции используется комбинация из двух подходов.

Стандарт MPEG-2 определяет три типа кадров, для каждого из которых предусмотрен свой вид кодирования:

• опорные кадры, так называемые I-кадры (Intra Frames), ко­торые являются основными и кодируются без обращения к другим кадрам, т. е. с использованием информации только этого кадра. Вид кодирования — внутрикадровый, обеспе­чивающий умеренное сжатие. Все остальные кадры анали­зируются процессором, который сравнивает их с опорными, а также между собой;

• Р – кадры (Predicted) — закодированные относительно предыдущих I- или Р- кадров. Кодирование Р- кадров выполняют с использованием алгоритмов компенсации движения и

предсказанием «вперед» по предшествующим I- и Р- кадрам. Они сжаты в 3 раза сильнее, чем I-кадры, и служат опорными для последующих Р- и В-кадров. Компенсация движения, применяемая к макроблокам Р- кадров, вырабатывает два вида информации: векторы движения (разница между базовыми и кодированными макроблоками) и зна­чения ошибок (разница между предсказанными величина­ми и действительными результатами). Если макроблок в Р- кадре не может быть описан с использованием компен­сации движения, что случается при появлении некоторого неизвестного объекта, то он кодируется тем же способом что и макроблок в I -кадре;

• В-кадры (Bidirectionally Predicted) — закодированные отно­сительно предыдущих и последующих кадров, т. е. с двуна­правленным предсказанием и компенсацией движения.

В-кадры имеют наибольшее сжатие.

Таким образом, в стандарте MPEG-2 используются три вида кодирования: внутрикадровое, межкадровое «вперед» с компен­сацией движения, межкадровое двунаправленное, также с ком­пенсацией движения.

Полученные кадры объединяются в группы последова­тельных кадров (GOP — group of pictures). Каждая последо­вательность начинается с I-кадра и состоит из переменного числа Р- и В-кадров. В описаниях алгоритмов кодирования MPEG и его реализаций не содержится никакой информации относительно методов выделения I-, Р- и В-кадров в видеопоследовательности. В начале сцены должен стоять I-кадр, в конце — Р-кадр. Увеличивать долю В-кадров можно только в рамках одной сце­ны, иначе возникнут большие ошибки предсказания и компен­сации движения. Поскольку типичная длительность группы кад­ров (во временном представлении — примерно 0,5 с) значитель­но меньше характерного расстояния между границами сцен, то в большинстве случаев жесткое задание структуры группы кадров не приводит к существенным визуальным ошибкам из-за того, что смена сцен попадает внутрь группы кадров.

На рис. 3.17 изображен порядок кодирования I-, Р- и В-кадров. Верхний ряд кадров демонстрирует исходную последова­тельность на входе кодера, нижний — после кодирования. Основными параметрами GOP являются длина последовательности N и порядок чередования Р- кадров. Например, в последователь­ности кадров, представленной на рис. 3.22, N= 7, М- 3, т. е. ка­ждый третий кадр в последовательности — типа Р.

Из применявшихся до сих пор форматов групп для часто­ты полей 30 Гц типичной была последовательность IBBPBBPBBPBBP/BBIBBP... с N=13 (для первой группы) и M=3, в которой группу составляют 15 кадров, начинающихся с двух В-кадров и одного I-кадра, и каждые два В-кадра переме­жаются с Р- кадром. Для частоты 25 Гц типичной является такая же последовательность, нос с N=12 и М=3. Такой выбор сделан для того, чтобы обеспечить одновременное выполнение требова­нии максимального сжатия и произвольного доступа к любому из кадров последовательности. Между тем именно В-кадры обеспечивают максимальное сжатие, и если бы удалось поднять долю В- кадров в группе, а I-кадрами обозначить границы сцен, то эффективность сжатия была бы увеличена.

Для блоков с использованием компенсации движения находятся разностные ошибки предсказания движения.

Следует упомянуть еще две возможности MPEG-алгоритмов.

Это Motion Estimation (ME, в свободном переводе — оценка перемещений) и Spatial Redundancy (SR — пространственная избыточность). ME — метод, по которому реализуется вычисление Р- и В- кадров по опорным кадрам. Первым шагом в ME является разбиение кадров на блоки 16x16 пикселей. Далее блоки одного кадра сравниваются с соответствующими блоками другого кадра и, если они изменяют положение от кадра к кадру, их перемеще­ние описывается векторами движения, которые и записываются в MPEG-поток.

На следующем этапе кодирования применяется метод про­странственной избыточности, позволяющий еще более сократить объем данных, описывая разность между соответствующими бло­ками. Используя дискретное косинус-преобразова­ние, блоки подразделяются на подблоки 8x8 для отслеживания изменения цвета и яркости.

Очевидно, что чем больше коэффициент сжатия, тем хуже качество. Коэффициент сжатия — это численное выражение со­отношения между объемом сжатого и исходного видеоматериала. Для MPEG сейчас стандартом считается соотношение 200:1, при этом сохраняется неплохое качество видео. Различные вари­анты Motion-JPEG работают с коэффициентами от 5:1 до 100 : 1, хотя даже при уровне в 20 : 1 уже трудно добиться нормального качества изображения. Кроме того, качество видео за­висит не только от алгоритма сжатия (MPEG или Motion-JPEG), но и от параметров цифровой видеоплаты, конфигурации ком­пьютера, а также от программного обеспечения.

Профили MPEG. Как уже отмечалось выше, в стандарте при­меняется концепция профилей и уровней (табл. 3.8).

Стандарт предусматривает пять профилей:

• простой (simple) — для реализации видеопотока без В-кадров;

• главный (main) — для реализации всех уровней, но без масштабируемости;

• масштабируемый по отношению сигнал/шум (SNR scalable);

• пространственно масштабируемый (spatiallyscalable);

• профессиональный (professional 4:2:2), пространственно масштабируемый и масштабируемый по отношению сиг­нал/шум.

Каждый из этих профилей можно подразделить на четыре уровня:

• низкий (LL);

• главный (ML);

• высокий 1440 (Н1440);

• высокий (HL).

Каждому профилю соответствуют определенные наборы on раций по сжатию данных.

В профиле простой используется наименьшее число операций: компенсация движения и гибридное дискретное косинусное преобразование (ДКП, DCT).

Профиль главный содержит дополнительную операцию — предсказание по двум направлениям, что улучшает каче­ство изображения.

Профиль масштабируемый по отношению сиг­нал/шум предусматривает повышение устойчивости системы при снижении отношения сигнал/шум. Поток видеоданных раз­деляют на две части: базовый поток и расширенный поток. Пер­вый несет наиболее значимую информацию, второй — дополни­тельную.

Профиль пространственно масштабируемый содержит все операции предыдущего профиля и новую — разде­ление потока видеоданных по критерию четкости телевизионно­го изображения. Этот профиль обеспечивает переходы между ныне действующим стандартом и ТВЧ.

В рассмотренных четырех профилях при кодировании сигна­лов яркости и цветности используют формат представления ви­деоданных 4:2:0, где число отсчетов сигналов цветности по сравнению с сигналом яркости снижено в 2 раза по горизонталь­ному и вертикальному направлениям.

В профиле профессиональный используют формат 4 : 2 : 2, т. е. число отсчетов сигналов цветности в вертикальном направлении такое же, как и в яркостном сигнале. Кроме этого, предусматривается возможность масштабирования — простран­ственного и по отношению сигнал/шум.

Уровню низкий соответствует недавно введенный класс качества телевизионного изображения — ТВ ограниченной чет­кости. Уровню главный соответствует ТВ обычной четкости. Уровни высокий 1440 и высокий предусмотрены для ТВЧ, где использовано разложение на 1152 активные строки.

Каждый из этих профилей и уровней определяет предельные значения основных параметров битового потока, как это показа­но в табл. 3.8.

Сочетание профиля и уровня образует некоторое подмножество общего стандарта MPEG-2 применительно к различным задачам, для решения которых он предназначен. Такое сочетание принято обозначать аббревиатурой. Например, MP@ML означает главный профиль и главный уровень. Профессиональный профиль в сочетании с главным уровнем (422P@ML) послужил основой принятого в 1996 г. подмножества стандарта MPEG-2 для цифрового телевещания.


8499635849108657.html
8499654276916623.html

8499635849108657.html
8499654276916623.html
    PR.RU™