Лекции по ЦО АВС2

Министерство Российской Федерации
по связи и информатизации


Сибирский государственный университет
Телекоммуникаций и информатики





Г.Х. Гарсков






ПОСТРОЕНИЕ И ЭКСПЛУАТАЦИЯ ЦИФРОВЫХ ТЕЛЕВИЗИОННЫХ СЕТЕЙ













Учебное пособие

Новосибирск - 2009

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ
В.1 Обзор существующих методов доставки цифровых телевизионных программ к потребителю..
В.2 Регулярные сигналы и их аналитическое описание..

13 LINK \l "а" 141 ЦИФРОВЫЕ ФИЛЬТРЫ15
1.1 Явление Гиббса..
1.1.1 Сущность явления Гиббса..
1.1.2 Параметры эффекта.
1.1.3 Последствия для практики.
13 LINK \l "б" 141.2 Весовые функции15
1.2.1 Нейтрализация явления Гиббса в частотной области..
1.2.2 Основные весовые функции.
13 LINK \l "в" 141.3 Типы фильтров15.
13 LINK \l "г" 141.4 Разностное уравнение15...
13 LINK \l "д" 141.5 Нерекурсивные фильтры15..
1.5.1 Методика расчетов НЦФ..
1.5.2 Идеальные частотные фильтры
1.5.3 Конечные приближения идеальных фильтров
1.5.3.1 Применение весовых функций
1.5.3.2 Весовая функция Кайзера
13 LINK \l "е" 141.6 Рекурсивные фильтры15......
1.6.1 Принципы рекурсивной фильтрации.
1.6.2 Режекторные и селекторные фильтры
1.6.2.1 Комплексная z-плоскость. .
1.6.3 Билинейное Z-преобразование
1.6.4 Типы рекурсивных частотных фильтров
13 LINK \l "ж" 141.7 Импульсная характеристика фильтров15
1.8 Передаточные функции фильтров
1.9 Частотные характеристики фильтров
13 LINK \l "и" 141.10 Частотный анализ цифровых фильтров15
1.10.1 Расчёт фильтров по частотной характеристике
1.11 Фильтрация случайных сигналов.
113 LINK \l "к" 14.12 Структурные схемы цифровых фильтров15
1.13 Фильтры Чебышева
1.14 Фильтры Баттерворта..
1.15 Фильтры Бесселя.
2 13 LINK \l "а1" 14АНАЛОГО-ЦИФРОВОЕ ПРЕОБРАЗОВАНИЕ15..
2.1 Цифровая обработка звуковых сигналов..
2.2 Основы аналого-цифрового преобразования...
2.2.1Основные понятия и определения
213LINK \l "а2"14.3 Структура и алгоритм работы ЦАП15..
2.4 13 LINK \l "а3" 14Структура и алгоритм работы АЦП15.
2.4.1 Параллельные АЦП
2.4.2 АЦП с поразрядным уравновешиванием
2.4.3 АЦП с плавающей точкой
13 LINK \l "з1" 143 ЗВУК...15
3.1 Аудиосигнал..
3.1.1 Звуковые волны
3.1.2 Звук как электрический сигнал
3.1.3 Фаза...
3.1.4 Сложение синусоидальных волн...
3.2 13 LINK \l "з2" 14Звуковая система..15
3.2.1 Назначение звуковой системы...
3.2.2 Модель звуковой системы...
3.2.3 Входные датчики...
3.2.4 Выходные датчики...
3.2.5 Простейшая звуковая система..
3.3 13 LINK \l "з3" 14Амплитудно-частотная характеристика..15
3.3.1 Способы записи АЧХ в спецификации звуковых устройств.
3.3.2 Октавные соотношения и измерения...
3.3.3 АЧХ реальных устройств воспроизведения звука..
3.3.4 Диапазон частот голоса и инструментов....
3.3.5 Влияние акустических факторов..
3.4 13 LINK \l "4" 14Единицы измерения, параметры звуковых сигналов15..
3.4.1 Децибел..
3.4.2 Относительная мощность электрических сигналов дБm..
3.4.3 Децибелы и уровень звука...
3.4.4 RMS -- среднеквадратичное значение....
3.4.5 Громкость, уровень сигнала и коэффициент усиления.
3.4.6 Громкость...
3.5 Динамический диапазон..
3.5.1 Запас динамического диапазона..
3.5.2 Выбор динамического диапазона для реальной звуковой системы..
3.6 13 LINK \l "з6" 14Цифровой звук15..
3.6.1 Частота дискретизации. ..
3.6.2 Разрядность. ....
3.6.3 Дизеринг....
3.6.4 Нойс шейпинг....
3.6.5 Джиттер....
3.7 13LINK \l "з7"14Методы и стандарты передачи речи по трактам связи, применяемые в современном оборудовании (7 кГц)15 ......
3.7.1 Импульсно-кодовая модуляция (PCM Pulse-Code Modulation)
3.7.2 m-Law и A-Law кодирование....
3.7.3 Помехоустойчивость методов ИКМ.
3.7.4 Методы эффективного кодирования речи
3.7.5 Кодирование речи в стандарте CDMA.
3.7.6 Речевые кодеки для IP-телефонии
3.7.7 Оценка качества кодирования речи
313 LINK \l "з9" 14.8 Основные понятия цифровой звукозаписи..15
3.8.1 Натуральное цифровое представление данных..
3.8.2 Кодирование РСМ.
3.8.3 Стандартный формат оцифровки звука..
3.8.4 Параметры дискретизации
3.8.5 Качество компакт-диска
3.8.6 Объем звукозаписей..
3.8.7 Формат WAV.
13 LINK \l "з9" 143.9 Формат MP315.
3.9.1 Сжатие звуковых данных..
3.9.2 Сжатие с потерей информации...
3.9.3 Ориентация на человека..
3.9.4 Кратко об истории и характеристиках стандартов MPEG..
3.9.5 Что такое CBR и VBR? ..
3.9.6 Каковы отличия режимов CBR, VBR и ABR?
3.9.7 Методы оценки сложности сигнала
3.9.8 Какие методы кодирования стерео информации используются в алгоритмах MPEG (и других)?
3.9.9 Какие параметры предпочтительны при кодировании MP3?
3.9.10 Какие альтернативные MPEG-1 Layer III (MP3) алгоритмы компрессии существуют?
13 LINK \l "з10" 143.10 OGGVorbis15
3.11 WMA.
3.12 FLAC.
13 LINK \l "з12" 143.13 AAC15
13 LINK \l "в1" 144ВИДЕОСИГНАЛЫ..15
4.1 Общие положения алгоритмов сжатия изображений..
4.1.1 Классы изображений..
4.1.2 Классы приложений
4.1.3 Требования приложений к алгоритмам компрессии..
4.1.4 Критерии сравнения алгоритмов.
13 LINK \l "в2" 144.2 Алгоритмы сжатия15.
13 LINK \l "в3" 144.3 Вейвлет-преобразования15
4.3.1 Вейвлеты, вейвлет-преобразования, виды и свойства..
4.3.2 Непрерывное прямое и обратное вейвлет-преобразования
4.3.3 Ортогональные вейвлеты ..
13 LINK \l "в4" 144.4 Формат сжатия изображений JPEG15.
13 LINK \l "в5" 144.5 JPEG200015.
4.5.1 Общая характеристика стандарта и основные принципы сжатия
4.5.2 Информационные потери в jpeg2000 на разных этапах обработки
4.5.3 Практическая реализация
4.5.4 Специализированные конверторы и просмотрщики..
4.5.5 Основные задачи для развития и усовершенствования стандарта jpeg2000..
13 LINK \l "в5" 144.6 Видеостандарт MPEG15
4.6.1 Общее описание.
4.6.2 Предварительная обработка.
4.6.3 Преобразование макроблоков I-изображений
4.6.4 Преобразование макроблоков Р-изображений..
4.6.5 Преобразование макроблоков В-изображений..
4.6.6 Разделы макроблоков..
13 LINK \l "в7" 144.7 MPEG-1..15
13 LINK \l "в8" 144.8 MPEG-2..15
4.8.1 Стандарт кодирования MPEG-2..
4.8.2 Компрессия видеоданных
4.8.3 Кодируемые кадры..
4.8.4 Компенсация движения.
4.8.5 Дискретно-косинусное преобразование
4.8.6 Профессиональный профиль стандарта MPEG-2
13 LINK \l "в9" 144.9 Стандарт MPEG-415
4.9.1 Особенности стандарта MPEG-4
4.9.2 Основные функции в MPEG-4
13 LINK \l "ц1" 144.9.3 Главные функции в MPEG-4 версия 215
4.9.4 Расширения MPEG-4 за пределы версии 2
13 LINK \l "ц2" 144.9.5 Профайлы в MPEG-415
4.9.6 Верификационное тестирование: проверка работы MPEG.
4.9.6.1 Видео
4.9.6.2 Звук..
13LINK \l "ц4"144.9.7 Промышленный форум MPEG-415
4.9.8 Детальное техническое описание MPEG-4 DMIF и систем
4.9.8.1 DMIF..
4.9.8.2 Демультиплексирование, синхронизация и описание потоков данных.
4.9.8.3 Улучшенная модель синхронизации (FlexTime) .
4.9.8.4 Описание синтаксиса
4.9.8.5 Двоичный формат описания сцены BIFS (Binary Format for Scene description) ..
4.9.8.6 Взаимодействие с пользователем
4.9.8.7 IPR идентификация и защита
4.9.8.8 Информация содержимого объекта
13 LINK \l "ц4" 144.9.8.9 Формат файлов MPEG-4..15
13 LINK \l "ц5" 144.9.8.10. MPEG-J..15
4.9.9 Детальное техническое описание визуальной секции MPEG-4
13 LINK \l "ц6" 144.9.10. Подробное техническое описание MPEG-4 аудио..15
13 LINK \l "ц7" 144.9.11 Плюсы и минусы MPEG-415..
13 LINK \l "ц10" 144.10 Стандарт HDTV15
13 LINK \l "ц11" 145.Принципы построения и особенности внедрения систем цифрового ТВ вещания15
5.1 Глобальная модель систем цифрового вещания
5.2 Определение и классификация систем доставки
5.3 Система цифрового телевизионного вещания DVB
13 LINK \l "ц12" 146.Описание формата DVB-S215
13 LINK \l "ц13" 147. Система цифровогоо наземного ТВ вещания DVB-T 15
7.1 Основные схемы сетей DVB-T
13 LINK \l "ц14" 148. Мультиплексирование в системах цифрового ТВ вещания15
8.1 Уровни мультиплексирования
8.2 Статистическое мультиплексирование
13 LINK \l "ц15" 14 8.3 Структура PES-пакета15
13 LINK \l "ц16" 148.4 Структура транспортных пакетов15
13 LINK \l "ц16" 148.5 Передача сервисной информации в системах цифрового ТВ вещания15
8.5.1 Место сервисной информации
8.5.2 Таблицы сервисной информации
8.5.3 Использование таблиц сервисной информации
8.5.4 Передача таблиц сервисной информации
13 LINK \l "ц17" 148.6 Синхронизация в системах цифрового ТВ вещания15
8.6.1 Принцип постоянной задержки
8.6.2 Метки времени
8.6.3 Подстройка системных часов
8.6.4 Метки декодирования и предъявления
13 LINK \l "ц18" 148.7 Коммутация транспортных потоков MPEG-215..
8.7.1 Обобщенная модель коммутатора цифровых потоков
8.7.2 Работа буфера декодера.

13 LINK \l "ц19" 149.Организация многочастотных и одночастотных цифровых радиовещательных сетей15..
9.1Типы сетей наземного цифрового вещания
9.2 Модели канала
13 LINK \l "ц9" 14Литература.15

ВВЕДЕНИЕ
В последние годы активно развиваются и широко внедряются методы цифровой обработки сигналов и в значительной мере заменяют классические аналоговые методы. В цифровых системах передачи эффект накопления помех существенно снижается при использовании регенерации сигналов. Применение помехоустойчивого кодирования существенно повышает достоверность принятых сигналов. Во всем цивилизованном мире процесс внедрения цифровых технологий в телевизионное вещание проходит давно и успешно. Некоторые страны уже перешли на новый формат телевизионного вещания, России же, несмотря на имеющиеся передовые разработки в этой области, только предстоит пройти сложный путь цифровой эволюции в телевидении. Входные и выходные сигналы телевизионных систем, соответственно, на передающей камере и на приемнике, по своему существу являются аналоговыми. Поэтому возникает естественный вопрос: "Зачем нужна цифровая технология?"
Применение цифровой технологии в вещании обеспечивает:
Существенное повышение качества передаваемого изображения и звука.
Уменьшение стоимости систем. Упрощение их настройки и повторяемости параметров систем при производстве.
Уменьшение эксплуатационных расходов, благодаря большей автоматизации управления системами.
Увеличение многообразия программ и возможность предоставления множества услуг в существующем канале вещательной службы.
Уменьшение потребляемой мощности как на передающей, так и на приемной стороне.
Применение цифровой технологии в телевизионной отрасли включает в себя ряд различных технических дисциплин и процессов, к которым относится:
– разработка систем сжатия изображений, звука и данных, отвечающих на запросы систем цифровой передачи и обеспечивающих соответствующий уровень системных характеристик;
– выявление удовлетворяющих системным требованиям характеристик мультиплексирования изображения, звука и данных, модуляции и канального кодирования;
Модель системы вещания можно разделить на следующие три компоненты:
– кодирование источника и сжатие;
– мультиплексирование и транспортировка услуг;
– физический уровень (система модуляции).
Еще в 2004 году правительство РФ подписало документ о целесообразности внедрения в нашей стране европейской системы цифрового телевизионного вещания DVB. Однако внедрение программы откладывалось по разным причинам. И вот, наконец, сформировалась четкая в законодательном плане установка - постепенно разворачивая в регионах зоны цифрового вещания, полностью перевести Россию на «цифру» к 2015 году. Это не просто какой-то очередной новый виток прогресса, это глобальная модернизация телерадиовещания целой страны, которая изменит качество проведения досуга миллионов людей.
Итак, вопрос цифровизации российского телевидения постепенно решается. Российская телевизионная и радиовещательная сеть готовится к обеспечению граждан самыми современными телекоммуникационными услугами.
В.1 ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ ДОСТАВКИ ЦИФРОВЫХ ТЕЛЕВИЗИОННЫХ ПРОГРАММ К ПОТРЕБИТЕЛЮ
К началу 90-х годов стало ясно, что мир стоит на пороге решающих перемен в области телевизионного вещания. Разработка и принятие стандарта MPEG-1, а затем и MPEG-2 показали, что в короткие сроки можно достичь значительного увеличение пропускной способности вещательных каналов, беспрецедентного увеличения качества изображения и звукового сопровождения, развития новых служб. В то же время сложность алгоритмов цифрового сжатия требовала интегральных микросхем высокой степени интеграции, разработка которых оправдана только при очень больших объемах производства. Не вызывало сомнений, что нужны единые стандарты обработки и передачи сигналов, и первым это поняли европейцы. В 1993 г. Группа ведущих европейских компаний-производителей вещательного оборудования образовала некоммерческую организацию по разработке таких стандартов, получившую название DVB Project (Digital Video Broadcasting Project – проект цифрового ТВ вещания).
К настоящему времени членами DVB Project являются около 300 организаций и компаний-производителей оборудования, вещателей, операторов связи из более чем 30 стран не только Европы (включая Россию), но и других континентов.
Одним из первых решений организации было решение принять за основу всех разработок стандарт цифрового сжатия MPEG-2. Однако, как мы знаем, MPEG-2 не охватывает передачу цифрового сигнала по каналам связи и его необходимо было дополнить документами, регламентирующими обработку сигнала перед подачей в канал. Второе важное решение, которое принял DVB Project, – использование общего MPEG-2 мультиплекса во всех средах распространения и максимальная унификация методов помехоустойчивого кодирования и модуляции. Во всех случаях используется код Рида-Соломона с единым размером блока, и в тех случаях, где это необходимо, – сверточный код с набором относительных скоростей.
Для каждой транспортной среды разработан стандарт обработки и передачи транспортного потока, учитывающий ее специфику и в то же время максимально унифицированный со смежными стандартами. Для упрощения взаимного обмена программами выбраны такие параметры обработки, чтобы пропускная способность и число передаваемых ТВ программ во всех случаях оставались бы примерно одинаковыми. Документ для спутникового вещания получил сокращенное наименование DVB-S (Satellite – спутниковый), для сетей кабельного телевидения – DVB-C (Cable – кабельный), для наземного (эфирного) телевидения – DVB-T (Terrestrial – наземный). Отдельные стандарты выпущены для распределительных СВЧ сетей (MMDS), сотовых сетей миллиметрового диапазона (LMDS), коллективных установок спутникового телевидения (SMATV) и других транспортных сред. Разработаны стандарты передачи телетекста, субтитров, графики, данных пользователя. Наконец, для обеспечения полной совместимости цифровых потоков, предаваемых в разных средах, разработаны и внедрены единые таблицы информации о службах SI (Service Information), описывающие структуру размещения служебных данных в транспортном потоке.
Япония предложила свой проект стандарта цифрового вещания, основанный на давней идее интеграции цифровых вещательных служб (ISDB – Integrated Services Digital Broadcast). Как и в связном аналоге – уже реализованной ISDN, в ISDB предлагается объединить общими интерфейсами и протоколами вещательную передачу самого разнообразного контента – видео, звука, графики, других мультимедийных компонентов. Версия стандарта для цифрового эфирного вещания – ISDB-T – проработана в большей степени и предложена для международной стандартизации.
Телевидением высокой четкости (HDTV – High Definition TV) традиционно принято считать систему передачи изображения с увеличенным форматом и числом строк и элементов в строке.
Соединенные Штаты Америки раньше других заявили о своих планах перевода всего эфирного вещания на формат высокой четкости. Еще в середине 80-х годов был создан Комитет по системам перспективного телевидения (ATSC – Advanced Television System Committee) и началась разработка систем высокой четкости, совместимых с аналоговым NTSC, в том числе и по занимаемой в эфире полосе частот. Исследования в области ТВЧ велись и в Европе, и в Японии, но только США вели разработку совместимых систем для эфирного вещания. К 1991г. Разными компаниями было предложено шесть совместимых систем, из них четыре полностью цифровые. ATSC предложил компаниям-разработчикам объединить свои усилия и создать единый стандарт, который бы включал наилучшие решения из всех проектов. Консорциум, названный Большой Альянс, представил в 1995 г. Проект полностью цифрового стандарта, позволяющего передать в полосе 6 МГц, выделенной в США под единичный ТВ канал, одну программу высокой четкости с многоканальным звуковым сопровождением, субтитрами и служебной информацией.

В.2 Регулярные сигналы и их аналитическое описание.
Ортогональные разложения функций

Широко известно использование аппарата Фурье для гармонического анализа детерминированных сигналов, при котором исходная функция разлагается в ряд по элементарным тригонометрическим функциям. Однако аппарат Фурье не является е Можно заданную в интервале времени 0-Т функцию ((t) разлагать в ряд по любым другим функциям (k(t), принятым в качестве элементарных:
13 EMBED Equation.2 1415 (1)
Сходимость этого ряда всегда обеспечивается. Задача разложения всегда сводится к выбору функций (k(t) и определению коэффициентов разложения Ck.
Коэффициенты Ck наиболее легко определяются, если функции (k(t) обладают свойством ортогональности. Функции называют ортогональными, если для них выполняется условие:
13 EMBED Equation.2 1415 (2)
Умножая левую и правую части уравнения (1) на (k(t) и интегрируя на интервале 0-Т, с учетом ортогональности получим
13 EMBED Equation.2 1415 (3)
Второе условие, которым необходимо руководствоваться при выборе функций разложения, заключается в упрощении анализа при теоретических исследованиях.
Для точного воспроизведения функции при динственным.
представлении ее в виде ряда необходимо суммировать в общем случае бесконечное число членов. В некоторых случаях допустимо представление функций с некоторой погрешностью. При этом в разложении (1) можно ограничиться конечным числом членов:
13 EMBED Equation.2 1415 (4)
Погрешность представления функции удобно оценивать величиной среднеквадратичной ошибки
13 EMBED Equation.2 1415 (5)
При выборе функций разложения в этом случае необходимо руководствоваться условием обеспечения минимума ошибки при заданном числе членов ряда. При N(( величина среднеквадратичной ошибки стремится к нулю, так как
13 EMBED Equation.2 1415 (6)
Последнее выражение аналогично равенству Парсеваля, используемому в аппарате Фурье.
Таким образом, всякую функцию можно с некоторой погрешностью представить в виде ряда с конечным числом членов. Представление непрерывного колебания в виде набора конечного числа функций или чисел называют иногда дискретизацией.
Возможность представления функции в виде конечного ряда позволяет осуществлять следующий способ передачи некоторого сигнала S(t). На передающем конце сигнала S(t) можно разложить в ряд по выбранным функциям (k(t) и передавать не сигнал, а лишь коэффициенты разложения Ck. На приемном конце, имея генераторы функций (k(t) по принятым коэффициентам можно восстановить переданный сигнал. Следовательно, с этой точки зрения в качестве функций разложения необходимо выбирать такие, которые легко генерировать.
Ниже рассматриваются два вида ортогональных разложений: разложение Фурье по гармоническим функциям и разложение Котельникова по функциям отсчетов.

Дискретизация функций рядами Фурье

Рассмотренное выше в п.1.1 представление сигналов в виде ряда Фурье является типичным примером ортогонального разложения. Семейство тригонометрических функций 1, Cos(0t, Sin(0t, Cos2(0t, Sin2(0t,..., Cosn(0t, Sinn(0t,...
является ортогональным на интервале 0(T: 13 EMBED Equation.2 1415 (7)
13 EMBED Equation.2 1415
13 EMBED Equation.2 1415 где (0=2(/Т

Остановимся на некоторых особенностях использования рядов Фурье. Обычно в ряд Фурье принято разлагать периодические функции, а для непериодических функций использовать интеграл Фурье. Однако в теоретических исследованиях используют представление в виде ряда Фурье и не периодических сигналов. Такой переход от интеграла к ряду Фурье приводит к тому, что непериодическая функция длительностью Т вне заданного интервала периодически продолжается с периодом Т. Такая замена непериодической функцией периодической в общем случае не всегда допустима. Однако, в технике связи широко используются синхронные системы связи. Синхронная работа предполагает, что в месте приема известны начало и длительность сигнала, и, следовательно, возможна установка «нулевых начальных условий» в момент окончания сигнала. В этих условиях устраняется влияние периодического продолжения непериодического сигнала, и указанная замена при анализе прохождения сигналов через системы связи не приводит к ошибкам. Таким образом,
в указанных условиях любой сигнал можно охарактеризовать как непрерывным, так и дискретным спектром.
Для реальных сигналов связи спектр является быстро убывающей функцией частоты. Поэтому часто бывает возможным ограничиться конечным числом членов в ряде Фурье.
13 EMBED Equation.2 1415 (8)
при достаточной точности представления сигнала. Если приемлемая точность обеспечивается при числе гармоник, равном N/2, то полоса частот, необходимая для передачи такого сигнала (без постоянной составляющей), равна
13 EMBED Equation.2 1415 (9)
Если на приемлемой стороне имеются управляемые генераторы гармонических составляющих, то для восстановления сигнала необходимо передать
13 EMBED Equation.2 1415 (10)
чисел, определяющих коэффициенты разложения.
Заметим, что для некоторых сигналов представленных в виде конечного ряда может быть точным, например для сигналов, составленных из N/2 гармоник или отрезка одного гармонического колебания, если длительность сигнала кратна периоду основной гармоники.
Величина В, равная удвоенному произведению длительности сигнала на ширину спектра частот, называется базой сигнала. Как известно из теории спектров, для наиболее часто встречающихся сигналов в виде отдельных импульсов произведение длительности на ширину спектра есть величина постоянная, имеющая порядок единицы ((((t(1. Для таких сигналов, называемых простыми или узкополосными, база равна 2.
В качестве сигналов можно использовать и такие, которые являются комбинациями простых сигналов (рис.В. 1).
S(t)



t
T0 Т



S(t)



t


рис.В. 1
Эти комбинации представляют собой случайную последовательность простых сигналов. Такие сигналы называют составными или сложными. Для сложных сигналов ширина спектра будет такой же, что и для простых, а длительность и соответственно произведение 2(b( будет больше. Сигналы, для которых база B=2(b(((1, называются широкополосными.
В заключении заметим, что представление сигналов в виде ряда Фурье весьма удобно при исследовании прохождения сигналов через различные линейные цепи. Ряд Фурье из всех возможных ортогональных разложений обеспечивает наименьшую погрешность представления при заданном числе членов разложения N. Однако ряд Фурье не удобен с реализационной точки зрения, так как операции гармонического анализа, а тем более синтеза технически осуществить довольно трудно.

Теорема Котельникова.

Любой сигнал с ограниченным спектром (бесконечный во времени) однозначно определяется своими отсчетами, взятыми через интервал времени 13 EMBED Equation.3 1415 т.е.

13 EMBED Equation.3 1415

где U(k13 EMBED Equation.3 1415t) - аналоговая величина

Эта теорема утверждает, что если сигнал f(t) имеет преобразование Фурье Sf(() отличное от нуля при частотах меньших 2(Fm . То в отсчетах сигнала f(k(t) взятых через интервал (t=1/2Fm содержится вся информация о непрерывной функции f(t) . Из теоремы следует, что эти отсчеты содержат информацию о сигнале f(t) в любой момент времени. Однако частота отсчетов должна быть по крайней мере в два раза больше высшей частоты сигнала Fm .
Доказательство :
Дан сигнал F(t), его спектр:
13 EMBED Equation.3 1415
13 EMBED Equation.3 1415

Представим некоторую реализацию сигнала и его спектр:
f(t) S(f)


0 t 0 f
Если отсчеты сигнала брать с помощью бесконечноузких импульсов, расположенных в непосредственной близости друг от друга, мы однозначно определим любую функцию. Если интервал между импульсами увеличивать, то где-то мы начнем терять информацию о сигнале.
Рассмотрим случай, когда в качестве отсчетных импульсов используется периодическая последовательность импульсов длительностью (, повторяемых через (t=1/2Fm .
Временное и спектральное представление этих импульсов:
y((t) ( S((f) (t >> (


0 t f
(t 0
Спектр отсчетных импульсов можно записать в виде ряда Фурье, т.е.
y((t)=A1cos(t+A2cos(t+A3cos(t+............
Процедуру взятия отсчетов удобно рассматривать как умножение функции f(t) на функцию y((t). Результирующий дискретизованный сигнал можно представить в виде суммы последовательностей импульсов, амплитуды которых равны значению функции f(t) в момент отсчета , а спектр такого сигнала представляет собой периодически повторяющуюся функцию Sf(() с периодом (, т.е.мы наблюдаем изменение амплитуды импульсов отсчета по закону f(t). И соответственно имеем на каждой гармонике спектра отсчетных импульсов спектр сигнала:
f((t)=f(t)y((t) f((f) 1/(t-Fm 1/(t+Fm



0 (t 2(t t -Fm 0 Fm 1/(t 2/(t f

Для восстановления первоначального сигнала нам достаточно отфильтровать полученный сигнал ФНЧ с частотой среза расположенной в интервале от Fm до 1/(t-Fm .
Рассмотрим, какова может быть наименьшая частота следования отсчетных ( импульсов, что бы еще имелась возможность отфильтровать полезный сигнал. В случае, если 1/(t=2Fm мы еще имеем возможность отфильтровать полезный сигнал. Если же 1/(t<2Fm, то произойдет наложение спектральных составляющих и восстановление первоначального сигнала без ошибки станет невозможным.
Следовательно, для восстановления сигнала, полученные отсчетные импульсы необходимо подать на вход ФНЧ с частотой среза равной Fm. Реакция идеального ФНЧ на узкий импульс единичной амплитуду представляет собой функцию вида:




13 EMBED Equation.3 1415

На вход фильтра мы подаем сумму импульсов с амплитудами равными f(k(t). Разложение сигнала f(t) в ряд Котельникова указывает на технический способ передачи непрерывной функции (сигнала) f(t) с ограниченным спектром путем передачи отсчетных импульсов, который сводиться к следующему: и со сдвигом один относительно другого на (t=1/2Fm . Сигнал на выходе фильтра представляет собой сумму откликов, т.е.
13 EMBED Equation.3 1415

Что соответствует ряду Котельникова.

1 ЦИФРОВЫЕ ФИЛЬТРЫ

Предмет цифровой фильтрации данных (сигналов) является естественным введением в широкую и фундаментальную область цифровой обработки информации. Под фильтрацией будем понимать любое преобразование информации (сигналов, результатов наблюдений), при котором во входной последовательности обрабатываемых данных целенаправленно изменяются определенные соотношения (динамические или частотные) между различными компонентами этих данных.
К основным операциям фильтрации информации относят операции сглаживания, прогнозирования, дифференцирования, интегрирования и разделения сигналов, а также выделение информационных (полезных) сигналов и подавление шумов (помех).
Как известно, преобразование динамики сигналов (и данных, которые несут эти сигналы) осуществляется в системах. Соответственно, фильтры с любым целевым назначением являются частным случаем систем преобразования сигналов, в рамках теории которых они и будут рассматриваться.
В настоящем курсе рассматриваются, в основном, методы линейной обработки данных (носителей этих данных - сигналов) линейными дискретными системами. Линейными называют системы, которые осуществляют преобразование линейных комбинаций входных сигналов в суперпозицию выходных сигналов. Принцип реализации линейных систем, физический - в виде специальных микропроцессорных устройств, или алгоритмический - в виде программ на ЭВМ, существенного значения не имеет и определяет только их потенциальные возможности.

1.1 Явление Гиббса

Большинство методов анализа и обработки данных представляют собой или имеют в своем составе операцию свертки множества данных s(k) с функцией оператора свертки h(n) (отсчеты импульсной переходной характеристики). Как множество данных s(k), так и оператор h(n), выполняющий определенную задачу обработки данных и реализующий определенную частотную передаточную функцию системы (фильтра), могут быть бесконечно большими. Практика цифровой обработки имеет дело только с ограниченными множествами данных (k = 0,1,2,,K) и коэффи- циентов оператора (n = 0,1,2,,N или n = -N,,1,0,1,,N для двусторонних операторов). В общем случае, эти ограниченные множества "вырезаются" из бесконечных множеств s(k) и h(n), что равносильно умножению этих множеств на прямоугольную функцию с единичным амплитудным значением, которую называют естественным временным окном или естественной весовой функцией. Учитывая, что произведение функций отображается в спектральной области сверткой их фурье-образов, это может весьма существенно сказаться как на спектральных характеристиках функций, так и на результатах их последующих преобразований и обработки. Основное назначение рассматриваемых в данной теме весовых функций – сведение к минимуму нежелательных эффектов усечения функций.
Чаще всего с изменением частотных характеристик функций приходится сталкиваться при усечении операторов фильтров. На примере усечения операторов и рассмотрим характер происходящих изменений.
При расчетах фильтров, как правило, задается определенная пере- даточная характеристика H(
·) фильтра и по ней производится расчет оператора фильтра h(n), количество членов которого может оказаться очень большим даже только по значимым значениям. Усечение может рассматриваться, как результат умножения функции оператора фильтра на селектирующее весовое окно длиной 2N+1. В простейшем случае это окно представляет собой П-образную селектирующую функцию:
hn = h(n)·ПN(n), ПN(n) = 1 при |n| ( N,
ПN(n) = 0 при |n| > N.
Функция h(n) оператора фильтра, в пределе бесконечная, обуславливает определенную частотную передаточную характеристику фильтра H(
·). Полному оператору h(n) соответствует исходная частотная характеристика H(
·):
H(
·) =13 EMBED Equation.3 1415h(n) exp(-j
·n). (1.1)

1.1.1 Сущность явления Гиббса

Функции во временном окне селекции ПN(n) в частотном пространстве соответствует спектральная функция, которая в определенной степени должна отличаться от функции H(
·
·
·
·Очевидно, что при усечении оператора h(n), а значит и ряда Фурье (1.1), до конечного числа членов N мы будем иметь усеченный ряд Фурье:
HN(
·) =13 EMBED Equation.3 1415h(n) exp(-j
·n), (1.1.1)
при этом сходимость суммы остающихся членов ряда HN(
·) к исходной передаточной функции H(
·) ухудшается и происходит отклонение частотной характеристики фильтра от первоначальной в тем большей степени, чем меньше значение N. Особенно ярко это проявляется на крутых перепадах (разрывах, скачках) в передаточных функциях:
- крутизна перепадов "размывается", т.к. она не может быть больше, чем крутизна (в нулевой точке) последней сохраненной гармоники ряда (1.1.1);
- по обе стороны "размытых" перепадов появляются выбросы и затухающие осцилляции с частотой, равной частоте последнего сохраненного или первого отброшенного члена ряда (1.1).
Эти эффекты при усечении рядов Фурье получили название явления Гиббса. Рассмотрим явление Гиббса более подробно на примере разложения в ряд Фурье частотной функции единичного скачка G(
·), которая является Фурье-образом какой-то дискретной временной функции bn. Уравнение функции единичного скачка:
G(
·) = -0.5 при -
·
·(
·
·
·
·
·0, (1.1.2)
= 0.5 при 0 (
·
·(
·
·.
Функция (1.1.2) имеет разрыв величиной 1 в точке
·
·= 0 и, в силу дискретности временной функции и периодичности ее спектра, в точках 13 EMBED Equation.3 1415
·, 13 EMBED Equation.3 14152
· и т.д. Поскольку функция G(
·) является нечетной, ее ряд Фурье не содержит косинусных членов, и коэффициенты ряда определяются выражением:
bn = 13 EMBED Equation.3 141513 EMBED Equation.3 1415G(
·) sin(n
·) d
· = 13 EMBED Equation.3 141513 EMBED Equation.3 1415sin(n
·) d
·.
bn = 2/(n·
·), n- нечетное,
bn = 0, n- четное.

Рис. 1.1.1. Значения коэффициентов bn.
Как видно на рис. 1.1.1, ряд коэффициентов bn затухает очень медленно. Соответственно, медленно будет затухать и ряд Фурье функции G(
·):
G(
·) = (2/
·)[sin
·+ (1/3)·sin 3
·+ (1/5)·sin 5
·+....].
G(
·) = 13 EMBED Equation.3 141513 EMBED Equation.3 1415sin[(2n+1)
·]/(2n+1). (1.1.3)

Рис. 1.1.2. Явление Гиббса.
Если мы будем ограничивать количество коэффициентов bn, т.е. ограничивать значение N ряда Фурье функции G(
·), то суммирование в (1.1.3) будет осуществляться не до
·, а до значения N. Графики частичных сумм ряда (1.1.3) в сопоставлении с исходной функцией приведены на рис. 1.1.2. Они наглядно показывают сущность явления Гиббса.
При усечении рядов Фурье определенное искажение функции, разложенной в ряд Фурье, существует всегда. Но при малой доле энергии отсекаемой части сигнала этот эффект может быть и мало заметен. На скачках и разрывах функций он проявляется наиболее ярко.

1.2 Весовые функции

Естественным методом нейтрализации нежелательных эффектов усечения сигналов во временной области (и любой другой области аргументов) является изменение окна селекции сигнала таким образом, чтобы частотная характеристика окна селекции при свертке как можно меньше искажала спектр сигнала. Что последнее возможно, показывает, например, даже такая простая модификация прямоугольной функции, как уменьшение в два раза значений ее крайних членов.

1.4 Разностное уравнение

В одномерной дискретной линейной системе связь между входом и выходом (входной и выходной дискретными последовательностями значений сигнала – отсчетами), задается линейным оператором преобразования TL:
y(k
·t) = TL{x(k
·t)}.
Это выражение отображает краткую запись линейного разностного уравнения:
am y(k
·t-m
·t) =bn x(k
·t-n
·t), (4.1)
где k = 0,1,2,..- порядковый номер отсчетов,
·t - интервал дискретизации сигнала, am и bn - вещественные или, в общем случае, комплексные коэффициенты. Положим a0 = 1, что всегда может быть выполнено соответствующей нормировкой уравнения (4.1), и, принимая в дальнейшем
·t = 1, приведем его к виду:
y(k) = bn x(k-n) –am y(k-m). (4.2)
Оператор, представленный правой частью данного уравнения, получил название цифрового фильтра (ЦФ), а выполняемая им операция - цифровой фильтрации данных (информации, сигналов). Если хотя бы один из коэффициентов am или bn зависит от переменной k, то фильтр называется параметрическим, т.е. с переменными параметрами. Ниже мы будем рассматривать фильтры с постоянными коэффициентами (инвариантными по аргументу).

Нерекурсивные фильтры

При нулевых значениях коэффициентов am уравнение (4.2) переходит в уравнение линейной дискретной свертки функции x(k) с оператором bn:
y(k) = bn x(k-n). (5.1)
Значения выходных отсчетов свертки (5.1) для любого аргумента k определяются текущим и "прошлыми" значениями входных отсчетов. Такой фильтр называется нерекурсивным цифровым фильтром (НЦФ). Интервал суммирования по n получил название "окна" фильтра. Окно фильтра составляет N+1 отсчет, фильтр является односторонним каузальным, т.е. причинно обусловленным текущими и "прошлыми" значениями входного сигнала, и выходной сигнал не опережает входного. Каузальный фильтр может быть реализован физически в реальном масштабе времени. При kПри обработке данных на ЭВМ ограничение по каузальности снимается. В программном распоряжении фильтра могут находиться как "прошлые", так и "будущие" значения входной последовательности отсчетов относительно текущей точки вычислений k, при этом уравнение (5.1) будет иметь вид:
y(k) =bn x(k-n). (5.2)
При N' = N фильтр называется двусторонним симметричным. Симметричные фильтры, в отличие от односторонних фильтров, не изменяют фазы обрабатываемого сигнала.
Техника выполнения фильтрации не отличается от техники выполнения обычной дискретной свертки двух массивов данных.

Рис. 5.1. Нерекурсивный ЦФ.
Представим, что на одной полоске бумаги выписаны по порядку сверху вниз значения данных x(k)
· sk (см. рис. 5.1). На второй полоске бумаги находятся записанные в обратном порядке значения коэффициентов фильтра bn
· hn (обоз- начение h для коэффициентов операторов НЦФ является общепринятым). Для вычисления yk
· y(k) располагаем вторую полоску против первой таким образом, чтобы значение h0 совпало со значением sk, перемножаем все значения hn с расположенными против них значениями sk-n, и суммируем все результаты перемножения. Результат суммирования является выходным значением сигнала yk. Сдвигаем окно фильтра - полоску коэффициентов hk, на один отсчет последовательности sk вниз (или массив sk сдвигаем на отсчет вверх) и вычисляем аналогично следующее значение выходного сигнала, и т.д.
Описанный процесс является основной операцией цифровой фильтрации, и называется сверткой в вещественной области массива данных x(k) с функцией (оператором) фильтра bn (массивом коэффициентов фильтра). Для математического описания наряду с формулами (5.1-5.2) применяется также символическая запись фильтрации:
y(k) = b(n) * x(k-n).
Сумма коэффициентов фильтра определяет коэффициент передачи (усиления) средних значений сигнала в окне фильтра и постоянной составляющей в целом по массиву данных (с учетом начальных и конечных условий). Как правило, сумма коэффициентов фильтра нормируется к 1.
Имеется целый ряд методов обработки данных, достаточно давно и широко известных, которые по существу относятся к методам цифровой фильтрации, хотя и не называются таковыми. Например, методы сглаживания отсчетов в скользящем окне постоянной длительности. Так, для линейного сглаживания данных по пяти точкам с одинаковыми весовыми коэффициентами используется формула:
yk = 0.2(xk-2+xk-1+xk+xk+1+xk+2).
С позиций цифровой фильтрации это не что иное, как двусторонний симметричный нерекурсивный цифровой фильтр:
yk =bn xk-n, bn = 0,2. (5.3)
Аналогично, при сглаживании данных методом наименьших квадратов (МНК) на основе кубического уравнения:
yk = (-3xk-2+12xk-1+17xk+12xk+1-3xk+2)/35. (5.4)
Это также НЦФ с коэффициентами: b0 = 17/35, b1 = b-1 = 12/35,
b2 = b-2 = -3/35.
Пример. Уравнение НЦФ: yk =bn xk-n, bn = 0,2. Начальные условия - нулевые.
Входной сигнал – скачок функции (ступень): xk = {0,0,0,0,0,0,10,10,10,10,}.
Выходной сигнал: yk = {0,0,0,0,2,4, 6, 8,10,10,10,10,}.
Результат фильтрации приведен на рис. 5.2(А). Проверьте результат (выполните фильтрацию, как это показано на рис. 5.1, с учетом четности фильтра).
Заметим: сумма коэффициентов сглаживающих НЦФ всегда должна быть равна 1, при этом сумма значений массива выходного сигнала равна сумме значений массива входного сигнала. Координатная детальность выходного сигнала ниже входного, резкие изменения входных сигналов "размазываются" по аргументу.
Повторите фильтрацию фильтром МНК на основе кубического уравнения. Сравните результаты фильтрации с результатами первого НЦФ (приведены на рис. 5.2(В)).

Рис. 5.2. Сглаживание МНК в скользящем окне по пяти точкам
Для операции фильтрации характерны следующие основные свойства:
1. Дистрибутивность: h(t) * [a(t)+b(t)] = h(t) * a(t)+h(t) * b(t).
2. Коммутативность: h(t) * a(t) * b(t) = a(t) * b(t) * h(t).
3. Ассоциативность: [a(t) * b(t)] * h(t) = h(t) * a(t) * b(t).
Фильтрация однозначно определяет выходной сигнал y(t) для установленного значения входного сигнала s(t) при известном значении импульсного отклика фильтра h(t).

1.6 Рекурсивные фильтры

Высококачественные частотные нерекурсивные цифровые фильтры (НЦФ) имеют, как правило, большую ширину окна (многочленный оператор фильтра). Чем меньше допустимая ширина переходной зоны частотной характеристики фильтра между полосами пропускания и подавления, тем больше окно фильтра. Альтернативное решение - применение рекурсивных цифровых фильтров (РЦФ), для которых количество коэффициентов фильтра может быть существенно сокращено по сравнению с НЦФ.
Фильтры, которые описываются полным разностным уравнением (4.2), принято называть рекурсивными цифровыми фильтрами (РЦФ), так как в вычислении текущих выходных значений участвуют не только входные данные, но и значения выходных данных фильтрации, вычисленные в предшествующих циклах расчетов. С учетом последнего фактора рекурсивные фильтры называют также фильтрами с обратной связью, положительной или отрицательной в зависимости от знака суммы коэффициентов am. Рекурсивные фильтры имеют определенную "память" по значениям предыдущих отсчетов, которая, в пределе, может быть бесконечной. С учетом этого фактора рекурсивные фильтры получили название фильтров с бесконечной импульсной характеристикой (БИХ-фильтров), в отличие от нерекурсивных фильтров, всегда имеющих конечную импульсную характеристику (КИХ-фильтры).
По существу, полное окно рекурсивного фильтра состоит из двух составляющих: нерекурсивной части bn, ограниченной в работе текущими и "прошлыми" значениями входного сигнала (при реализации на ЭВМ возможно использование и “будущих” отсчетов сигнала) и рекурсивной части am, которая работает только с "прошлыми" значениями выходного сигнала.

Пример. Уравнение РЦФ: yk = boxk+a1yk-1, при bo = a1 = 0.5, y-1 = 0.
Входной сигнал: xk = {0,0,1,0,0,0,0,0,0,0,1,1,1,1,1....}
Расчет выходного сигнала:
уo = 0,5xo + 0,5y-1 = 0; y1 = 0,5x1 + 0,5yo =0; y2 = 0,5x2 + 0,5y1 = 0.5; y3 = 0,5x3 + 0,5y2 = 0.25;
y4 = 0,5x4 + 0,5y3 = 0.125; y5 = 0,5x5 + 0,5y4 = 0.0625; y6 = 0,5x6 + 0,5y5 = 0.03125; и т.д.
Выходной сигнал: yk = {0, 0, 0.5, 0.25, 0.125, 0.0625, 0.03125, 0.015625,...}

Рис. 6.1 Рекурсивная фильтрация.
Из примера можно видеть, что реакция РЦФ на конечный входной сигнал, в принципе, может иметь бесконечную длительность (в данном случае с близкими к нулю, но не нулевыми значениями), в отличие от реакции НЦФ, которая всегда ограничена количеством членов bk (окном фильтра).

Пример. Уравнение РЦФ: yk = boxk - a1yk-1, при bo = 0.5, a1=1.1, y-1 = 0
Входной сигнал: xk = {0, 10, 0, 0, 0,....}.
Выходной сигнал: yk = {0,0,5,-5.5,6.05,-6.655,7.321,-8.053,8.858,-9.744,10.718,-11.79, и т.д.}
Заметим: коэффициент обратной связи больше 1 и выходной сигнал идет "в разнос".

Рис. 6.2 Неустойчивый рекурсивный фильтр.
Операции, относящиеся к рекурсивной фильтрации, также известны в обычной практике, например - интегрирование. При интегрировании по формуле трапеций:
yk = (xk+xk-1)/2 + yk-1, (6.1)
т.е. здесь мы имеем РЦФ с коэффициентами: bo = b1 = 0.5, a1 = 1.
Пример. Уравнение РЦФ: yk=(xk+xk-1)/2+yk-1, начальные условия - нулевые.
Входной сигнал: xk={0,0,2,2,4,0,0,0,4,4,4,0,0,0,5,0,0,0,....}
Выполните фильтрацию.
Контроль: yk= {0,0,0,1,3,6,8,8,8,10,14,18,20,20,20,22.5,25,25,25...}

6.3 Интегрирующий рекурсивный фильтр.

Реакция рекурсивного фильтра на сигнал с учетом "памяти" исключает возможность создания фильтров с четным импульсным откликом, и частотные характеристики рекурсивных фильтров всегда являются комплексными. Проектирование рекурсивных частотных фильтров с заданными частотными характеристиками осуществляется через z-область.
Синтез рекурсивных фильтров непосредственно в z-области возможен только для фильтров простого типа (режекторных и селективных) с ограниченным количеством полюсов и нулей (особых точек). В общем случае, процесс проектирования рекурсивного частотного фильтра обычно заключается в задании необходимой передаточной характеристики фильтра в частотной области и ее аппроксимации с определенной точностью какой-либо непрерывной передаточной функцией, с последующим z-преобразованием для перехода в z-область. Первые две операции хорошо отработаны в теории аналоговой фильтрации сигналов, что позволяет использовать для проектирования цифровых фильтров большой справочный материал по аналоговым фильтрам. Последняя операция является специфичной для цифровых фильтров.
Для алгебраического преобразования непрерывной передаточной функции в многочлен по z используется билинейное преобразование, известное в теории комплексных переменных под названием дробно-линейного преобразования.

1.12 Структурные схемы цифровых фильтров


Рис. 12.1. Структурные схемы цифровых фильтров.
Алгоритмы цифровой фильтрации сигналов (цифровых фильтров) представляются в виде структурных схем, базовые элементы которых показаны на рисунке 12.1 вместе с примерами структур- ных схем фильтров. Как правило, структурные схемы соответствуют программной реализа- ции фильтров на ЭВМ, но не определяют аппаратной реализации в специальных радиотехнических устройствах, которая может существенно отличаться от программной реализации.

Соединения фильтров. Различают следующие соединения фильтров.

Рис. 12.3.
1. Последовательное соединение (рис. 12.3). Выходной сигнал предшествующего фильтра является входным для последующего. Эквивалентная передаточная функция общей системы равна произведению передаточных функций фильтров, в нее входящих:
H(z) = H1(z)(H2(z)(HN(z).

Рис. 12.4.
2. Параллельное соединение (рис. 12.4). Сигнал подается на входы всех параллельно соединенных фильтров одновременно, выходные сигналы фильтров суммируются. Эквивалентная передаточная функция общей системы равна сумме передаточных функций фильтров, в нее входящих: H(z) = H1(z)+H2(z)+...+HN(z).

Рис. 12.5.
3. Соединение обратной связи (рис. 12.5). Выходной сигнал первого фильтра подается на выход системы и одновременно на вход фильтра обратной связи, выходной сигнал которого суммируется, со знаком плюс или минус в зависимости от вида связи (отрицательной или положительной), с входным сигналом системы. Эквивалентная передаточная функция системы: H(z) = H1(z)/(1(H1(z)H2(z)).
Схемы реализации фильтров. По принципам структурной реализации фильтров различают следующие схемы:

Рис. 12.6.
1. Прямая форма (рис. 12.6) реализуется непосредственно по разностному уравнению
yk =bnxk-n –amyk-m,
или по передаточной функции
H(z) =bnzn /(1+amzm).
2. Прямая каноническая форма содержит минимальное число элементов задержки. Передаточную функцию РЦФ можно представить в следующем виде:
H(z) = Y(z)/X(z) = H1(z)H2(z),
H1(z) = V(z)/X(z) = 1/(1+amzm),
H2(z) = Y(z)/V(z) =bnzn.
Отсюда: v(k) = x(k) -amv(k-m), (12.1)
y(k) =bnv(k-n). (12.2)
В разностных уравнениях (12.1-12.2) осуществ- ляется только задержка сигналов v(k).
3. Каскадная (последовательная) форма соответствует представлению передаточной функции в виде произведения:
H(z) =Hi(z).
Hi(z) - составляющие функции вида (1-riz)/(1-piz) при представлении H(z) в факторизованной форме, где ri и pi - нули и полюсы функции H(z). В качестве функций Hi(z) обычно используются передаточные функции биквадратных блоков - фильтров второго порядка:
Hi(z) = (b0i + b1i (z + b2i (z2) / (1 + a1i (z + a2i (z2).
4. Параллельная форма используется много реже, и соответствует представлению передаточной функции в виде суммы биквадратных блоков или более простых функций.

2 АНАЛОГО-ЦИФРОВОЕ ПРЕОБРАЗОВАНИЕ

2.1 Цифровая обработка звуковых сигналов

К задачам звуковой техники относятся запись, хранение передача и воспроизведение сигналов, воспринимаемых людьми с помощью органов слуха. На практике чаще всего такими сигналами является обычная музыка, хотя к ним следует отнести также пение птиц, электронную музыку, театральные представления, гидроакустические сигналы и т.д. В отличие от задач цифровой обработки речевых сигналов, где основным требованием является разборчивость речи, при цифровой обработке звуков в большинстве случаев должны также учитываться какие-то критерии точности воспроизведения звуков. Подобные критерии неизбежно имеют субъективный характер, так как окончательное заключение о качестве звука составляется на основе восприятия сигналов слушателями.
В силу широкой распространенности и важности устройств для воспроизведения музыки большая часть работ в области цифровых звуковых систем связана с музыкой. Музыка, преобразованная в цифровой сигнал, рассматривается как представитель широкого класса, сигналов, называемых звуковыми сигналами.
С момента своего возникновения звуковая техника находилась на стыке различных отраслей науки и пользовалась достижениями химии и физики, особенно таких областей, как электроника, магнетизм и акустика. Цифровая обработка сигналов, которая по своей сущности, видимо, более всего тяготеет к математике, является новейшей отраслью науки, вошедшей в “звуковое семейство”. Многие специалисты полагают, что это приведет к скачку в качественных характеристиках звуковых систем. Хотя методы цифровой обработки сигналов только начинают применяться в области звуковой техники, уже сейчас видны связанные с этим потенциальные возможности.
Необходимость цифровой обработки звуковых сигналов с первого взгляда не очевидна. Поэтому следует проанализировать хотя бы часть тех трудностей, с которыми связано появление музыки в квартире слушателя. Цепочка технических устройств при прохождении звука от микрофона до акустической колонки оказывается очень длинной. В нее может быть включено до 100 самостоятельных систем, каждая из которых выполняет свою полезную функцию, но вносит при этом искажения. Довольно часто каждый инструмент ансамбля записывается на отдельную дорожку многоканального магнитофона, причем число этих каналов может доходить до 24. Такой процесс дает звукооператору большие возможности: можно, например, при необходимости заново записать партию какого-либо инструмента. Это также помогает исполнителю избавиться от фонового акустического шума. Однако при такой записи звучание становится несколько неестественным и отличается оттого, которое слышится при исполнении в концертном зале, поскольку в записи отсутствует реверберация и могут появиться заметные спектральные искажения, зависящие от положения микрофона. Подобные недостатки часто можно устранить путем коррекции сигналов при их смешивании (микшировании). Микшерный пульт дает возможность звукооператору по-разному обрабатывать разную дорожку первичной записи. К числу наиболее распространенных методов обработки звуковых сигналов относятся введение искусственной реверберации и других специальных эффектов, выравнивание спектров, сжатие динамического диапазона, подавление шумов, ограничение. По своей сложности этот процесс выполняющие его устройства приближаются к функциям и аппаратуре Центра управления космическими полетами.
После того как высококвалифицированный звукооператор объединит обработанные первичные сигналы во вторичную стереофоническую или квадрафоническую запись, ее подвергают дополнительной обработке с тем, чтобы сформировать сигнал, пригодный для записи на грампластинку или магнитную ленту. Более того, первичная копия, является лишь результатом первого этапа сложного процесса, в результате которого получается запись, проигрываемая дома или на студии. Столь же длинный путь звук проходит и на радиовещании. Акустическая система в доме слушателя и громкоговорителя образуют важное последнее звено звуковоспроизводящей цепи. Таким образом, процесс звуковоспроизведения можно представить в виде трех основных этапов:
Создание и запись первоначальных сигналов;
Хранение и передача этих сигналов;
Воспроизведение сигналов в форме акустических волн.
Может показаться, что некоторые сложные элементы процесса звуковоспроизведения являются необязательными, однако оказывается, что каждый этап процесса важен, причем часто как средство исправления технических погрешностей, вносимых на другом этапе процесса. Например, сжатие сигнала на этапе первоначальной записи необходимо потому, что запоминающие устройства хранения имеют ограниченный динамический диапазон.
Многие разработки в области цифровой звукотехники имеют целью замену слабых элементов цепи звукозаписи или звукопередачи. Примерами могут служить цифровые магнитофоны и цифровые системы передачи звуковых сигналов. Несложные по идее, эти системы оказываются сложными в реализации. Однако их создание привело к резкому улучшению качества воспроизведения звуков. Управление микшерным пультом также было переведено на цифровую технику, чтобы освободить звукооператора от трудной обязанности фактического регулирования сотен параметров в реальном масштабе времени. На смену механическим реверберационным устройствам пришли цифровые электронные ревербераторы. Созданы синтезаторы, позволяющие из пары стереофонических сигналов в домашних условиях создавать определенные акустические поля, характерные для больших залов.
В лабораториях нашли применение совершенные методы для восстановления старых звукозаписей. В настоящее время имеются восстановленные записи выступлений Карузо, сделанных в начале века, причем после исправлений записи крайне низкого качества стали звучать гораздо лучше. Цифровая обработка применяется также в исследованиях, направленных на усовершенствование электроакустических преобразователей. В звуковоспроизводящей цепи громкоговоритель является одним из самых слабых и наименее исследованных звеньев. Он влияет на амплитудные, фазовые и пространственные характеристики получаемого звукового сигнала, а также обусловливает различного вида искажения сигналов. Цифровая обработка сигналов применяется для экспериментального определения физических характеристик акустических преобразователей, а также для оценки влияния этих характеристик на восприятие звука.
Во всех подобных системах имеются общие блоки – аналого-цифровой и цифро-аналоговый преобразователи (АЦП и ЦАП). В силу своего фундаментального характера вопрос об этих преобразователях будет рассмотрен здесь самостоятельно. Любые искажения, вносимые на данном этапе обработки сигнала, могут существенно обесценить достоинства цифровой обработки. Характеристики преобразователей необходимо согласовывать с особенностями восприятия звуковых сигналов по ряду причин.
Чрезмерно большая разрядность при квантовании отсчетов в АЦП достигается за счет больших экономических затрат, а из-за большой скорости поступления информации на последующих этапах может потребоваться слишком большое быстродействие. Искажения, определяемые приборами, не всегда замечаются на слух.
Вопрос усложняется также конструктивными проблемами, которые могут существенно повлиять на качество работы системы. Поэтому существуют различные способы преобразования и выбор определяется назначением всей системы.
Инженер должен знать соотношение между физическими и электрическими характеристиками системы и кажущимся качеством звука. Классическое определение отношения сигнал/шум, например, основано на вычислении отношения максимальной мощности сигнала к мощности шума, измеренной в отсутствии сигнала. Однако восприятие шума зависит от степени его спектрального сходства или различия с сигналом, от вида распределения вероятностей и характера изменения шума во времени. Так, два различных шумовых процесса, отличающиеся по мощности на 20дБ, могут создавать помехи, на слух воспринимаемые как одинаковые.
Подобные примеры указывают, что теория звуковых систем в большей мере должна опираться на психоакустические исследования, чем на теорию систем. Теория систем рассматривает пути решения задачи, а психоакустика в данном случае описывает характер желаемого результата. Так, в вышеупомянутом примере цель состоит в том, чтобы сделать шум неслышным, хотя полностью подавлять его необязательно. Экономические последствия неправильного выбора конечной цели могут оказаться очень печальными. Как правило, шумы 16-разрядного АЦП не воспринимаются ухом и не замечаются приборами, однако стоит этот преобразователь раз в 100 больше, чем 12-разрядный АЦП. Поэтому звуковая техника должна строиться с учетом особенностей и аппаратуры, и слуховой системы человека с тем, чтобы в итоге оптимизировать субъективные оценки качества звуковоспроизведения.

2.2 Основы аналого-цифрового преобразования

Аналого-цифровые и цифро-аналоговые преобразователи являются общим элементом всех цифровых звуковых систем. С них начинается и ими заканчивается любая система цифровой обработки. Ниже подробно рассматриваются конструктивные вопросы, поскольку преобразователи могут повлиять на характеристики системы гораздо сильнее, чем можно ожидать с первого взгляда. Требования, предъявляемые к преобразователям в звуковой технике, в некоторых отношениях отличаются от принятых в других областях применения цифровой обработки. Особое внимание следует уделить скорости создания информации, поскольку ее понижение существенно сказывается на стоимости и сложности частей системы, связанных с хранением, передачей и обработкой информации. Как было указано выше, способ построения системы сильно влияет на субъективную оценку качества. Компромисс, к которому приводят многочисленные и противоречивые соображения, должен быть выбран очень тщательно, поскольку ошибки в звуковых системах широкого применения обходятся достаточно дорого. Это, конечно, не относится к лабораторным образцам, так как преобразователи любого качества можно при необходимости получить в специализирующихся по них фирмам.
Действие аналого-цифровых преобразователей в принципе достаточно просто: в них происходит преобразование дискретизированных аналоговых сигналов в соответствующую последовательность двоичных чисел. Однако сделать это можно многими способами, включая линейную импульсно-кодовую модуляцию (ИКМ), дифференциальную импульсно-кодовую модуляцию (ДИКМ), дельта модуляцию (ДМ), адаптивную дельта модуляцию (АДМ), и другие методы.
АЦП – формирует код или число, которое ставится в соответствие некоторой аналоговой величине. В отсчетах аналогового сигнала получаются иррациональные числа бесконечной длительности, задачей АЦП ставится представление аналоговой величины в виде конечного числа.
Основные способы преобразования:
Преобразование аналоговой величины в частоту;
Метод пилообразного напряжения;
Метод линейного интегрирования;
Методы сравнения;
Метод последовательного приближения;
Параллельный метод;
Модифицированный метод.

2.2.1 Основные понятия и определения

Вид сигнала.
ЦАП
АЦП

Аналоговый сигнал
Выходное напряжение или ток; полярная величина.
Входное напряжение; полярная величина.

Цифровой код
Входной сигнал параллельный или последовательный код; логические уровни; стробирование.
Параллельный или последовательный код; логические уровни; синхронизация.

13 EMBED Equation.3 1415
Аналоговый: +15В -15В
Цифровой: +5В
+15В -15В
+5В.

Сигналы управления
Стробирующий импульс
Команда преобразования; выходной сигнал состояния

Опорный сигнал
Внутренний или внешний; фиксированный или переменный.
Внутренний или внешний; фиксированной или переменной полярности



Аналоговый опорный сигнал – это высокостабильный сигнал напряжения.
Для питания АЦП и ЦАП подводится два источника питания цифровое и аналоговое, т.к. работа цифровых систем идет в импульсном режиме –помеха импульсная, а аналоговое питание –это гладкое питание, поэтому при соединении, в питание пойдет помеха.
У микросхемы две разных земли так как цепи земли у микросхемы от аналоговых и цифровых сигналов не должны соединятся.
Сигнал стробирование показывает, что на входе схемы готово слово, т.е. на входе стоят данные.
Команда преобразование дает состояние «готов», «не готов» слово на выходе.
Преобразователь работает с однополярными или биполярными цифровыми кодами, к первым относят прямой или обратный двоичный код или двоично-десятичный код(4 бита на каждый десятичный разряд), ко вторым двоичный код со смещением( с плавающей запятой); код с дополнением до единицы; с дополнением до двух и код Грея( изменяется не более одного разряда).



2.3 Структура и алгоритм работы ЦАП

ЦАП представляет собой устройство, преобразующее информацию, выводимую с цифровых систем из цифрового вида в аналоговые уровни или другие параметры аналоговых сигналов. ЦАП сопрягает цифровую систему с датчиками, измерительными приборами, управляющими или исполнительными устройствами сложных многопараметровых объектов управления или систем сбора и обработки информации.
К настоящему времени разработаны и широко применяются несколько
разновидностей ЦАП, но в основе работы каждого из них заложен принцип
суммирования токов с разрядных генераторов тока с весовыми коэффициентами, пропорциональными цифровому коду, поступающему на вход ЦАП. Рассмотрим один из базовых вариантов структурной схемы ЦАП, приведенный на рисунке 2.1 и поясняющий принцип суммирования токов.
Для построения схемы предусмотрены источник опорного напряжения
(ИОН), электронные ключи Кл1-Kлn, управляемые по сигналам цифрового
кода А1-Аn, цепочка резисторов с двоично-взвешенными номиналами
(R, 2R, 4R,..,2N-1R) и суммирующий усилитель на основе операционного усилителя (ОУ).


Рисунок 2.1 – Схема, поясняющая принцип работы ЦАП с цепочкой резисторов с двоично-взвешенными номиналами.

Допустим, что пришел цифровой двоичный код, в котором в старшем разряде "1", а в остальных разрядах "0", т.е. код 100....000. Тогда ключ Клn будет в замкнутом состоянии и на вход усилителя будет поступать ток:
IN=(Uоп /R) ,
где: Uоп - опорное напряжение ИОНа.
На выходе суммирующего усилителя появится напряжение:
UN = IN(R/2) = (Uоп /R) (R/2) = Uоп / 2
Представим теперь, что появился код, в котором все разряды кода равны "0", кроме сигнала А1. В этом случае коду 000...001 будет соответствовать ток и напряжение:
I 1= Uоп /2N-1R ,
U1= I1 (R/2) = (Uоп /2N-1R) (R/2) = Uоп / 2N,
т.е. напряжение на выходе усилителя будет равно весу младшего значащего
разряда (МЗР) ЦАП.
Следовательно, в зависимости от кодовой комбинации на входе ЦАП замыкаются соответствующие ключи и на вход суммирующего усилителя поступают соответствующие разрядные токи, вызывающие формирование на выходе усилителя (выходе ЦАП) напряжения, пропорционального входному коду.
Существенным недостатком ЦАП с двоично-взвешенными номиналами
резисторов является необходимость получения широкого диапазона тщательно согласованных номиналов резисторов от R до (2N-1)R , что усложняет технологию производства таких ЦАП в микроэлектронном исполнении.
Значительное распространение получили ЦАП, построенные с последо-
вательно-параллельной цепочкой резисторов R-2R (рисунок 2.2).


Рисунок 2.2 – Схема, поясняющая принцип работы ЦАП с цепочкой
резисторов R-2R

Замечательным свойством цепочки R-2R является то, что в любом из уз-
лов цепочки выходное сопротивление равно R. Например, в узле (1) выходное сопротивление определяется параллельным сопротивлением 2х резисторов с номиналами 2R, т.е. равно R. В узле (2) выходное сопротивление также будет равно значению R, т.к.
[ (2R||2R) + R] ||2R = R
Это свойство цепочки R-2R позволяет задавать разрядные токи на входе
суммирующего усилителя в масштабе, пропорциональном значению R и значению цифрового кода. Действительно, если использовать электронные ключи КлN на два положения, которые позволяют подключать резисторы 2R каждого узла (разряда) или к общей шине или к опорному напряжению Uоп, то в случае кода 100...000, когда включен ключ КлN старшего разряда, а остальные ключи находятся в положении "общая шина", ток на входе будет равен:
IN= Uоп/2R,
UN = (Uоп /2R) R = Uоп / 2.
Для кода 010...000 будет работать только ключ Кл(N-1) и задавать ток:
IN-1= Uоп / 4R,
UN – 1 = (Uоп / 4R) R = Uоп /4.
Младший значащий разряд определяется кодом 000...001, который задает соответствующие ток и напряжение:

I 1= Uоп / 2N-1R,
U1= Uоп / 2N.

Таким образом, для любой из 2N кодовых комбинаций можно найти входной ток суммирующего усилителя и выходное напряжение по формуле:

IВХ= А Uоп /2N R,
UВЫХ= А Uоп /2N,

где: А - входной код ЦАП.
Преимуществом применения в ЦАП цепочки R-2R можно отметить легко поддающуюся точную подгонку номиналов резисторов, т.к. номиналы отличаются только в 2 раза. Однако, в ЦАП, построенных с применением цепочки R-2R, требуется в два раза больше резисторов и необходимы ключи на два положения, что также усложняет технологию производства этих ЦАП.
К основным параметрам ЦАП относятся:
1) разрешающая способность - число уровней квантования выходного сигнала (число двоичных разрядов входного кода).
2) интегральная нелинейность - отражает степень отклонения характеристики преобразования от идеальной характеристики (в частности от прямой линии).
3) время установления - время, требуемое для установления выходного сигнала ЦАП в пределах ± 1/2 МЗР для заданного изменения входного кода, например, при его изменении от нуля до полного значения шкалы.
Контрольные вопросы
1. На каком принципе основано построение ЦАП?
2. Поясните принцип действия ЦАП рисунке 1.
3. Каким отличительным свойством обладает цепочка резисторов R - 2R?
4. Почему в ЦАП используются высокостабильные источники питания?
5. Поясните принцип действия ЦАП на рисунке 2.
6 . Перечислите основные параметры ЦАП и дайте их определение.

2.4 Структура и алгоритм работы АЦП

АЦП представляют собой устройства, преобразующие амплитуду (уровни) или другие параметры аналоговых сигналов различной природы в
цифровой вид. "Аналого-цифровые преобразователи" позволяют вводить ин-
формацию, содержащуюся в массиве аналоговых сигналов, поступающих от
датчиков, измерительных приборов и других устройств, в цифровые вычислительные или управляющие устройства, блоки и системы, в которых производится обработка цифровой информации.
К настоящему времени разработаны и широко применяются несколько
основных разновидностей АЦП:
- АЦП двойного интегрирования;
- АЦП последовательного счета;
- АЦП поразрядного уравновешивания (последовательного приближения);
-АЦП параллельного действия.
Основными параметрами преобразователей являются:
Динамический диапазон входных сигналов,
передаточная характеристика преобразования,
число уровней квантования,
цена младшего значащего разряда (МЗР) преобразования (ширина канала),
быстродействие,
погрешности преобразования (дифференциальная и интегральная нелинейности преобразования).

2.4.1 Параллельные АЦП

Из всех видов АЦП наиболее простыми по принципу действия, но и наиболее сложными по конструктивной и технологической выполнимости
являются АЦП параллельного действия.
На рисунке 2.6 представлена структурная схема АЦП параллельного действия, который содержит: источник опорного напряжения (Uоп), делитель
опорного напряжения (R1-Rn), n компараторов (K1-Kn) равное числу уровней квантования, шифратор унитарного кода в двоичный код (D1). Каждый компаратор имеет входной дифференциальный каскад с двумя входами: инвертирующим и неинвертирующим. АЦП параллельного действия работает следующим образом. Делитель напряжений задает ряд опорных напряжений на всех, например, инвертирующих входах компараторов. Опорное напряжение на любом из компараторов определяется из выражения:
Un= (Uоп/ N )
· n ,
где: N - число уровней квантования АЦП;
n - номер компаратора (номер канала квантования);
Uоп/ N - ширина канала (цена младшего разряда АЦП).
Rn – резисторы прецизионного делителя;
Kn – компараторы уровня сигналов;
D1 – шифратор унитарного кода в двоичный


Рисунок 2.5 – Структурная схема АЦП параллельного действия

Входное преобразуемое напряжение Uвх поступает на все неинвертирующие входы компараторов. По сигналу "Строб", поступающего с устройства управления, входное напряжение сравнивается каждым компаратором с опорным напряжением. Компараторы выдают на выходе результат сравнения в виде "0" или "1" в зависимости от знака разности между опорным и входным напряжениями на их двух входах. После окончания сравнения кодовая комбинация с компараторов в виде унитарного кода поступает на шифратор, который на выходе выдает двоичный код уровня входного сигнала. Если для преобразователя известна цена младшего разряда (ЦМР), то величина уровня входного сигнала определяется произведением ЦМР и десятичного выходного кода преобразователя.
АЦП параллельного действия обладают самым высоким быстродействием из всех видов преобразователей. Время преобразования у современных устройств такого вида составляет величину 5-10 нс. Эти АЦП отличаются сравнительно небольшим числом уровней квантования (6-8 и редко 9-10 двоичных разрядов) и средней величиной погрешности преобразования (интегральная нелинейность не менее (1-i) МЗР). Следует отметить также технологическую сложность производства АЦП этого вида из-за большого числа элементов каждого вида, примерно равному числу уровней квантования.

2.4.2 АЦП с поразрядным уравновешиванием

АЦП с поразрядным уравновешиванием АЦП (ПУ) нашли самое широкое распространение. АЦП (ПУ) характерны такие свойства, как большое число уровней квантования (до 12 -14 двоичных разрядов), среднее быстродействие (10 5- 10 6 преобразований в с). Существенным недостатком АЦП (ПУ) являются большие значения дифференциальной и интегральной нелинейностей (1/ 2 - 1 цены МЗР).



Рисунок 2.6 – Структурная схема АЦП (ПУ) и временная диаграмма, поясняющая принцип преобразования

На рисунке 2.6 приведена структурная схема АЦП (ПУ), которая включает: регистр последовательных приближений (РПП), цифро-аналоговый преобразователь (ЦАП), компаратор (К), генератор тактовых импульсов (ГИ), регистр хранения (RG), схему управления (СУ), источник опорного напряжения (ИОН). В момент поступления сигнала "Пуск" со схемы управления СУ на регистр последовательных приближений начинается цикл преобразований в АЦП в следующей последовательности:
- сигналом "Пуск" в старший разряд РПП заносится лог. "1", а в остальные разряды лог. "0";
- на выходе ЦАП появляется напряжение, равное половине опорного напряжения с ИОНа. Если UВХ > 1/2 UОП, то на выходе компаратора появляется лог. "1" , поступающая на РПП и в старшем разряде РПП сохраняется "1", записанная при пуске преобразователя. В противном случае компаратор выдает “0” и в старшем разряде РПП стирается "1" и записывается "0";
- с поступлением второго импульса с ГИ на РПП происходит запись "1" в следующий старший разряд и на выходе ЦАП формируется напряжение, соответствующее коду двух старших разрядов РПП, которое также может быть меньше или больше входного напряжения и во второй разряд РПП запишется "0" или "1" в зависимости от выходного состояния компаратора;
- далее происходит последовательное опробирование каждого следующего разряда РПП и последовательное сравнение входного напряжения и напряжения с ЦАП. После опроса младшего (последнего) разряда с РПП появляется сигнал "Конец преобразования" (КП), а в РПП будет записан код, соответствующий входному напряжению с погрешностью, равной + - 1/2 цены младшего значащего разряда;
- по сигналу "КП" схема управления вырабатывает сигнал "Запись" на
регистр хранения и данные переносятся в RG. После этого цикл измерений повторяется по сигналу "Пуск" со схемы управления.

2.4.3 АЦП с плавающей точкой

Рисунок 2.7 – Структурная схема АЦП с плавающей точкой

Входной сигнал поступает на двенадцатиразрядное АЦП через переключатель, позволяющий усиливать входной сигнал на 6, 12,18 дБ. В верхнем положении переключателя сигнал на АЦП поступает без усиления. Если в этой ситуации сигнал станет настолько мал, что старший разряд никогда не будет использоваться, то блок регулировки переключит на одно положение вниз и размах сигнала увеличится в два раза. Блок регулировки выдаст 10 в старших разрядах. Если и в этом случае не будет задействован старший разряд АЦП, то блок регулировки переключит на усиление в 12 дБ и выдаст 01 в старшие разряды. По мере увеличения усиления на выходе блока регулировки появится сигнал 00 в старших разрядах. При увеличении уровня входного сигнала блок регулировки начнет уменьшать усиление.
При большом сигнале (11) шум останется тем, которым и был, а при малом мы его усиливаем (00) и потом при уменьшении сигнала на выходе во столько же уменьшаем и шум то есть отношение с/ш, остается тоже самое для каждого уровня сигнала.

Контрольные вопросы
1. Какие виды АЦП используются в технических системах? Перечислите
преимущества и недостатки каждого вида АЦП.
2. Объясните алгоритм работы АЦП двойного интегрирования.
3. Каким образом происходит преобразование амплитуды сигналов в цифровой вид в АЦП параллельного действия?
4. Как работает АЦП последовательных приближений? Назовите предельные параметры этого вида АЦП.
5. Дайте определение дифференциальной и интегральной нелинейностей.

























3. ЗВУК.

С различными аудиосистемами человек сталкивается ежедневно. Стереосистема или хотя бы простой радиоприемник есть в каждом доме, владельцы автомобилей устанавливают в свои машины аудиоаппаратуру, которая по сложности превосходит домашние устройства, а на предприятиях широко применяются системы связи Интерком.

3.1 Аудиосигнал

3.1.1 Звуковые волны

Звук - это разновидность кинетической энергии, которая называется "акустической" и представляет собой пульсацию давления, возникающее в физической среде при прохождении звуковой волны.
Полный период колебания волны звукового давления состоит из полупериода сжатия (повышения давления) и последующего полупериода разряжения молекул воздуха (понижения давления). Звуки с большей амплитудой (громкие) вызывают более сильное сжатие и разряжение молекул воздуха, чем звуки с меньшей амплитудой (тихие).


Рис.1.1.1 Графическое представление синусоидальной звуковой волны

Скорость пульсации звукового давления называется "частотой волны". К звуковым волнам относятся те, частота пульсации давления которых в воздухе составляет от 20 до 20000 колебаний (полных периодов) в секунду. Частота определяет другую характеристику звука - его высоту. И хотя высота
звука является более сложной характеристикой, чем частота (она зависит также от амплитуды звуковых колебаний), в общем случае, звуки большей частоты воспринимаются, как более высокие. Для измерения частоты звуковых колебаний используется единица, которая называется "герц" и обозначается Гц: 20 Гц = 20 колебаний в секунду.
Периодом волны называется время одного полного колебания звуковой волны, он измеряется в секундах и определяется по уравнению:
Период = 1/Частота.
Скорость распространения звуковой волны в воздухе при нормальных условиях (при 15°С на уровне моря) составляет 344 м/с. Скорость звука не зависит от его частоты. Реальное расстояние, которое звуковая волна определенной частоты проходит за один полный период, называется "длиной волны". Длина волны выражается уравнением:
Длина волны = Скорость звука / Частота

3.1.2 Звук как электрический сигнал

Звук (аудиосигнал) может быть передан в виде колебаний электрического напряжения или силы тока. В аудиоаппаратуре сила тока (или напряжение) сигнала пульсирует точно с такой же частотой, что и энергия звуковых колебаний, которую она представляет, а амплитуда электрического аудиосигнала изменяется пропорционально амплитуде звуковой волны.
Амплитуда (или сила аудиосигнала) называется "уровнем сигнала". Уровень акустического или электрического сигнала выражается в децибелах.


Рис. 1.2.1 Графическое представление аудиосигнала (один полный период синусоидальной волны).


3.1.4 Сложение синусоидальных волн

Фаза сигнала имеет очень большое значение, так как от нее зависит то, как будет происходить наложение сигналов. При микшировании сигналов на микшерском пульте или смешивании звуковых волн в воздухе, их фазы складываются алгебраически. На рис. 1.4.1 показано сложение двух синусоидальных сигналов с одинаковыми уровнем и частотой, но разными фазами.


Рис. 1.4.1 Сложение двух синусоидальных сигналов с одинаковыми уровнем и частотой, но разными фазами

Синусоидальные волны, показанные на рис. 1.4.1а, синфазны, поэтому при их сложении получается волна с удвоенной амплитудой. Синусоидальные волны, изображенные на рис 1.4.1б отличаются по фазе на 90°, поэтому амплитуда образующейся в результате их сложения синусоидальной волны в 1,414 больше, чем амплитуда исходных волн. Фаза синусоидальных волн на рисунке 1.4.1в отличается на 180°, поэтому при их сложении происходит полное подавление сигнала.

3.4.3 Децибелы и уровень звука

Уровень звука, как правило, характеризует звуковое давление, но иногда под этим термином подразумевают и мощность звука. В чем же различаются эти два понятия. Мощность звука -- это совокупная звуковая энергия, которую излучает громкоговоритель (или иное устройство) во всех направлениях. Звуковое давление - это звуковая энергия, которая попадает на единицу площади в заданном направлении от источника звука, удаленную от него на определенное расстояние (как правило, на 1 м).
дБ SPL
Для характеристики уровней звукового давления используется уравнение дБ SPL = 20 log (p1/p0),
где p0 и p1 звуковое давление, выраженное в динах на квадратный сантиметр или Ньютонах на квадратный метр.
Из этого уравнения следует, что двухкратное увеличение звукового давления соответствует 6 дБ, а десятикратное -- 20 дБ.
Звуки, которые различаются на 3 дБ, человеком воспринимаются одинаковыми по громкости, а вот звук, давление которого на 10 дБ выше, для него будет звучать в два раза громче. Правда, громкость -- субъективная характеристика, которая к тому же зависит от частоты и абсолютного уровня звукового давления.
За 0 дБ принят уровень звукового давления, соответствующий порогу слышимости здорового молодого человека в диапазоне частот 1--4 кГц (наш слух наиболее чувствителен к таким звукам), что составляет 0,0002 дин/см2 или 0,000002 Н/м2. Приблизительные уровни звукового давления, характерные для различных источников приведены рис. 4.3.1.
дБ PWL
Акустическая мощность выражается в акустических ваттах и для ее характеристики используется величина дБ PWL:
дБ PWL = 10 log (P1/P2).
Акустическую мощность и ее значение в дБ применяют достаточно редко, в основном, для расчета времени реверберации в замкнутом пространстве или КПД системы громкоговорителей. Чаще используются значения дБSPL, так как звуковое давление проще измерить, и оно имеет непосредственное отношение к воспринимаемой громкости.
Определенного соотношения между величинами дБ PWL и дБW не установлено, так как первые выражают акустическую мощность, вторые - электрическую мощность. Если на громкоговоритель подать сигнал мощностью 20 дБW, он будет генерировать звуковое давление 10 дБ PWL. Другими словами, если на громкоговоритель подать электрическую мощность 100 Вт, то на его выходе акустическая мощность составит всего 10 Вт. При этом КПД преобразования будет равно 10%, что считается достаточно высоким значением для конусного громкоговорителя.


Рис. 4.3.1 Уровни звукового давления, характерные для различных источников приведены
3.4.4 RMS -- среднеквадратичное значение

В аудиотехнике среднеквадратичные значения используют для характеристики уровней сигналов, они наиболее точно описывают энергию сложных или синусоидальных волн. Для получения среднеквадратичного уровня все мгновенные значения напряжений для волны сложной формы возводят в квадрат, усредняют полученные значения и извлекают из результата квадратный корень. Для периодического сигнала (например, для синусоидальной волны), чтобы получить среднеквадратичное значения достаточно умножить пиковое напряжение на определенную константу. Среднеквадратичное значение для непериодического сигнала (например, для речевых или музыкальных звуков), можно измерить с помощью специального измерительного устройства или детектора.
Как показано на рис. 4.4.1, среднеквадратичное значение напряжения для синусоидальной волны равно пиковому уровню, умноженному на коэффициент 0,707.

Рис. 4.4.1 Среднеквадратичное значение напряжения для синусоидальной волны
Производители усилителей мощности иногда указывают в спецификациях, что среднеквадратичная мощность устройства равна (x) Вт. При этом предполагалось, что значение среднеквадратичной мощности аудиосигнала идентично эквивалентной мощности, которая могла бы быть рассеяна сигналом постоянного тока. Например, усилитель, про который сказано, что его среднеквадратичная мощность на нагрузку 8 Ом составляет 200 Вт, должен обеспечивать среднеквадратичное напряжение 40 V:
Если сигнал постоянного тока с напряжением 40 V рассеивался бы на нагрузке 8 Ом, то при этом выделялось бы такое же количество тепла, как при подаче на эту нагрузку синусоидальной волны или другого сигнала со среднеквадратичным напряжением 40 V.
Мощность определяется как произведение напряжения на силу тока. Обычно в усилителе мощности измеряют среднеквадратичное выходное напряжение и умножают его на среднеквадратичное значение силы тока на выходе. Но, так как напряжение и сила тока не совпадают по фазе, то величина, которая получается при умножении среднеквадратичных значений (т.е. мощность), не имеет математического смысла. Производители до сих пор подают на усилители тестовые синусоидальные сигналы и подключают к их выходам "холостые" нагрузки. Так они измеряют среднеквадратичное значение синусоидального выходного напряжения и вычисляют выходную мощность при различных напряжении и сопротивлении нагрузки. Если производитель стремится к тому, чтобы указывать в спецификации технически корректные данные, то он называет полученную величину "средняя мощность синусоидальной волны ", а не "среднеквадратичная мощность".
Среднеквадратичные значения используются не только для характеристики усилителей мощности. В большинстве случаев напряжение, определяющее входную чувствительность предусилителя или линейного усилителя, также является среднеквадратичным значением.
Например, в ранее приведенных уравнениях 0 дБm == 1 мВт, или 0,775 V при сопротивлении нагрузки 600 Ом, а 0 дБV = 1V, подразумевались среднеквадратичные значения напряжения. Среднее значение сигнала не будет заметно меняться даже при наличии кратковременных пиков очень высокого уровня. И наоборот, большой разброс пиковых уровней может не оказывать значительного влияния на среднее значение. Поэтому, когда необходимо оценить уровень громкость сигналов воспринимаемых человеком используются среднеквадратичные значения, они точнее совпадают с чувствительностью нашего слуха к звуковой энергии. Измерители среднеквадратичных значений применяются во многих компрессорах, системах шумоподавления и других процессорах сигналов. Единственным исключением, о котором стоит упомянуть, являются эфирные процессоры, в которых даже кратковременные пики могут вызывать перемодуляцию, поэтому в этих устройствах часто используют измерители пикового уровня.

3.4.6 Громкость

Часто термины "громкость" и "уровень звукового давления" используют как взаимозаменяемые, но это неправильно, так как термин "громкость" имеет свое определенное значение. Уровень звукового давления в дБ определяют с помощью измерителей уровня звука.
Кривые равной громкости и Фоны
Будут ли слушатели воспринимать тестовые шумоподобные или синусоидальные сигналы с линейной АЧХ во всем диапазоне звуковых частот, направленные на усилитель мощности с линейной АЧХ, а затем на громкоговоритель с линейной АЧХ, одинаково громкими на всех частотах? Дело в том, что чувствительность слуха человека имеет нелинейный характер, и поэтому звуки равной громкости на разных частотах слушатели будут воспринимать как звуки с разным звуковым давлением.
Это явление описывается, так называемыми "кривыми равной громкости" (рис. 4.6.1), которые показывают, какое звуковое давление требуется создать на разных частотах для того, чтобы для слушателей громкость этих звуков была равна громкости звука с частотой 1 кГц. Чтобы мы воспринимали звуки более высоких и более низких частот, такими же громкими, что и звук с частотой 1кГц, они должны иметь большее звуковое давление. И чем меньше уровень звука (нижние кривые на рис. 4.6.1), тем менее чувствительно наше ухо к низким частотам.
Рис. 4.6.1 Кривые равной громкости
Для определения громкости был введен еще один термин, который назвали "Фон". Значение Фона всегда равно уровню звукового давления в дБ на частоте 1кГц, на других частотах эти значения отличаются. Рассмотрим, например, верхнюю кривую, приведенную на рис 4.6.1: на частоте 1 кГц ей соответствует уровень звукового давления 120 дБ (шкала с левой стороны графика). Эта кривая называется "120 Фон". На частоте порядка 3,5 кГц кривая, соответствующая 120 Фон, снижается до 105 дБ, в двух крайних точках этой кривой, на частотах 45 кГц и 9500 кГц, достигает 130 дБ.
На основании этих данных можно сделать следующие выводы. Ухо человека имеет максимальную чувствительность к звукам с частотой 1 кГц и менее чувствительно к звукам с крайними частотами. Чтобы мы воспринимали звуки разных частот равными по громкости звуку 120 дБ на 1 кГц, громкоговоритель должен генерировать 130 дБ на 45 Гц или 9,5 Кгц, и всего 105 дБ на 3,5 кГц.
Если внимательно посмотреть на кривые равной громкости, то можно увидеть, что пиковая чувствительность уха человека приходится на частоты, лежащие между 3 и 4 кГц. Учитывая это, производители измерителей уровня звука, предложили использовать для измерения уровня звукового давления в дБ корректирующие фильтры (рис. 4.6.2), которые описываются, так называемыми "взвешенными" характеристиками -- дБ (А), или дБ (Aвзв.). Кривая А, приведенная на этом рисунке, которой соответствует опорный уровень сигнала при 1кГц, опускается до 30 дБ на частоте 50 Гц и ниже 45 дБ на частоте 20 Гц, а затем поднимается на несколько дБ в диапазоне от 1,5 кГц до 3 кГц. На частотах выше 6 кГц кривая А опускается ниже значения, соответствующего частоте 1кГц. Это примерно соответствует инверсии кривой равной громкости (40 Фон), приведенной на рис. 4.6.1.
Рис. 4.6.2 Кривые взвешенных характеристик корректирующих фильтров
Кривая взвешенных характеристик А, учитывает особенности восприятия негромких звуков (см. рис. 4.6.2), например, шорохов в тихой аудитории на частоте 1 кГц, которым соответствует звуковое давление 40 дБ (см. рис. 4.3.1). В отношении громких звуков (например, рок-н-рольная музыка), ухо человека имеет линейную чувствительность. Это наглядно можно увидеть, сравнивая кривые равной громкости 100 Фон и 110 Фон (именно такая громкость характерна для рок-н-рольной музыки) с кривой 40 Фон. Чем линейнее АЧХ измерителя уровня звукового давления, тем в большей степени определенный с его помощью уровень звука будет соответствовать тому, который воспринимает слушатели. Именно этот фактор учитывают кривые взвешенных характеристик B и C. Однако многие государственные организации, отвечающие за технику безопасности и гигиену труда, продолжают пользоваться для оценки громкости звуков только кривыми А, поэтому в их отчетах очень часто фигурируют заниженные данные. Болевой порог уровня звука при частоте 1 кГц составляет 120 -- 130 дБ, и, как правило, женщины и дети более чувствительны к громкости звуков, чем взрослые мужчины.


3.6 Цифровой звук

Акустический звук представляет собой непрерывный во времени и по амплитуде процесс, то есть давление воздуха изменяется во времени плавно, а не перепрыгивает от одного значения к другому. Акустический звук может быть преобразован в электрический сигнал при помощи микрофона, который в зависимости от изменения давления воздуха изменяет создаваемое им на выходе электрическое напряжение. После перевода акустического звука в электрический сигнал непрерывность во времени и по амплитуде сохраняется: напряжение сигнала изменяется аналогично изменению давления воздуха, вот почему данный звук называют аналоговым. Мы можем записать электрический сигнал на магнитную ленту и превратить его вновь в звук при помощи динамика, который работает как "микрофон наоборот": перемещает воздух в соответствии с изменениями напряжения. Соответственно, сохраняется и упомянутая непрерывность сигнала.
Несмотря на то, что аналоговый электрический сигнал исправно служит человечеству на протяжении десятилетий, со временем отдельным его (человечества) представителям стало ясно, что аналоговые сигнал и магнитная запись - не лучшие способы передачи и хранения звуковой информации, поскольку и при передаче и при хранении происходят неизбежные потери, то есть ухудшение звука. В то же время, передачу и хранение данных в компьютерах, оперирующих исключительно цифровыми данными, можно производить без каких-либо потерь. Вопрос только в том, как перевести аналоговый звук в цифровой и обратно.
Для решения первой задачи существуют специальные устройства, известные как аналого-цифровые преобразователи (АЦП). Эти устройства способны преобразовать непрерывный аналоговый сигнал в последо- вательность отдельных чисел, то есть сделать его дискретным (англ. discrete - раздельный, состоящий из отдельных частей).

3.6.1 Частота дискретизации

Итак, преобразование аналогового сигнала в цифровой состоит из двух этапов: дискретизации по времени и квантования по амплитуде. Дискретизация по времени означает, что сигнал представляется рядом своих отсчетов (семплов), взятых через равные промежутки времени. Например, когда мы говорим, что частота дискретизации 44,1 кГц, то это значит, что сигнал измеряется 44100 раз в течении секунды
Основной вопрос на первом этапе преобразования аналогового сигнала в цифровой (оцифровки) состоит в выборе частоты дискретизации аналогового сигнала. Как уже было сказано, чем больше частота - тем точнее соответствует цифровой сигнал аналоговому. Однако, пропорционально увеличению частоты возрастают:
а) интенсивность потока цифровых данных, а пропускные возможности интерфейсов не безграничны, особенно если записывается/воспроизводится одновременно несколько каналов;
б) вычислительная нагрузка на цифровые процессоры эффектов, а их вычислительные возможности также ограничены;
в) объем памяти, необходимой для хранения цифрового сигнала. Очевидно, что необходим компромисс.
От выбора частоты дискретизации зависит частотный диапазон полученного цифрового звука или максимальная частота аналогового сигнала, правильно представленная в цифровом. Считается, что диапазон частот, которые слышит человек, составляет от 20 до 20000 Гц. Согласно известной теореме Котельникова, для того, чтобы аналоговый (непрерывный по времени) сигнал можно было точно восстановить по его отсчетам, частота дискретизации должна быть как минимум вдвое больше максимальной звуковой частоты. Таким образом, если реальный аналоговый сигнал, который мы собираемся преобразовать в цифровую форму, содержит частотные компоненты от 0 Гц до 20 кГц, то частота дискретизации такого сигнала должна быть не меньше, чем 40 кГц. Сегодня самыми распространенными частотами дискретизации являются 44,1 кГц (CD) и 48 кГц (DAT). Впрочем, в последнее время идет немало разговоров о том, что обертоны, расположенные свыше 20 кГц, вносят немалый вклад в звучание и в результате появляются преобразователи, использующие частоты дискретизации 96 кГц и 192 кГц, а в недалеком будущем ожидается появление и систем с частотой 384 кГц.
Тем не менее, исходный аналоговый сигнал обычно имеет спектр, сосредоточенный в основном в полосе частот от 20 Гц до, примерно, 20 кГц. Однако, кроме того в сигнале обычно содержатся помехи с частотами до нескольких сот килогерц. Это различные трудно устранимые наводки от компьютерной техники, промышленных и электробытовых приборов, трамваев, троллейбусов и т. д.
В процессе дискретизации частотный спектр аналогового сигнала претерпевает значительные изменения. Он становится периодическим. Спектр исходного сигнала периодически повторяется с периодом равным частоте дискретизации. Высокочастотные компоненты исходного сигнала (помехи) попадают в низкочастотную часть спектра.
Все это выглядит весьма непривычно, если не сказать, что вообще противоречит здравому смыслу! Получается, что происходит дискретизация высокочастотных сигналов, лежащих значительно выше не только частоты Найквиста, но и самой частоты дискретизации. На первый взгляд это даже противоречит упомянутой выше теореме Котельникова. Однако это происходит именно так.
Второе изменение спектра заключается в его расширении. В отличии от "свертки" этот факт уже не противоречит здравому смыслу и вполне очевиден. После дискретизации относительно низкочастотный исходный аналоговый сигнал представляет из себя последовательный временной ряд очень узких импульсов с разной амплитудой и с очень широким спектром до нескольких мегагерц (математический факт - чем уже импульс, тем шире его спектр). Поэтому и в целом спектр такой последовательности импульсов расширяется до тех же нескольких мегагерц. Таким образом, спектр дискретизированного сигнала значительно шире спектра исходного аналогового сигнала.
Так как весь исходный спектр свернулся в полосу частот от 0 Гц до частоты Котельникова, то логично и естественно, что расширение спектра происходит дублированием спектра из полосы от 0 Гц до частоты Котельникова.
Итак, реальные аналоговые сигналы часто содержат высокочастотные составляющие, плохо поддающиеся оцифровке на стандартных частотах 44,1 кГц или 48 кГц. Поэтому перед дискретизацией необходима аналоговая фильтрация, то есть удаление всех частот выше частоты Котельникова, являющаяся довольно сложной задачей. Аналоговые фильтры не могут пропустить, скажем, все частоты от 0 Гц до 24 кГц и подавить все частоты выше 24 кГц. Аналоговый фильтр низких частот начинает подавлять высокие частоты начиная с некоторой частоты, называемой частотой среза. Подавление плавно усиливается с ростом частоты. Поэтому, чтобы добиться отсутствия частот выше 24 кГц необходимо устанавливать частоту среза фильтра примерно на 16..20 кГц, а это уже плохо, так как будут ослаблены полезные частоты в слышимом диапазоне 16..20 кГц. Еще одна неприятность состоит в том, что чем более узкой мы пытаемся сделать переходную область между полосой пропускания и полосой подавления фильтра, тем сильнее вносимые фазовые искажения, длиннее переходный процесс (фильтр начинает "звенеть") и тем сложнее и капризнее в настройке такой аналоговый фильтр.
В современных АЦП эта проблема решается методом дискретизации на повышенной частоте. По этому методу диапазон частот входного аналогового сигнала ограничивается с помощью сравнительно несложного аналогового фильтра. Причем частота среза фильтра выбирается значительно выше высшей полезной частоты, а переходная полоса фильтра делается достаточно широкой.
Таким образом, исключаются и завал полезных высших частот, и фазовые искажения, характерные для аналоговых фильтров с узкой переходной полосой. Далее, отфильтрованный, с ограниченным по частоте спектром, сигнал дискретизируется на достаточно высокой частоте, исключающей наложение и искажение спектра - алиазинг (aliasing). Затем дискретные отсчеты сигнала преобразуются в последовательность чисел с помощью АЦП. После этого мы имеем поток цифровых данных, представляющих аналоговый сигнал, включающий как полезные, так и нежелательные высокочастотные компоненты и помехи. Эти цифровые данные пропускаются через цифровой фильтр с очень узкой переходной полосой и очень большим подавлением нежелательных высокочастотных компонент. Сегодня расчет и создание таких цифровых фильтров, к тому же не вносящих никаких фазовых искажений, не представляют больших трудностей.


После цифрового фильтра получается цифровое представление сигнала, имеющего спектр, правильно ограниченный по частоте. Применяя к такому сигналу теорему Котельникова мы можем резко понизить частоту его дискретизации до удвоенной величины наивысшей полезной частотной составляющей, чего мы и хотели добиться. Надо отметить, что часто цифровые фильтры находятся в той же микросхеме, что и другие узлы АЦП, так что пользователь даже может и не подозревать какие сложные процессы происходят в его АЦП.


Применяется дискретизация на повышенной частоте (oversampling) и в цифро-аналоговых преобразователях (ЦАП). В ЦАП также есть проблема сложности аналоговых восстанавливающих (интерполирующих) фильтров. Ведь сразу после ЦАП сигнал представляет собой серию дискретных импульсов, имеющих многочисленные алиазинговые спектральные компоненты. На аналоговый фильтр в этом случае возлагается задача полностью пропустить сигнал нужного частотного диапазона (скажем 0..24 кГц) и, по возможности, наиболее полно подавить ненужные высокочастотные компоненты. И, конечно, чисто аналоговому фильтру выполнить такие противоречивые требования очень сложно. Поэтому сначала цифровой сигнал интерполируют, то есть вставляют дополнительные отсчеты, вычисленные по специальным алгоритмам и, тем самым, резко увеличивают частоту дискретизации. Это приводит к тому, что алиазинговые спектральные компоненты на выходе ЦАП далеко отстоят от частотных компонент основного сигнала и, соответственно, чтобы отфильтровать (подавить) их достаточно применить простой аналоговый фильтр.

3.6.2 Разрядность

Напомним, что преобразование аналогового сигнала в цифровой поток данных происходит в два этапа. Первый этап - это дискретизация сигнала на основе теоремы Котельникова с использованием повышенной частоты дискретизации. Второй этап - это квантование амплитуды дискретных отсчетов, полученных на первом этапе. Представим себе, что отсчет представляет собой некий столбик или полоску, наподобие той, что мы видим на студийном индикаторе уровня сигнала. Длина этой полоски и есть амплитуда сигнала в данном отсчете. Процесс квантования амплитуды тогда можно представить как измерение длины полоски с помощью линейки. Чем чаще идут метки на линейке, тем точнее мы можем измерить длину полоски (амплитуду) и тем меньше будут ошибки измерений (шумы квантования). Однако, чем чаще расположены метки на линейке - тем больше цифр (бит) нам потребуется для записи числа, соответствующего измеренной нами длине полоски (амплитуде сигнала в отсчете). Например, если на линейке 32 метки, то для представления длины полоски (амплитуды) в виде числа понадобится максимум 5 бит (32=25). В данном случае 5 бит и будет разрядностью АЦП.
Таким образом, процесс квантования амплитуд отсчетов фактически заключается в измерении их величин по отношению к некоторому опорному источнику напряжения (линейка в предыдущих объяснениях), обычно имеющемуся внутри корпуса микросхемы АЦП, и выражении этих величин в виде чисел, состоящих из конечного числа бит. Причем числа могут быть не только целые, например 16-, 18-, 20-, 24-битные, но и 24- или 32-битные с плавающей запятой или с другой кодировкой (например, в кодах с исправлением ошибок), зависящей от конкретной реализации устройства АЦП. Довольно часто используется все же кодирование результатов измерения амплитуд отсчетов в виде целых чисел.
В обычном АЦП число бит на один отсчет (разрядность числа) выходного цифрового потока данных непосредственно с квантователя амплитуд дискретов и на выходе всего АЦП равны, так как числа с квантователя амплитуд поступают непосредственно на выход устройства. Однако, квантователь АЦП не обязательно должен иметь высокую разрядность для того, чтобы выходной поток цифровых данных АЦП имел таковую. Увеличение эффективной разрядности АЦП может быть достигнуто использованием метода увеличения частоты дискретизации (oversampling) и цифровой фильтрации.

3.7 Методы и стандарты передачи речи по трактам связи,
применяемые в современном оборудовании (7 кГц)

Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего.
Сжатие речи при ее передаче сокращает объем передаваемых данных, затраты и, благодаря этому, позволяет снижать цены на услуги и привлекать новых пользователей. Именно поэтому рынок цифровой телефонии развивается под непосредственным технологическим диктатом ученых и разработчиков кодеков речи.
Качество звучания сжатой речи в цифровой телефонии, мягко говоря, "не очень". Некоторые (из тех, конечно, кто имеет такой выбор) до сих пор предпочитают аналоговые сети цифровым, поскольку в последних речь часто звучит механически, случаются посторонние звуки и т. п. и все из-за сжимающих кодеков речи, так как в остальном цифровые протоколы передачи обеспечивают лучшее качество звучания. В компьютерной телефонии снижению качества мы, помимо кодеков речи, обязаны заметным запаздываниям сигнала и ошибкам при сборке пакетов. Впрочем, это болезни роста: понятно, что если с кодеком на 2,4 кбит/с "узкий" канал справляется с трудом, то на скорости 1,2 кбит/с проблем будет меньше.
Спектр речи весьма широк (примерно от 50 до 10000 Гц), но для передачи речи в аналоговой телефонии когда-то отказались от составляющих, лежащих вне полосы 0,3-3,4 кГц, что ухудшило восприятие ряда звуков (например, шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также ухудшает восприятие из-за потерь низкочастотных гармоник основного тона. А в цифровой телефонии к влиянию ограничения спектра добавляются еще шумы дискретизации, квантования и обработки, дополнительно зашумляющие речь.
Решающими в выборе полосы 0,3-3,4 кГц были экономические соображения и нехватка телефонных каналов. Для совместимости по полосе с распространенными аналоговыми сетями в цифровой телефонии отсчеты аналоговой речи приходится брать согласно теореме Котельникова с частотой 8 кГц не меньше двух отсчетов на 1 Гц полосы. Правда, в цифровой телефонии существует принципиальная возможность использовать спектр речи за пределами полосы 0,3-3,4 кГц и тем самым повысить качество, но эти методы не реализуются, так как они вычислительно пока еще очень сложны. При полосе исходного сигнала до 6 кГц и тактовой частоте отсчетов около 16 кГц сжатый цифровой сигнал требует для передачи канал в 12 кбит/с. При этом оценка качества по критерию MOS может быть выше 4,5 балла.
Озвученная речь, представляющая большую трудность для сжатия, образуется с помощью звуковых связок человека. Скорость их периодических колебаний задает так называемую частоту основного тона (ОТ) периодическую подпитку энергией голосового тракта человека, который представляет собой объемный резонатор. Голосовой тракт формирует спектральную окраску речи, или, другими словами, ее формантную структуру. Другое название голосового тракта - синтезирующий фильтр нам более удобно, так как математическое описание речеобразования обычно ведется в терминах линейной фильтрации. Тогда, условно, речевой сигнал можно разделить на две составляющие, отвечающие за 1- ый ОТ (возбуждение фильтра) и 2-ой голосовой тракт (формантная структура сигнала). Соответственно, большинство на сегодня используемых алгоритмов, так или иначе, решают один вопрос - как наиболее эффективно выделить и сокращенно описать обе составляющие. А отрезки глухой речи при моделировании заменяют спектрально окрашенным шумом.
Рассмотрим методы цифрового представления речи, к которым относятся: 1. прямое аналого- цифровое преобразование (или импульсно-кодовая модуляция, ИКМ); 2. эффективное кодирование речи, ЭКР (здесь можно выделить кодеры формы, вокодеры и кодеры, реализующие алгоритмы анализа через синтез).

3.7.1 Импульсно-кодовая модуляция (PCM Pulse-Code Modulation)

Прямое аналого-цифровое преобразование является низкоэффек- тивным (т. е. имеющим малую скорость кодирования при заданном качестве) высококачественным методом кодирования. Кодеки, построенные на базе данного метода, работают на скоростях не ниже 32 кбит/с. При этом полоса входного аналогового сигнала ограничена диапазоном 0,3-3,4 кГц. Для повышения качества преобразования полоса может быть расширена до 6 кГц, что соответствует скорости передачи 88 кбит/с при частоте дискретизации 12 кГц (при дальнейшем расширении полосы качество представления речи не повышается).
Еще в 60-х годах был принят алгоритм оцифровки голоса под названием импульсно-кодовой модуляции (Pulse-Code Modulation PCM, международный стандарт G.711). Оцифровка голосового сигнала включает измерение уровня аналогового сигнала через равные промежутки времени. В соответствии со стандартом G.711 принимается, что для узнаваемости голоса необходимо обеспечить передачу его частотных составляющих в диапазоне от 200 до 3400 Гц. Известно, что для правильной передачи всех частотных составляющих необходимо измерять уровень сигнала с частотой 8 кГц. В стандарте также принимается, что оцифровка аналогового сигнала производится с восьмиразрядным разрешением. При этом обычно используется один из двух способов установления соответствия между амплитудой звукового сигнала и цифровым значением - либо A-кодирование (оно принято в Европе и Азии), либо мю-кодирование (принятое в США, Канаде и некоторых других странах) . И то и другое просто таблицы соответствия между измеряемым значением напряжения и числом, при помощи которого оно кодируется. Для передачи одного голосового канала в цифровом виде требуется пропускная способность 64 кбит/с (8 кГц х 8 разрядов). Попутно заметим, что именно эта величина и используется в качестве единицы измерения пропускной способности каналов современных цифровых сетей.

3.7.2 m-Law и A-Law кодирование

Когда звуковая карта получает звуковые данные, она преобразует каждое значение дискретизации в соответствующее значение напряжения, которое затем усиливается и подается на динамик или наушники. При изменении значения оцифрованного звука меняется напряжение, а динамик преобразует изменение напряжения в изменение звукового давления, которое в виде звуковой волны распространяется в воздухе и достигает вашего уха.
Какая же связь между значением оцифрованного звука и генерируемым звуковой картой напряжением? Наиболее очевидный подход заключается в использовании линейной связи (linear relation), при которой, например, увеличение значения цифрового представления звука вдвое будет приводить к увеличению напряжения также в два раза. Однако этот подход не эффективен. Человеческое ухо воспринимает звук нелинейно: разница между малыми цифровыми представлениями звукового сигнала может быть слишком велика для слабых звуков, в то время как разница между большими представлениями будет слишком мала, чтобы ухо ее различило.
Принимая во внимание указанную природу человеческого слуха вводят логарифмическую шкалу. Соотношения m-Law и A-Law соответствуют этой шкале. Соотношение m-Law используется, прежде всего, в Северной Америке и в Японии. Для преобразования значения линейной дискретизации m в дискретизацию Ym используется следующее уравнение:

где mp максимальное входное значение оцифрованного звука, а m константа, обычно 100 или 255.
A-Law используется в Европе. Оно также используется для преобразования значения линейной дискретизации в дискретизацию YA . А это константа 87.6:

Соотношения m-Law и A-Law позволяют восьмиразрядные измерения представлять в том же диапазоне, что и линейные 12-разрядные. Таким образом, можно получить более чем 30% сжатия.

3.7.3 Методы эффективного кодирования речи

После того как аналоговый сигнал преобразован в цифровую форму, к нему можно применять различные способы обработки, которые невозможно использовать при работе с чисто аналоговым сигналом. В частности, оцифрованный сигнал перед передачей можно сжать, уменьшив таким образом пропускную способность, необходимую для передачи одного голосового соединения. Методы сжатия речи разрабатываются для достижения определенных целей нужных скоростей битового потока, качества сигнала, задержки и сложности. Чтобы гарантировать взаимную совместимость устройств кодирования и декодирования, организации по стандартам, такие как ITU-Т, ISO и ETSI, определяют эти цели в соответствии с предназначением каждого метода. Но при этом выигрывая в одном, пользователь часто проигрывает в другом.
Во-первых, несмотря на то, что алгоритмы сжатия реализуются на аппаратном уровне, с использованием специализированных процессоров обработки цифрового сигнала (Digital Signal Processor DSP), все-таки эта операция может привести к задержкам в передаче голоса. При разработке высококачественных методов сжатия речи для скоростей цифровых потоков ниже 10 Кбит/с возникают особенные трудности. Для простых алгоритмов задержка невелика единицы миллисекунд, однако для сложных алгоритмов, обеспечивающих значительное сжатие, продолжительность задержки может составлять около сотни миллисекунд, что вполне ощутимо при разговоре. К счастью, недавние достижения в области обработки цифровых сигналов (digital signal processing DSP) и сверхбольших интегральных схем (very large scale integration VLSI) сделали реализацию таких кодирующих устройств возможной и экономически эффективной.
Вторая важная проблема состоит в том, что сжатие речи, как правило, снижает качество звука. Известно, что больших степеней сжатия цифровой информации можно достичь только при использовании алгоритмов, не допускающих полного восстановления сжимаемой информации.
Наконец, в-третьих, чем выше степень сжатия информации, тем сложнее (и соответственно дороже) оборудование требуется для осуществления этой операции. По мере усовершенствования технической базы сжатия речи это ограничение теряет свою жесткость, однако появляются все новые, более сложные алгоритмы, потребляющие большие вычислительные мощности.

3.7.4 Кодирование речи в стандарте CDMA

В стандарте сотовой связи CDMA применяется метод многостанционного доступа с кодовым разделением каналов, основанный на использовании широкополосных сигналов. Каждому вызову присваивается уникальный код, позволяющий отличить этот вызов от других, передаваемых в том же частотном диапазоне. В этом стандарте обеспечивается более высокое качество речи, чем в стандарте GSM. Это во многом определяется применением кодирования речи.
В системе CDMA для преобразования аналогового речевого сигнала в цифровой используется вокодер с переменной скоростью кодирования, в основу работы которого положен алгоритм с ЛП кода - CELP. Этот алгоритм учитывает особенности человеческой речи. Вокодер перекодирует цифровой поток, имеющий скорость 64 кбит/с, в поток со скоростью 8 или 13 кбит/с. В ходе этого преобразования информационный поток делится на кадры, и содержащие паузы интервалы удаляются. Результирующий поток имеет скорость от 1 до 8 кбит/с. Вокодер приемной стороны объединяет кадры в единый поток и делает обратное преобразование. Другой важной особенностью вокодера с переменной скоростью кодирования является использование адаптивного порога для определения требуемой скорости кодирования данных. Уровень порога изменяется в соответствии с фоновым шумом. Результатом этого является подавление фона и улучшение качества речи даже в шумной обстановке. Вокодер позволяет подмешивать в речевой канал вторичный трафик, т.е. служебную информацию.

3.7.5 Речевые кодеки для IP-телефонии

Особенности функционирования каналов для передачи речевых данных, и прежде всего сети Интернет, а также возможные варианты построения систем телефонной связи на базе сети Интернет предъявляют ряд специфических требований к речевым кодекам (вокодерам). В силу пакетного принципа передачи и коммутации речевых данных отпадает необходимость кодирования и синхронной передачи одинаковых по длительности фрагментов речи, Наиболее целесообразным и естественным для систем IP-телефонии является применение кодеков с переменной скоростью кодирования речевого сигнала. В основе кодека речи с переменной скоростью лежит классификатор входного сигнала, определяющий степень его информативности и, таким образом, задающий метод кодирования и скорость передачи речевых данных. Наиболее простым классификатором речевого сигнала является Voice Activity Detector (VAD), который выделяет во входном речевом сигнале активную речь и паузы. При этом, фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов (как правило на базе метода Code Excited Linear Prediction - CELP) с типичной скоростью 4 - 8 Кбит/с. Фрагменты, классифицированные как паузы, кодируются и передаются с очень низкой скоростью (порядка 0.1 - 0.2 Кбит/с), либо не передаются вообще. Передача минимальной информации о паузных фрагментах предпочтительна.
Схемы более эффективных классификаторов входного сигнала детальнее осуществляют классификацию фрагментов, соответствующих активной речи. Это позволяет оптимизировать выбор стратегии кодирования (скорости передачи данных), выделяя для особо ответственных за качество речи участков речевого сигнала большее число бит (сответственно большую скорость), для менее ответственных - меньше бит (меньшую скорость). При таком построении кодеков могут быть достигнуты низкие средние скорости (2 - 4 Кбит/с) при высоком качестве синтезируемой речи.
Необходимо отметить, что для рассматриваемых приложений традиционная для вокодеров проблема снижения задержки при обработке сигнала в кодеке не является актуальной, так как величина суммарной задержки при передаче речи в системах IP-телефонии главным образом определяется задержками вносимыми каналами сети Интернет. Тем не менее, решения, позволяющие снизить задержку в вокодере, представляют практический интерес.
Проведенный в различных исследовательских группах анализ качества синтезированной речи при передачи речевых данных через сеть Интернет показывает, что основным источником возникновения искажений, снижения качества и разборчивости синтезированной речи является прерывание потока речевых данных, вызванное потерями при передачи по сети либо превышением предельно допустимого времени доставки пакета с речевыми данными. Гистограммы распределения числа последовательно потерянных пакетов показывают, что вероятность одиночных потерь выше вероятности потерь нескольких кадров подряд. Можно ожидать, что с развитием сети Интернет при дальнейшем увеличении ее пропускной способности, оптимизации маршрутизаторов и протоколов преобладающую роль будут играть потери одиночных пакетов. Следует заметить, что в случае прихода пакета данные, как правило, доставляются без ошибок. В таких условиях помехоустойчивое кодирование речевых данных нецелесообразно.
Таким образом, одной из важнейших задач при построении вокодеров для IP-телефонии является создание алгоритмов компрессии речи толерантных к потерям пакетов.
Для обслуживания широкой сети абонентов система IP телефонной связи с использованием шлюзов должна включать абонентские линии связи с аналоговыми окончаниями. Это означает, что синтезированный в шлюзе аналоговый речевой сигнал по соединительной линии будет поступать на телефонный аппарат абонента. Точно также сигнал с выхода микрофона телефонного аппарата абонента по аналоговой линии будет поступать на вход вокодера, размещенного в шлюзе. Хорошо известно, что классические алгоритмы низкоскоростной компрессии речи чувствительны к амплитудно-частотным искажениям, возможным в соединительных линиях и акустических трактах. При создании алгоритмов низкоскоростных вокодеров это обстоятельство должно приниматься во внимание.
Каковы же перспективы создания вокодеров для IP-телефонии? Что имеется сегодня и ожидается в ближайшее время? Насколько можно судить по литературным данным специальных разработок для Интернет-телефонии, рекомендованных ITU-T (сектор стандартизации в области телекоммуникаций международного союза телекоммуникаций) пока не существует. Среди международных стандартов, рекомендуемых для подобных систем, чаще других упоминается G.723.1, обеспечивающий передачу речи со скоростью 5.3 и 6.3 Кбит/с, а так же G.729 для скорости передачи 8 Кбит/с.
Гарантируя достаточно высокое качество речи в идеальных условиях передачи, упомянутые стандарты были разработаны для использования в каналах, отличных от Интернет и уже позже частично адаптировались для условий потерь пакетов. Развития этих стандартов включают в себя Voice Activity Detector и элементы, ответственные за синтез речевого сигнала на фрагментах, соответствующих потерянным речевым данным. В настоящее время ведущие в области телекоммуникаций фирмы и университеты проводят разработки алгоритмов вокодеров для Интернет-телефонии. Ориентируясь на рекламные публикации и собственные исследования, можно ожидать появления в ближайшие годы алгоритмов компрессии со средними скоростями 2 - 4 Кбит/с и ниже с качеством синтезированной речи, близким к коммерческому, при допустимых искажениях в условиях 20% потерь пакетов с речевыми данными.
Следует коротко отметить перспективные пути построения низкоско- ростных вокодеров с переменной скоростью. Во всех случаях здесь предпоч- тительными являются методы, использующие линейное предсказание. При этом, для скоростей более 3 Кбит/с целесообразно использование CELP-алгоритмов. Для более низких скоростей передачи данных алгоритмы будут, по-видимому, строится на базе тщательной классификации речевого сигнала с их последующим рациональным кодированием.

3.7.6 Оценка качества кодирования речи

При оценке качества кодирования и сопоставлении различных кодеков оцениваются разборчивость речи и качество синтеза (качество звучания) речи. Для оценки разборчивости речи используется метод DRT (диагностический рифмованный тест). В этом методе подбираются пары близких по звучанию слов, отличающихся отдельными согласными, которые многократно произносятся рядом дикторов, и по результатам испытаний оценивается доля искажений. Метод позволяет получить как оценку разборчивости отдельных согласных, так и общую оценку разборчивости речи.
Для оценки качества звучания используется критерий DAM (диагностическая мера приемлемости). Испытания заключаются в чтении несколькими дикторами (мужчинами и женщинами) ряда фраз, которые прослушиваются на выходе тракта связи рядом экспертов-слушателей, выставляющих оценки по 5-балльной шкале. Результатом является средняя субъективная оценка, или средняя оценка мнений (MOS). Хотя этот метод является субъективным, его результаты по сопоставлению различных типов кодеков при проведении испы- таний одними и теми же группами дикторов и экспертов-слушателей являются достаточно объективными, и на них основываются выводы и решения.
В табл. 7.6.1 приведены результаты оценки четырех типов кодеков. Близкие к шкале MOS результаты дает объективный метод оценки качества с использованием понятия кепстрального расстояния (Cepstrum Distance - CD).
Существует множество вариантов кодеков речи, из которых приходится выбирать кодек для ССС. Например, при разработке стандарта GSM были исследованы шесть типов кодеков, после чего выбор был остановлен на кодеке RPE-LTP. Работа по выбору типа кодека для стандарта GSM была завершена в 1988 г., а в 1989 г. был предложен метод VSELP, принятый затем в стандарте D-AMPS. Работы по совершенствованию кодекса речи продолжаются и в настоящее время. Обоими стандартами (D-AMPS и GSM) предусмотрено введение полускоростного кодирования, которое сможет увеличить пропускную способность канала связи в два раза. В числе исследуемых вариантов для стандарта D-AMPS рассматривается возможность введения векторного квантователя параметров линейных спектральных пар с расщеплением и межкадровым предсказанием, а для стандарта GSM - использование метода кодирования CELP.
Таблица 7.6.1 Оценка кодеков речи по шкале MOS
Тип кодека
Темп передачи информации, кбит/с
Оценка MOS

РСМ
64
4.12

ADPCM
13
3.78

RPE-LTP (стандарт GSM)
13
3.58

VSELP (стандарт D-AMPS)
8
3.44

CELP (стандарт CDMA)
4,8 9,6
3 3,7

QCELP (стандарт CDMA)
13
4.02


3.8 Основные понятия цифровой звукозаписи

Чтобы компьютер мог понимать, обрабатывать и воспроизводить звукозапись, она должна быть представлена в соответствующей форме. Звуковая волна, воспринимаемая человеческим ухом, представляет собой небольшие колебания давления воздуха. Величина давления при этом меняется непрерывно: с помощью приборов можно замерять величину давления через сколь угодно малые промежутки времени и фиксировать произвольные изменения давления.
Зарегистрировав звуковые колебания, например, на бумаге с помощью самописца или на магнитной ленте (после преобразования в электрические сигналы при помощи микрофона), мы получим аналоговую запись звука. Аналоговая запись является "естественной", создается по возможности точный снимок звука за все время звучания. Если тут же воспроизвести сделанную запись, мы должны услышать почти в точности тот же самый звук. Виниловые диски и обычные магнитофонные кассеты содержат запись звука в аналоговом виде.
Недостатки аналоговой записи связаны с тем, что любые помехи и искажения, возникшие в ходе записи или при последующем ее копировании, немедленно становятся ее неотъемлемой частью и уже не могут быть отделены от исходного звукового материала. Кроме того, аналоговая запись практически непригодна для компьютерной обработки. Компьютер способен работать только с числами, так что бесконечно малые изменения давления в звуковой волне или магнитного поля в записи не могут непосредственно интерпретироваться компьютером. Для компьютерной обработки данные должны быть представлены в цифровой форме.

3.8.1 Натуральное цифровое представление данных

Одна из "цифровых" форм записи звуковых данных известна уже очень давно, с тех времен, когда не существовало никаких компьютеров. Это всем известная запись музыки при помощи нот. Такого рода запись активно применяется и сегодня (так называемый формат General MIDI, или просто MIDI) при использовании компьютера для создания электронной музыки.
Фактически в таком случае в файл записываются не сами звуки, а правила их синтеза. Поэтому эту запись называют синтетической. Таким образом, можно добиться очень высокого качества звука, но ограничения, присущие этому методу, также очевидны. Синтетическая звукозапись не записывается, а конструируется. С ее помощью нельзя записать игру реального оркестра или пение, она также не имеет средств для записи естественной речи и вообще произвольных звуков, которые нельзя представить в виде набора простых стандартных звуковых единиц ("нот").
Поэтому, более распространен натуральный способ цифровой записи звука, заключающийся в хранении самой формы звуковой волны, то есть, регистрации в цифровом виде изменения амплитуды звукового сигнала с течением времени. Это основной способ цифровой записи звука, так как в нем не делается различий в отношении того, какой именно звук записывается. Так можно записать и музыку, и речь, и прочие звуки: шумы, удары, звонки, шипение и так далее. Исходная форма волны, как уже говорилось, - непрерывная аналоговая величина, поэтому в ходе записи производится аналогово-цифровое преобразование. При воспроизведении звука требуется обратное, цифро-аналоговое преобразование.


3.8.2 Кодирование РСМ

Метод натуральной цифровой записи звука называется РСМ (Pulse Code Modulation - импульсно-кодовая модуляция). Он заключается в том, что в ходе записи в течение каждой секунды многократно регистрируется текущая амплитуда звуковой волны. Некоторое значение амплитуды рассматривается как предельное, которое может быть представлено в звукозаписи. Ему соответствует максимальное целое число, которое "умещается" внутри соответствующего элемента данных. Текущее значение масштабируется относительно максимального и округляется до ближайшего целого числа. В результате получается как бы моментальный снимок звуковой волны. Вся звукозапись представляет собой последовательность таких "снимков".

Терминология, используемая в компьютерной цифровой звукозаписи, не устоялась как в русском, так и в английском языке, что выражается в том, что одни и те же термины используются для обозначения совершенно разных понятий. Так, с помощью английского термина sample обозначают как отдельный "снимок" звуковой волны, так и всю временную последовательность таких снимков. На русском языке в том же смысле часто используют термин "сигнал". Сигнал обозначает отдельный снимок звуковой волны, а всю последовательность сигналов мы будем рассматривать как волновую форму (в соответствии с другим часто используемым английским термином waveform).


3.9 Формат MP3

Формат MP3 - сокращение от MPEG Layer3. Это один из потоковых форматов хранения и передачи аудиосигнала в цифровой форме, разработанный Fraunhofer IIS и THOMSON, позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является наиболее сложной схемой семейства MPEG Layer 1/2/3. Она требует наибольших затрат машинного времени для кодирования по сравнению с двумя другими и обеспечивает более высокое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования CD Audio.
Формат MP3 - потоковый формат. Это означает, что передача данных происходит потоком независимых отдельных блоков данных - фреймов. Для этого исходный сигнал при кодировании разбивается на равные по продолжительности участки, именуемые фреймами и кодируемые отдельно. При декодировании сигнал формируется из последовательности декодированных фреймов.
Высокая степень компактности формат MP3 по сравнению с PCM 16Bit Stereo 44.1kHz (CD Audio) и ему подобными форматами при сохранении аналогичного качества звучания достигается с помощью дополнительного квантования по установленной схеме, позволяющей минимизировать потери качества.
Последнее, в свою очередь, достигается учетом особенностей человеческого слуха, в том числе эффекта маскирования слабого сигнала одного диапазона частот более мощным сигналом соседнего диапазона, когда он имеет место, или мощным сигналом предыдущего фрейма, вызывающего временное понижение чувствительности уха к сигналу текущего фрейма. Также учитывается неспособность большинства людей различать сигналы, по мощности лежащие ниже определенного уровня, разного для разных частотных диапазонов.
Подобные техники называются адаптивным кодированием и позволяют экономить на наименее значимых с точки зрения восприятия человеком деталях звучания. Степень сжатия, и, соответственно, объем дополнительного квантования, определяются не форматом, а самим пользователем в момент задания параметров кодирования. Ширина потока (bitrate) про кодировании сигнала, аналогичного CD Audio (44.1kHz 16Bit Stereo) варьируется от наибольшего, 320kbs (320 килобит в секунду, также пишут kbs, kbps или kb/s), до 96kbs и ниже.
Термин битрейт в общем случае обозначает общую величину потока, количество передаваемой за единицу времени информации, и поэтому не связан с внутренними тонкостями строения потока, его смысл не зависит от того, содержит ли поток моно или стерео, или пятиканальное аудио с текстом на разных языках, или что-либо еще.
На проведенных тестах специально приглашенные опытные эксперты, специализирующиеся на субъективной оценке качественности звучания, не смогли различить звучание оригинального трека на CD и закодированного в формат MP3 с коэффициентом сжатия 6:1, то есть с битрейтом в 256kbs. Правда, тесты были проведены на небольшом количестве материала, и на самом деле не все столь хорошо, нередко бывает действительно нужно пользоваться 320kbs.
Более низкие битрейты, несмотря на их популярность, не дают возможности обеспечить надлежащее качество кодирования, что незаслуженно обеспечило MP3 дурную славу любительского формата. На самом деле, хотя и 256kbs, и даже 320kbs тоже не дают возможности осуществить полностью прозрачное кодирование, но отличия от CD Audio, по которому кодируется тестовый MP3, сравнимы с отличиями самого CD Audio от исходного аналогового сигнала, из которого он был получен путем оцифровки. То есть потери, конечно, есть, но несущественны с точки зрения того, кому качество CD Audio представляется достаточным. Фактически, их обнаружение обычно является задачей нетривиальной на аппаратуре класса Hi-Fi.

3.9.1 Сжатие звуковых данных

Итак, использование стандартного формата записи звука связано с важной проблемой - большим объемом получающихся файлов. Такая проблема возникает не только в звукозаписи, но и во многих других случаях, и для ее решения существует стандартный прием - сжатие (упаковка) данных. Вы, вероятно, слышали, что есть два основных метода сжатия - без потери и с потерей информации.
Первый способ, называемый также "обратимым", можно рассматривать как универсальный, он применим к любым данным и позволяет точно восстановить их исходный вид. Однако эффективность сжатия сильно зависит от структуры самих данных. Оказывается, что структура звуковых данных в этом плане очень "неудачна".
Стандартные алгоритмы обратимого сжатия не позволяют сэкономить больше чем 10-20% от общего объема файла. Алгоритмы, учитывающие структуру звукозаписи, позволяют несколько повысить эффективность сжатия, но также не слишком значительно. Не будет преувеличением сказать, что ни один из обратимых алгоритмов не позволяет добиться хотя бы двукратного уменьшения требуемого пространства.

3.9.2 Сжатие с потерей информации

Преодолеть этот барьер удается, как только мы понимаем, что, на самом деле, нам не требуется восстанавливать исходную запись. Вполне достаточно получить запись, которая звучала бы примерно так же, как исходная. То есть, допустимо использовать форматы сжатия с потерей информации, если такая потеря не заметна на слух.
Наиболее распространенным алгоритмом такого сжатия является алгоритм ADPCM (Adaptive Differential Pulse Code Modulation - адаптивная разностная импульсно-кодовая модуляция). Он основан на том, что, в среднем, величина амплитуды звуковой волны мало меняется от одного сигнала к следующему, особенно в музыкальной записи. Поэтому, если хранить не сами сигналы, а разности между текущим и предыдущим сигналами, можно рассчитывать на то, что для хранения нужных данных потребуется меньше битов, чем при записи полного сигнала. Существует несколько вариантов сжатия ADPCM, предложенного разными производителями, но все они обеспечивают сжатие примерно в 4 раза, сопровождающееся незначительным ухудшением качества звучания.

3.9.3 Ориентация на человека

Другие алгоритмы учитывают, что источником или адресатом звука является человек. Например, форматы типа GSM, используемые в телефонной связи, моделируют особенности речевой системы человека и сохраняют необходимый минимум данных, при котором речь еще остается разборчивой. Эти форматы специально предназначены для сжатия речи при низкой разрядности и небольшой частоте дискретизации, что требуется для передачи в режиме реального времени и в цифровом виде телефонных разговоров.
Примерно на той же самой идее основан и формат МРЗ. Этот формат предназначен, в первую очередь, для записи музыки и музыкальных произведений. Формат МРЗ ориентируется на особенности не голосовой, а слуховой системы человека и использует так называемый психоакустический подход. Идентичность исходной и конечной звуковой волны в этом формате вообще не требуется. Зато он обеспечивает их одинаковое восприятие человеком. Не исключено, что летучие мыши или какие-нибудь другие животные с тонким слухом "забраковали" бы такую запись. Но о наличии тонких ценителей музыки в животном мире нам ничего не известно, а если бы и было известно, то их мнением можно было бы пренебречь, так как человеку обнаружить на слух отличия звукозаписи в формате МРЗ от неупакованного оригинала практически невозможно.
При использовании формата МРЗ достигается степень сжатия в 10-12 раз. Подробнее мы поговорим об этом формате несколько позже. [ Cкачайте файл, чтобы посмотреть ссылку ]

3.9.4 Кратко об истории и характеристиках стандартов MPEG.

MPEG расшифровывается как "Moving Picture Coding Experts Group", дословно - "Группа экспертов по кодированию подвижных изображений". MPEG ведет свою историю с января 1988 года. Точнее, группа MPEG была создана Международной организацией стандартов (International Standards Organization или сокращенно ISO) и Международной электротехнической комиссией (International Electro-Technical Commission или сокращенно IEC). Группа была образована для создания стандартов кодирования подвижных изображений и аудио информации. Начиная с первого собрания в мае 1988 года группа начала расти и выросла до необычайно плотной группы специалистов. Обычно, в собрании MPEG принимают участие около 350 специалистов из более чем 200 компаний. Встречи проводятся около трех раз в году. Большая часть участников MPEG - это индивидуальные специалисты, занятые в тех или иных научных и академических учреждениях. Это из области истории. Теперь о практике. На сегодняшний день MPEG разработаны следующие стандарты и алгоритмы:
1) MPEG-1 (ноябрь 1992) - стандарт кодирования, хранения и декодирования подвижных изображений и аудио информации. Этот комплект, в соответствии со стандартами ISO, включает в себя три алгоритма различного уровня сложности: Layer (уровень) I, Layer II и Layer III. Общая структура процесса кодирования одинакова для всех уровней. Для каждого уровня определен свой формат записи бит-потока и свой алгоритм декодирования. Алгоритмы MPEG основаны в целом на изученных свойствах восприятия звуковых сигналов слуховым аппаратом человека (то есть кодирование производится с использованием так называемой "психоакустической модели").
Кратко об алгоритме кодирования. Входной цифровой сигнал сначала раскладывается на частотные составляющие спектра. Затем этот спектр очищается от заведомо неслышных составляющих - низкочастотных шумов и наивысших гармоник, то есть фактически фильтруется. На следующем этапе производится значительно более сложный психоакустический анализ слышимого спектра частот. Это делается в том числе с целью выявления и удаления "замаскированных" частот (частот, которые не воспринимаются слуховым аппаратом в виду их приглушения другими частотами). После всех этих манипуляций из цифрового аудио сигнала исключается больше половины информации. Затем, в зависимости от уровня сложности используемого алгоритма, может быть также произведен анализ предсказуемости сигнала. Кроме этого, базируясь на том, что человеческое ухо способно различать направление звучания только средних частот, то в случае, когда кодируется стерео сигнал, его можно превратить в совмещенный стерео (joint stereo). Это значит, что фактически происходит отделение верхних и нижних частот и их кодирование в моно варианте (средние частоты остаются в режиме стерео). Далее, в случае появления, например, "тишины" в одном из каналов, "пустующее" место заполняется информацией либо повышающей качество другого канала, либо просто не поместившейся до этого. В довершение ко всему проводится сжатие уже готового бит-потока упрощенным аналогом алгоритма Хаффмана (Huffman), что позволяет также значительно уменьшить занимаемый потоком объем.
Комплект MPEG-1 предусмотрен для кодирования сигналов, оцифрованных с частотой дискретизации 32, 44.1 и 48 КГц. Как было указано выше, комплект MPEG-1 имеет три уровня (Layer I, II и III). Эти уровни имеют различия в обеспечиваемом коэффициенте сжатия и качестве звучания получаемых потоков. Layer I позволяет сигналы 44.1 КГц / 16 бит хранить без ощутимых потерь качества при скорости потока 384 Кбит/с, что составляет 4-х кратный выигрыш в занимаемом объеме; Layer II обеспечивает такое же качество при 194 Кбит/с, а Layer III - при 128 (или 112). Выигрыш Layer III очевиден, но скорость компрессии при его использовании самая низкая (надо отметить, что при современных скоростях процессоров это ограничение уже не заметно). Фактически, Layer III позволяет сжимать информацию в 10-12 раз без ощутимых потерь в качестве.
2) MPEG-2 (ноябрь 1994) - стандарт кодирования для цифрового телевидения. Стандарт MPEG-2 был специально разработан для кодирования ТВ сигналов вещательного телевидения, поэтому на рассмотрении MPEG-2 мы бы не останавливались, если бы в апреле 1997 этот комплект не получил "продолжение" в виде алгоритма MPEG-2 AAC (MPEG-2 Advanced Audio Coding - продвинутое аудио кодирование). Стандарт MPEG-2 AAC стал результатом кооперации усилий института Fraunhofer, компаний Sony, NEC и Dolby. MPEG-2 AAC является технологическим приемником MPEG-1. Существует несколько разновидностей этого алгоритма: Homeboy AAC, AT&T a2b AAC, Liquifier AAC, Astrid/Quartex AAC и Mayah AAC. Наиболее высокое качество звучания по сравнению c
MPEG-1 Layer III обеспечивают две предпоследние реализации. Все приведенные разновидности алгоритма AAC не являются совместимыми между собой.
Также, как и в комплекте аудио стандартов кодирования MPEG-1, в основе алгоритма AAC лежит психоакустический анализ сигнала. Вместе с тем, алгоритм AAC имеет в своем механизме множество дополнений, направленных на улучшение качества выходного аудио сигнала. В частности, используется другой тип преобразований, улучшена обработка шумов, изменен банк фильтров, а также улучшен способ записи выходного бит-потока. Кроме того, AAC позволяет хранить в закодированном аудио сигнале т.н. "водяные знаки"
(watermarks) - информацию об авторских правах. Эта информация встраивается в бит-поток при кодировании таким образом, что уничтожить ее становится невозможно не разрушив целостность аудио данных. Эта технология (в рамках Multimedia Protection Protocol) позволяет контролировать распространение аудио данных (что, кстати, является препятствием на пути распространения самого алгоритма и файлов, созданных с помощью него). Следует отметить, что алгоритм AAC не является обратно совместимым
(NBC - non backwards compatible) с уровнями MPEG-1 не смотря на то, что он представляет собой продолжение (доработку) MPEG-1 Layer I, II, III.
MPEG-2 AAC предусматривает три различных профиля кодирования: Main, LC (Low Complexity) и SSR (Scaleable Sampling Rate). В зависимости от того, какой профиль используется во время кодирования, изменяется время кодирования и качество получаемого цифрового потока. Наивысшее качество звучания (при самой медленной скорости компрессии) обеспечивает основной Main профиль. Это связано с тем, что профиль Main включает в себя все механизмы анализа и обработки входного потока. Профиль LC упрощен, что сказывается на качестве звучания получаемого потока, сильно отражается на скорости компрессии и, что более важно, декомпрессии. Профиль SSR также представляет собой упрощенный вариант профиля Main.
Говоря о качестве звука, можно сказать, что поток AAC (Main) 96 Кбит/с обеспечивает качество звучания, аналогичное потоку MPEG-1 Layer III 128 Кбит/с. При компрессии AAC 128 Кбит/с, качество звучания ощутимо превосходит MPEG-1 Layer III 128 Кбит/с.
3) MPEG-4 - стандарт для мультимедиа приложений: версия 1 (октябрь 1998) и версия 2 (декабрь 1999). Стандарт MPEG-4 - это особая статья. MPEG-4 не является просто алгоритмом сжатия, хранения и передачи видео или аудио информации. MPEG-4 - это новый способ представления информации,
это объектно-ориентированное представление мультимедиа данных. Стандарт оперирует объектами, организует из них иерархии, классы и прочее, выстраивает сцены и управляет их передачей. Объектами могут служить как обычные аудио или видео потоки, так и синтезированные аудио и графические данные (речь, текст, эффекты, звуки...). Такие сцены описываются на специальном языке. Не будем останавливаться подробно на этом стандарте - это тема отдельного обширного обсуждения. Следует только сказать, что в качестве средств компрессии аудио в MPEG-4 используется комплекс нескольких стандартов аудио кодирования: алгоритм MPEG-2 AAC, алгоритм TwinVQ, а также алгоритмы кодирования речи HVXC (Harmonic Vector eXcitation Coding) для битрейтов 2-4 Кбит/с и CELP (Code Excited Linear Predictive) - для битрейтов 4-24 Кбит/с. Кроме того, MPEG-4 имеет множество механизмов обеспечения масштабируемости.
4) MPEG-7 - универсализованный стандарт работы с мультимедиа информацией, предназначенный для обработки, фильтрации и управления мультимедиа информацией. Стандарт MPEG-7, разработка которого еще не окончена, вообще в корне отличается от всех иных стандартов MPEG. Стандарт разрабатывается не для установления каких-то рамок для передачи данных или типизации и описания данных какого-то конкретно рода. Стандарт предусмотрен как описательный, предназначенный для регламентации характеристик данных любого типа, вплоть до аналоговых. Использование MPEG-7 предполагается в тесной связи с MPEG-4.
Для удобства обращения со сжатыми потоками, все алгоритмы MPEG разработаны таким образом, что позволяют осуществлять декомпрессию (восстановление) и воспроизведение потока одновременно с его получением (download) - потоковая декомпрессия "на лету" (stream playback). Эта возможность очень широко используются в Интернет, где скорость передачи информации ограничена, а с использованием подобных алгоритмов появляется возможность обрабатывать информацию прямо во время ее получения, не дожидаясь окончания передачи.

3.9.5 Что такое CBR и VBR?

Как известно, результатом кодирования сигнала с помощью такого алгоритма, как, например, MPEG-1 Layer III (MP3) (или некоторых других алгоритмов), является бит-поток с фреймовой (блочной) структурой. Это объясняется тем, что кодирование исходного потока производится не целиком, а по частям. То есть фактически исходный поток разделяется на блоки определенной фиксированной длины, затем каждый блок (фрейм) в отдельности подвергается кодированию и результат (кодированный блок информации) направляется в результирующий поток (будь то файл или поток данных).
CBR (Constant Bit Rate - постоянный битрейт) - это такой способ кодирования исходного аудио потока, при котором все его блоки (фреймы) кодируются с одинаковыми параметрами (с одинаковым битрейтом). Иными словами, битрейт на всей протяженности (всех фреймов) результирующего потока является постоянным.
VBR (Variable Bit Rate - переменный битрейт) - это такой способ кодирования исходного аудио потока, при котором каждый отдельный блок (фрейм) кодируется со своим битрейтом. Выбор битрейта, оптимально подходящего для кодирования данного фрейма, осуществляется самим кодером путем анализа "сложности сигнала" в каждом отдельном фрейме. [ Cкачайте файл, чтобы посмотреть ссылку ]

3.9.6 Каковы отличия режимов CBR, VBR и ABR?

Уточним две детали:
Кодирование в MP3 происходит поблочно: кодируемый файл разбивается на фреймы (кадры) с одинаковым интервалом, каждый кадр кодируется и записывается в выходной поток; таким образом, выходной поток также имеет кадровую структуру.
Фреймы могут быть закодированы не на любом битрейте, а только на одном из входящих в таблицу стандартных для MPEG1 Layer III битрейтов: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320. Кодирование на любых промежуточных битрейтах ("freeformat") стандартом не предусмотрено.
Люди, использующие VBR в Lame, обычно аргументируют это фразой: "я хочу получать постоянное качество, а не постоянный битрейт". Действительно, ведь в музыке бывают простые пассажи, на которые вполне хватает и 128 Кбит/сек (например паузы между песнями), а бывают и сложные, на которых человек с хорошим слухом, хорошей аудио картой и прочей аудиоаппаратурой услышит дефекты компрессии даже на 320 Кбит/сек. На самом деле такой аргумент не совсем правомочен.
CBR
Даже в режиме CBR, mp3-кодер может перераспределять биты во времени, выделяя большее или меньшее количество бит во время сложного или простого пассажей, что позволяет в целом улучшить качество звучания. Такое перераспределение бит делается за счёт так называемого резервуара бит: во время кодирования простых пассажей кодер тратит на них не весь заданный пользователем битрейт, а лишь около 90%, около 10% экономится в резервуаре для кодирования сложных мест (изначально резервуар пуст). При кодировании сложных пассажей кодер будет использовать все 100% указанного битрейта и добавлять дополнительные биты из резервуара (если таковые имеются, то есть если резервуар не пуст). К сожалению, в соответствии со стандартом, размер резервуара ограничен. Это означает, что если простой сигнал продолжается достаточно долго, резервуар накапливает свой объем до определенных максимально допустимых пределов и далее кодирование идёт уже с использованием всех 100% битрейта. И обратная ситуация: если сложный сигнал продолжается достаточно долго, из резервуара (постепенно) забираются все сэкономленные биты и далее кодирование идёт с использованием уже теперь всех 100% битрейта.
ABR
Пояснение: Можно было бы сказать, что резервуар неплохо справляется со своей основной обязанностью - накопление "лишних" битов во время простых пассажей и их выдача в качестве дополнительных при кодировании сложных пассажей, если бы не одно "но": он обладает конечным и, причём, весьма ограниченным размером, что означает, что копить его можно лишь до определенных пределов, и вынимать, соответственно, тоже, пока резервуар не опустошится. Именно для того чтобы убрать этот главный недостаток резервуара и был разработан ABR.
Главное отличие ABR от CBR в том, что в CBR все фреймы обязаны быть одного размера (то есть битрейт для всех фреймов должен быть одинаков), в ABR же это ограничение снято, соответственно, существует возможность вместо стандартного весьма ограниченного по размеру резервуара использовать практически бесконечный "виртуальный" резервуар. Выглядит это приблизительно следующим образом.
Механизм: Допустим, что пользователь указал режим ABR и определенный битрейт B (пользователь может указывать абсолютно любой битрейт от 32 до 320, даже не из стандартной сетки битрейтов, например можно указать в качестве желаемого среднего битрейта 129). Кодер принимает кусок аудио (фрейм), который необходимо закодировать. Таким же образом, как и в CBR, определяет его сложность (об этом мы поговорим ниже). Если пассаж сложный, то кодер также берёт на него больше битов, но уже не из резервуара (как в CBR), а просто-напросто увеличивая битрейт на необходимое количество ступеней (выбранный битрейт должен входить в сетку стандартных), создавая таким образом "виртуальный резервуар" (поднять битрейт здесь можно - это не CBR). Что значит "виртуальный резервуар"? Это просто: мы предположили, что указанного пользователем битрейта B кодеру мало, ему нужно K бит (K > B), тогда кодер подбирает такой минимальный стандартный битрейт N, при котором выполняется: N >= K (такой выбор битрейта мы и называем "виртуальный резервуар"). Затем происходит кодирование с помощью K бит взятого куска аудио. Однако N >= K, то есть мы использовали меньше бит, чем есть во взятом фрейме, так не будем же мы выбрасывать эти лишние биты? Вот эти лишние биты мы и записываем в уже настоящий резервуар. Так как в ABR есть возможность использовать "виртуальный резервуар" не имеет смысла строить стандартный резервуар, поэтому когда придет следующий кусок аудио, для его кодирования сначала будут использованы биты из резервуара, а потом кодер решит какой битрейт необходим дальше. Другими словами, если в CBR кодер все время старается накопить как можно больше бит в резервуаре, то в ABR кодер наоборот, старается избавиться от бит в резервуаре, так как копить их незачем - можно просто поднять битрейт.
Простые пассажи кодируются меньшим количеством бит, на них берётся примерно 95% от указанного битрейта B, но теперь остаток не откладывается в резервуар, кодер просто берёт фрейм с меньшим битрейтом. Возникающая разница (оставшиеся биты) записывается в стандартный резервуар (не выбрасывать же оставшиеся биты...). Пример. Допустим, пришел "простой" пассаж. Тогда кодер берет все биты (если таковые есть) в резервуаре (настоящем), потом ищет ближайший стандартный битрейт, при котором суммарное количество бит, получившееся для этого фрейма (все биты из резервуара + взятый битрейт), составит 95% от заданного пользователем битрейта B, производит кодирование, а лишние биты (если они остались) снова сохраняет в резервуаре.
Итог: Таким образом, использование резервуара в ABR отлично от CBR. В CBR битрейт менять нельзя и резервуар специально копят путем сохранения там бит, которые остались (были сэкономлены) от кодирования фрейма на заданном изначально фиксированном битрейте во время простого пассажа; если для кодирования нужны биты и резервуар пуст - то пуст, ничего с этим поделать нельзя и кодирование идет просто на указанном битрейте в ущерб качеству. В ABR битрейт переменный и стандартный резервуар фактически не нужен, однако поскольку поднятие (опускание) битрейта происходит обязательно до определенного табличного значения, которое может оказаться выше необходимого кодеру количества бит, то лишние биты, конечно, не выбрасывают, а сохраняют в резервуаре. Иными словами, в CBR накопление стандартного резервуара - основная задача, в ABR же есть неограниченный "виртуальный резервуар" и стандартный используется только для хранения лишних бит, образовавшихся в результате разницы между табличными значениями битрейтов и реально необходимым битрейтом.
VBR
VBR - переменный битрейт. Пользователь указывает желаемое качество. Lame, опираясь на свою психоакустическую модель, выделяет для каждого фрейма ровно то количество бит, которое необходимо для достижения заданного качества. В выходном потоке фреймы соответственно имеют разные битрейты (которые всегда ложатся в таблицу стандартных битрейтов). Использование резервуара в VBR абсолютно идентично ABR - туда попадают только неиспользованные хвостики фреймов.

3.9.7 Методы оценки сложности сигнала

Таким образом, основное отличие CBR, ABR и VBR состоит в использовании разных методов подсчёта необходимого для кодирования каждого фрейма количества бит.
Методы оценки сложности сигнала: метод 1 (VBR)
Первый метод основан на вычислении "психоакустической маскировки" и "ошибки кодирования". Этот метод используется в VBR и теоретически должен был бы давать максимальное качество если бы психоакустическая модель Lame была идеальна. В основе этого метода лежит очень простая идея: на кодирование выделяется минимальное количество бит, необходимое для выполнения условия: [ошибка_кодирования] < [порога_маскировки] (то есть дефекты кодирования должны маскироваться основным сигналом и не должны быть различимы на слух).
Пояснение по поводу маскировки. Основная масса "аудио компрессоров с потерями" использует для сжатия аудио сигнала особенности человеческого слуха (в противовес существуют аудиокомпрессоры использующие особенности звукоизвлечения), а именно его неидеальность. Можно указать несколько основных "дефектов" слуха используемых в сжатии звука: 1) ограниченный динамический диапазон. Человек не слышит слабых сигналов или, иначе говоря, существует некий порог слышимости. 2) громкие сигналы (особенно шумовые, а не тональные) обладают маскирующим действием, при чем как во временной, так и в частотной области, т.е. любой мощный, особенно шумовой сигнал определённой частоты маскирует достаточно слабый сигнал, особенно если он лежит в близком частотном диапазоне и такой замаскированный сигнал можно не кодировать, ведь человек его не слышит. Порог маскировки может быть увеличен на несколько децибелл путем уменьшения качества кодирования (объяснение этому: чем хуже качество кодирования, тем больше артефактов и помех в звучании, и тем более мощный сигнал необходим, чтобы замаскировать эти помехи).
Плюс такого метода: теоретически максимальное качество. Минусы: невысокая скорость а также то, что из-за не идеальности психоакустической модели в Lame, постоянно занижается битрейт, соответственно не рекомендуется использовать без фиксированной нижней границы около 112- 128 кБ/с, а, следовательно, режим VBR вообще не рекомендуется использовать на низких и средних битрейтах. Резервуар в VBR минимизирован, а следовательно не рекомендуется использовать ограничение битрейта сверху (объяснение: так как практически резервуара в VBR нет, если ограничить битрейт сверху, то некоторым фреймам со "сложной" музыкой может оказаться недостаточно бит для кодирования звука, поскольку дополнительные биты взять неоткуда , резервуара нет и битрейт ограничен; такие фреймы будут кодироваться только тем количеством бит, которое имеется в наличии - то есть на максимально допустимом битрейте, что может привести к плохому качеству кодирования).
Методы оценки сложности сигнала: метод 2 (ABR / CBR)
Второй метод основан на вычислении Perceptual Entropy (PE), характеризующей сложность кодируемого сигнала (чем сложнее сигнал, тем PE больше). Этот метод используется при кодировании CBR и ABR. Механизм расчета сложности сигнала с помощью PE полностью отличается от механизма, использованного в VBR. Не вдаваясь глубоко в подробности следует сказать, что если в первом методе расчет сложности сигнала проводился опираясь на свойства маскировки, то в данном методе сложность сигнала оценивается путем попытки его предсказания: чем более сложный сигнал (огибающая ведет себя хаотично), тем труднее он предсказуем и, соответственно, тем больше бит требуется для кодирования сигнала. Во время кодирования кодер пытается предсказать сигнал, затем сравнивает предсказанный сигнал с оригиналом, чем менее предсказанный сигнал совпадает с оригиналом, тем больше бит уходит на кодирование. Очень важно отметить, что используемые методы вычисления сложности сигнала принципиально влияют на отличия использующих их механизмов. Так, принципиальная разница между ABR/CBR (использующих описываемый метод) и VBR (который использует метод 1, описанный выше) заключаются еще и в том, что выбор битрейта в ABR/CBR лежит не на кодере, а на пользователе, при этом Lame лишь добавляет/отнимает небольшое количество бит во время кодирования сложных/простых мест соответственно (для чего и рассчитывается PE). Другими словами, в зависимости от рассчитанного PE, к выбранному пользователем битрейту добавляется (или отнимается от него) нужное число бит, что реализуется с помощью механизма работы с резервуаром (виртуальным или настоящим). Таким образом, при использовании второго метода именно пользователь выбирает битрейт (когда в VBR кодер сам решает величину битрейта), PE же лишь корректирует его с помощью резервуара в зависимости от сложности музыки. Происходит это примерно следующим образом.
CBR. Для каждого фрейма выделяется "основное", постоянное количество бит, 90% от указанного битрейта и "дополнительное", переменное. Простые пассажи кодируются с помощью этих 90-а процентов, а оставшиеся 10% процентов накапливаются в резервуаре битов (как было описано вначале), вплоть до его заполнения, после чего на кодирование простых пассажей уходит весь битрейт (так как экономить биты некуда). Сложные пассажи кодируются используя полный битрейт плюс из резервуара изымаются дополнительные биты, если только в нём ещё есть биты. Плюсы: совместимость, минусы: из-за малого размера резервуара очень часто нахватает дополнительных бит для кодирования сложных мест.
ABR. При кодировании ABR использование резервуара минимизировано, он просто-напросто не нужен, ведь в ABR мы можем использовать фреймы с разным битрейтом и, соответственно, не накапливать биты в резервуаре (механизм работы ABR пояснен на примере выше). После вычисления PE и необходимого "дополнительного количества" бит, Lame просто выбирает минимальный битрейт в который укладывается полное необходимое количество бит (битрейт выбирается из таблицы). Остаток бит не выбрасывается, а накапливается в резервуаре.
Замечание: неправильно было бы думать, что в CBR и ABR совсем не используется психоакустика - конечно же это не так. Такая вещь как перераспределение битов отведённых на кодирование фрейма между всеми частотными полосами лежит именно на психоакустике.

3.9.8 Какие методы кодирования стерео информации используются в алгоритмах MPEG (и других)?

Существует несколько методов кодирования стерео-аудио информации в стандарте ISO11172-3 (MPEG-1 Layer 1,2,3).
Dual Channel. Этот режим предполагает кодирование стерео каналов, как абсолютно независимых. Иными словами, в этом режиме кодирование аудио информации происходит отдельно в каждом канале без использования корреляций между ними. Как и следует из названия, этот режим главным образом предназначен для кодирования двух параллельных но различных каналов (например, речь на английском и немецком языках), а не стерео (т.е. не два канала, несущих информацию о стерео картине). Этот режим не рекомендуется использовать для кодирования стерео сигнала, так как существуют проигрыватели (например, madplay), проигрывающие по умолчанию только один канал если поток помечен как Dual Channel.
Stereo. Этот режим отличается от предыдущего только тем, что в режиме Dual Stereo во время кодирования для каждого канала используется свой резервуар (об этом в обсуждении вопроса об отличиях ABR/VBR/CBR), а в этом режиме оба канала кодируются с использованием общего резервуара. Иных различий между режимами нет.
Joint Stereo - это общее определение методов кодирования стерео информации, основанных на использовании избыточности последней. Другими словами, все методы кодирования, основанные на использовании корреляций между двумя стерео каналами, подпадают под определение Joint Stereo.
При кодировании в MPEG-1 имеются две разновидности этого метода.
MS Stereo. В данном режиме кодируются не левый и правый канал, а их суммарная составляющая и разностная. При этом перед кодированием сигнал в каждом отдельном фрейме разбивается на частотные полосы (что, собственно, происходит всегда, то есть не только в Joint Stereo). Затем производится вычисление суммарной и разностной составляющей каналов, что математически выглядит так: Mi=(Li+Ri)/sqrt(2), Si=(Li-Ri)/sqrt(2), где i - номер частотной полосы на которые разбивается сигнал перед кодированием, M и S - Mid (сумма) и Side (разность) каналы соответственно, L и R - левый и правый каналы. При таком кодировании о какой-то деградации качества говорить не приходится, поскольку ничего кроме простейших арифметических операций здесь нет. Тяжело говорить про все MP3- кодеры, но именно так делается в Lame Encoder в режиме VBR. В кодерах от Fraunhofer и в Lame CBR (возможно и в других кодерах, так как этот метод описан в стандарте) в Joint Stereo применяется дополнительный механизм, называемый "Sparsing of side channel". Суть этого метода заключается в более жёстком кодировании side-канала, на который, в этом случае, как правило, выделяется меньшее количество бит, что приводит к деградации звучания в side канале, но улучшению качества кодирования в mid.
Intensity Stereo. В этом режиме в верхнем частотном диапазоне так же происходит кодирование общей составляющей обоих каналов, как и в случае MS Stereo, но вместо кодирования разностной составляющей в верхнем диапазоне частот происходит просто регистрация и запись мощностей сигналов в левом и правом каналах в каждой частотной полосе начиная с некоторой определенной. Иными словами весь сигнал разбивается на полосы, фактическому кодированию подвергается только нижний диапазон частот side-канала, а в верхнем частотном диапазоне начиная с определенной полосы происходит не кодирование сигнала в каждой полосе, а лишь регистрация мощностей сигнала в каждой полосе. Кодирование стерео сигнала в нижнем частотном диапазоне осуществляется в режиме MS Stereo или просто Stereo.
Таким образом, в режиме Joint Stereo фактически происходит кодирование лишь общей составляющей каналов, а стерео на высоких частотах "воссоздается" (если такой термин здесь уместен, а лучше "синтезируется") в соответствующем канале путем умножения общего сигнала на известные (сохраненные при кодировании) значения мощностей частотных участков в соответствующем канале.
Можно предположить, что приблизительно аналогичные методы кодирования стерео-аудио информации применяются и в других алгоритмах компрессии аудио.

3.9.9 Какие параметры предпочтительны при кодировании MP3?

Этот вопрос не имеет однозначного ответа. Каждый человек подбирает себе параметры кодирования в зависимости от конкретной задачи. Если речь идет о кодировании голоса или другой звуковой информации при малых требованиях к качеству, то кодирование можно производить на минимальных битрейтах, вплоть до 8 Кбит/с (при данном битрейте полоса частот ограничивается 2,5 КГц, что сравнимо с телефонной линией).
Если же стоит вопрос о кодировании аудио данных с CD (44.1 KГц / 16 бит / стерео), то на этот счет существует масса мнений. Большинство пользователей почему-то убеждено, что битрейта 128 Кбит/c достаточно для кодирования аудио CD-качеcтва без потерь. На самом деле это не так. В этом легко убедиться, если прослушать (даже на аппаратуре среднего качества) сначала оригинал, а затем полученный MP3. MP3 будет отличаться как минимум "сухостью" звучания, не говоря уже о появлении некоторых посторонних "позвякиваний", скрежета и других помех. Это обусловлено тем, что используемая при кодировании психоакустическая модель оставляет только "жизненно необходимые" частоты, отфильтровывая замаскированные и слабослышимые. Причем это проявляется тем больше, чем с меньшим битрейтом производится кодирование. Основываясь на опыте можно предположить, что битрейт, достаточный для "точной" передачи CD-звучания, лежит в пределах от 192 до 320 Кбит/с (в зависимости от кодируемого аудио сигнала и, конечно, самого слушателя). Безусловно, при таком кодировании объем, занимаемый полученным MP3-потоком, увеличивается пропорционально поднятию битрейта.
Найти компромисс можно, конечно, всегда. Кодирование с VBR возможно как следствие фреймовой структуры MP3-потока. Аудио поток при компрессии в MP3 разбивается на мелкие отрезки (фреймы) после чего происходит кодирование каждого фрейма в отдельности. В случае обычного CBR (Constant Bit Rate - постоянный битрейт) кодирование всех фреймов производится с одинаковыми параметрами. В случае же VBR и ABR, каждый фрейм кодируется со своим битрейтом. То есть при использовании VBR и ABR кодер сам выбирает какой битрейт в наибольшей степени подходит для кодирования данного фрейма. Кодирование на ABR и VBR осуществляется, например, кодером Lame. Все известные мне современные проигрыватели аудио нормально "понимают" MP3, кодированные на VBR и ABR.

3.9.10 Какие альтернативные MPEG-1 Layer III (MP3) алгоритмы компрессии существуют?

Действительно, на MP3 свет клином не сошелся. Параллельно MP3 появляются и развиваются не менее, а иногда, и более прогрессивные алгоритмы компрессии звука. Перечислять все алгоритмы нет надобности. Следует отметить только, что существуют алгоритмы по своим возможностям и качеству во многом превосходящие MP3:
MPEG-2 AAC. Об этом алгоритме было рассказано выше.
Из всех разновидностей MPEG-2 AAC особо выделяется, пожалуй, Liquifier AAC (файлы, созданные с помощью этого алгоритма обычно имеют расширение .LQT). Этот алгоритм обеспечивает как наивысшее качество звучания среди всех подобных алгоритмов, так и некоторые дополнительные возможности, например, хранение внутри LQT-файлов графических изображений обложек CD и эмблем, а также текстовую информацию. Следует сказать, что Liquifier AAC является коммерческим продуктом в отличие от своего, пожалуй, не намного уступающего по качеству собрата Astrid/Quartex AAC.
Mayah AAC - молодой кодек (на момент создания документа). По поводу него можно сказать, что будущего он не имеет. По некоторым оценкам, качество Mayah AAC в сравнении с другими енкодерами AAC ужасно. Кроме того, стало известно, что сама программа стоит много денег и распространяется лишь среди звукозаписывающих студий. Вероятнее всего, кодек не попадет в руки к обычным пользователям.
Несколько слов необходимо сказать и о другом прогрессивном алгоритме TwinVQ (Transform-domain Weighted Interleave Vector Quanization), разработанном фирмой Nippon Telegraph and Telephone Corp. (NTT) в Human Interface Laboratories и лицензированном фирмой Yamaha (продукты от Yamaha, основанные на TwinVQ, распространяются под торговой маркой SoundVQ). Этот метод позволяет сжимать цифровые потоки с коэффициентом компрессия до 1:20. При этом качество звучания потока TwinVQ при 96 Кбит/с практически идентично качеству звучания потока MPEG-1 Layer III (при 128 Кбит/с) и MPEG-2 AAC (при 96 Кбит/с). Алгоритм TwinVQ позволяет кодировать данные во всем диапазоне слышимых частот (до 22 КГц) и, также как и MPEG, производить декодирование и воспроизведение потока одновременно с его получением (stream playback). Кстати, говоря об алгоритме TwinVQ следует сказать также, что трудоемкость этого алгоритма намного выше трудоемкости, например, алгоритма MPEG-1 Layer III, так что программы-компрессоры, основанные на алгоритме TwinVQ работают в 5-10 раз медленнее, чем Layer III-компрессоры. Следует сказать также, что наработки TwinVQ используются в стандарте MPEG-4. По различным оценкам, TwinVQ в нижнем диапазоне частот превосходит по качеству MPEG-1 Layer III, уступая ему на верхних частотах. TwinVQ поддерживает кодирование с переменным битрейтом (VBR), а также имеет поддержку т.н. несимметричного битрейта, когда разные каналы кодируются с отличными битрейтами.
Алгоритм (кодек) Windows Media Audio (WMA) от Microsoft (есть еще WMV - Windows Media Video - его мы здесь не обсуждаем). Алгоритм WMA, также как и все рассмотренные ранее, позволяет потоковое воспроизведение (stream playback). Качество WMA (если говорить о WMA 7.0 и 8.0) при скорости потока 64 Кбит/c практически не уступает качеству MPEG-1 Layer III 96-128 Кбит/с, а при 96 Кбит/с может превосходить MPEG-2 AAC 128 Кбит/с ("может"- не значит "всегда", то бишь, речь идет о субъективно воспринимаемом качестве звучания). Для хранения потока в формате WMA используется универсальный потоковый файловый формат .ASF (Advanced Audio Streaming), пришедший на замену .WAV. Вообще говоря, .ASF - это универсальный формат для хранения аудио и видео информации, сжатой с помощью самых разнообразных кодеков. .ASF имеет также и свою несколько сокращенную разновидность .WMA. Файлы .WMA предназначены исключительно для хранения аудио данных. Говоря о WMA как о кодеке, следует сказать, что в последнее время он становится все более популярным, так как Microsoft встроила его в Windows'2000 и Windows'2001, превратив его таким образом в стандарт. Следует отметить также, что сохранить поток WMA в .WAV-структуру невозможно (возможно, по чисто политическим причинам). На сегодняшний день существует несколько версий WMA: v1, v2, v7 и v8. V7 отличается от младших собратьев поддержкой битрейтов до 192 Kbps (в отличие от 164 Kbps в V1 и V2), несколько худшим качеством кодирования и иной структурой данных. Версия 8 отличается от всех предыдущих явно переработанной психоакустической моделью кодека, за счет чего качество кодирования сильно возросло. Так, при 64 Kbps WMA v8.0 на не сильно требовательных к качеству композициях (поп-музыка, например) почти не отличим от MP3 при 128 Kbps, хотя, опять же, все зависит от конкретной композиции и аппаратуры, на которой осуществляется прослушивание. Изначально, обсуждаемый кодек разрабатывался фирмой Voxware и имел название Voxware Audio Codec. Впоследствии компания забросила его доработку остановившись на v4.0, но кодек не остался гнить и был полностью куплен фирмой Microsoft. Программисты сильно доработали этот кодек, а фирма Microsoft переименовала кодек в Windows Media Audio, не забыв позаботиться о том, чтобы он был бесплатным.
Алгоритм PAC (Perspective Audio Coding) от Bell Labs & Lucent Technologies. По различным данным обеспечивает аналогичное (или выше) MPEG-1 Layer III 128 Кбит/с качество звучания при 64 Кбит/с. Поддерживаются также 96 и 128 Кбит/с. Алгоритм позволяет потоковое воспроизведение (stream playback). Имеет встроенный механизм защиты. Обладает высокой скоростью компрессии.
Еще один кодек: Ogg Vorbis, вышел в свет в июне 2000. Этот формат является частью проекта Ogg Squish по созданию полностью открытой системы мультимедиа. Иными словами, и сам проект, и Ogg Vorbis в частности являются открытыми и свободными для распространения, а также разработки на его основе нового программного обеспечения. В FAQ от разработчика (группа Xiphophorus) написано, что Ogg Vorbis является алгоритмом, принципиально схожим с известными MPEG-1 Layer II, MPEG-2 AAC, VQF и проч., однако использует оригинальный математический алгоритм и собственную психоакустическую модель, что освобождает его от необходимости выплачивать какие-то лицензионные сборы и производить иные выплаты сторонним фирмам-изготовителям аудио форматов. Алгоритм Ogg Vorbis рассчитан на сжатие данных на всех возможных битрейтах без ограничений, то есть от 8 Kbps до 512 Kbps, а также на кодирование с переменным битрейтом (VBR). Алгоритм предусматривает хранение внутри файлов подробных комментариев об исполнителе и названии композиции, а также графической информации. В алгоритме предусматривается также возможность кодирования нескольких каналов аудио (более двух, теоретически до 255), возможность редактирования содержимого файлов, а также так называемый "масштабируемый битрейт" возможность изменения битрейта потока без необходимости декодирования. Поддерживается потоковое воспроизведение (streaming). Для хранения данных используется собственный универсальный формат bitstream Ogg Squish, рассчитанный на хранение любой информации мультимедиа системы Ogg Squish (идея реализация универсального формата bitstream Ogg Squish аналогична идее ASF от Microsoft).
Кодек MP3 Pro анонсирован в июле 2001 года компанией Coding Technologies вместе с Tomson Mulimedia и институтом Fraunhofer. Формат MP3Pro является продолжением, или, точнее, развитием старого MP3. MP3Pro является совместимым с MP3 назад (полностью) и вперед (частично). То есть файлы, закодированные с помощью MP3Pro, можно воспроизводить в обычных проигрывателях, однако качество звучания при этом заметно хуже, чем при воспроизведении в специальном проигрывателе. Это связано с тем, что файлы MP3Pro имеют два потока аудио, в то время как обычные проигрыватели распознают в них только один поток, то есть обычный MPEG-1 Layer 3. В MP3Pro использована новая технология - SBR (Spectral Band Replication). Эта технология предназначена для передачи верхнего частотного диапазона. Идея технологии и предпосылки таковы. Дело в том, что технологии использования психоакустических моделей имеют один общий недостаток: все они работают качественно до битрейта 128 Kbps. На более низких битрейтах начинаются различные проблемы: либо для передачи аудио необходимо обрезать частотный диапазон, либо кодирование приводит к появлению различных артефактов. Этот ключевой момент показывает, что использования психоакустической модели мало при работе с битрейтами ниже 128 Kbps. Новая технология SBR дополняет использование психоакустических моделей. Идея следующая: передается (кодируется) чуть более узкий диапазон частот чем обычно (то есть с обрезанными "верхами"), а верхние частоты воссоздаются (восстанавливаются) уже самим декодером на основе информации о более низких частотных составляющих. Таким образом, технология SBR применяется фактически не столько на стадии сжатия, сколько на стадии декодирования. Загадочный второй "параллельный" поток данных, о котором говорилось выше, как раз и есть та минимальная необходимая информация, которая используется при воспроизведении для восстановления верхних частот. Мне пока достоверно не известно, какую точно информацию несет этот поток, однако проведенные исследования показывают, что эта информация - есть усредненная мощность сигнала в верхнем (обрезанном) диапазоне частот. Точнее не одна усредненная мощность для всего диапазона вырезанных частот, а информация о средней мощности в нескольких полосах частот верхнего диапазона. Качество звучания MP3Pro можно назвать субъективно очень хорошим даже на битрейте 64 Кбит/с, другими словами, субъективно несложные композиции при таком битрейте воспринимаются не хуже чем MP3 128 Кбит/с. Однако необходимо учитывать тот факт, что такое звучание достигается искусственным путем, и что слышимый сигнал представляет собой уже не столько оригинал, сколько синтезированную копию оригинала, что заставляет задуматься меломанов, обладателей высококачественной аудио аппаратуры, а также просто ценителей качественного оригинального звучания.

3.10 OGGVorbis

OggVorbis - это совершенно новый универсальный формат аудио- компрессии вышедший летом 2000 года. Этот самый молодой формат из всех конкурентов МР3 разработан группой Xiphophorus и является частью из мультимедиа проекта OggSquish.
OggVorbis принадлежит к тому же типу форматов аудиосжатия, что и МР3, AAC, VQF, PAC, QDesign AIFF и WMA, то есть к форматам сдатия с потерями. Психоакустическая модель, используемая в OggVorbis по принципам действия близка к МР3, но и только - математическая обработка и практическая реализация этой модели в корне отличается, что позволяет авторам объявить свой формат совершенно независимым от всех предшественников.
Главное неоспоримое преимущество формата OggVorbis - это его полная открытость и бесплатность. OggVorbis создается в рамках проекта GNU и полностью подчиняется GNU GPL (генеральная публичная лицензия). А это означает, что формат совершенно открыт для коммерческого и некоммерческого использования, его коды можно модифицировать безо всяких ограничений, группа разработчиков оставляет за собой лишь право утверждать новые спецификации формата. Некоторые ограничения конечно все же есть, они определены в GNU GPL. Согласно правилам GNU GPL можно делать любые изменения в коде программы, но при этом получившийся программный продукт так же должен подчиняться уложениям GNU GPL. Правда, Xiphophorus все еще имеет возможность закрыть этот открытый формат и сделать его полностью коммерческим, ведь GNU - это чисто добровольная концепция. Но по заявлениям разработчиков, они этого делать не собираются. Выгоды от доступного, свободного от лицензий формата перевешивают выгоды получения денег за лицензии на его использование - именно так считают создатели OggVorbis и в качестве примера указывают на МР3. Разве достигла бы такого размаха индустрия МР3, если бы сам формат не стал бы бесплатен для конечных пользователей? Ну а Xiphophorus собирается пойти еще дальше и сделать формат бесплатным не только для пользователей, но и разработчиков программного обеспечения и железа. Создатели формата не требуют никаких лицензионных плат за любое использование спецификации OggVorbis. Сторонние разработчики вполне свободны создавать и продавать (или отдавать) свои собственные кодеры и декодеры использующие спецификацию OggVorbis. Но если используются программные продукты созданные именно Xiphophorus, например, кодек в виде DLL библиотеки или SDK-комплекты OggVorbis, в составе коммерческих разработок, необходимо будет за них заплатить. Бесплатно только для некоммерческих проектов подчиняющихся GNU GPL, то есть распространяющихся свободно и вместе с исходными кодами. Подобный подход заранее определяет мультиплатформенность OggVorbis.
Помимо бесплатности, OggVorbis, как спецификация, обладает так же еще целым рядом неоспоримых достоинств. Так, вехняя планка частоты выборки составляет не 44 КГц, как у всех форматов, а 48 КГц, что безусловно более близко к живой музыку по сравнению с CD. Кроме того, число каналов не ограничено двумя как обычно - моно и стерео, а достигает 255! Представьте себе акустическую систему из 255 динамиков! Поистине формат сделан с запасом. А ведь наступит когда-нибудь время, когда 48 КГц и 255 каналов станут нормой для компьютерного музыкального центра, а не экзотикой как сейчас.
OggVorbis использует математическую психоакустическую модель отличную от МР3, и это сказывается на звучании. МР3 и OggVorbis трудно сравнивать, но в целом звучание OggVorbis гораздо лучше.
При кодировании кодеки OggVorbis используют VBR (variable bitrate), подобно некоторым МР3 кодекам, что позволяет существенно уменьшить размер композиции, при незначительной потере качества.
Спецификация OggVorbis содержит очень гибкий и развитый механизм включения комментариев и иллюстраций в тело аудиокомпозиции. Заголовок комментария легко расширяется и позволяет включать тексты любой длины и сложности, перемежающиеся изображениями.
OggVorbis, так же как и МР3, изначально разрабатывался как сетевой потоковый формат. Это свойство является очень важным, особенно учитывая мультиплатформенную направленность формата OggVorbis. Интернет-радиостанция использующая низкобитрейтные версии OggVorbis сможет вещать сразу на всех платформах, тогда как такая же радиостанция, использующая для передачи WMA (в виде ASF) будет ограничена только пользователями Windows.
Формат OggVorbis прочился разработчиками (впрочем, как и все форматы рассмотренные ранее) в преемники МР3. И для этого есть все основания. OggVorbis содержит не только все те компоненты, которые обеспечили популярность МР3 в более превосходной форме: отличное качество, малый размер, бесплатность для конечного пользователя, потоковость, но и ряд преимуществ, которых у МР3 нет: бесплатность для разработчиков, отсутствие лицензионных платежей, более высокая частота выборки и значительно большее число поддерживаемых каналов.
Именно благодаря открытости формата об OggVorbis удалось узнать то, что не удавалось для всех других форматов (разве что, кроме Мр3) - как он работает. Все остальные конкуренты МР3 тщательно скрывают внутренние алгоритмы компрессии, и лишь OggVorbis выставляет их напоказ.
На первом этапе кодирования, композиция временно разбивается на блоки таким образом, чтобы их было целое число. Размер блоков варьируется. Далее в ход вступают алгоритмы анализа. Кодер анализирует содержимое аудиокомпозиции с целью добиться ее максимально компактного представления. При анализе происходит сепарация блоков входящего аудиопотока на индивидуальные и повторяющиеся. Это разделение необходимо при кодировании с использованием VBR - переменного bitrate. Соответственно индивидуальные и повторяющиеся блоки будут кодироваться с разными bitrate.
Далее идет анализ содержимого блоков на предмет выявления нужных и ненужных частот и тонов, то есть вступает в ход психоакустическая модель. OggVorbis, как и МР3, это формат с потерями. Качество формата во многом зависит от того, насколько серьезны эти потери, и насколько удачно их можно замаскировать. Психоакустическая модель OggVorbis практически не режет высокие частоты, вернее, режет, но верхняя планка поднята достаточно высоко, чтобы удовлетворить даже самый изысканный слух. Итак, верхние частоты не трогают, но уменьшать композицию надо. За счет чего?
В OggVorbis главный акцент сделан на анализе маскирующего влияния сигналов звучащих одновременно. Эта часть сделана гораздо более изощренно и эффективно чем у МР3. В ходе анализа находятся сильные сигналы и сигналы, которые маскируются этими сигналами, то есть находятся в своеобразной звуковой "тени". Затем рассчитывается среднее время оглушение для каждого из маскируемых сигналов. Все сигналы, лежащие в области звуковой "тени" и попадающие в расчетное время оглушения помечаются на удаление. Конечно, всегда найдутся люди не вписывающиеся в среднестатистическое большинство. У них эффект оглушения может проходить быстрее, чем за рассчитанное кодеком время и может ощущаться отсутствие определенных частот и сигналов.
На следующей стадии происходит удаление информации, которую алгоритмы анализа признали излишней. Оставшуюся информацию сжимают алгоритмами Хафмана и подвергают векторному квантованию в соответствии с установленным bitrate.
При декодировании или синтезе звука, происходит обратный процесс. В целом декодирование проще, так как отсутствует стадия анализа, но оно осложнено технологиями, назначение которых состоит в том, чтобы улучшить качество звучания. В процессе воспроизведения качество звука повышается путем использования интерполяции билинейной или бикубической, в зависимости от реализации декодера. Интерполяция позволяет смягчить потери при использовании низких bitrate. Качество композиции повышается, но при этом теряется четкость, особенно слоговая разборчивость человеческого голоса. Подобный поход оправдывает себя на мелодиях без голоса, но для песен, арий, опер он малопригоден. На высоком bitrate интерполяция минимальна, заглаживаются лишь те "дыры", которые образовались на месте звуков оказавшихся в "тени" сильных тонов. Кроме интерполяции используются разнообразные шумовые фильтры, позволяющие смягчить или совсем убрать шумы квантования, которые появляются при потере информации в результате процедура векторного квантования. Чем ниже bitrate, тем выше шум квантования.
Но вернемся к кодированию аудиофайла. После стадий анализа, удаления избыточной информации и собственно кодирования происходит преобразование уже конечной информации в потоковый формат bitstream OggSqish. Подобно тому, как ASF является форматом пересылки данных для всего семейства Windows Media, так и bitstream OggSquish является единым форматом пересылки потока данных для всего мультимедиа семейства OggSquish.
Полученная информация разбивается на фреймы, структурируется. Каждый фрейм имеет упорядоченную структуру и заголовок содержащий номер фрейма, его контрольную сумму и прочую инженерную информацию. Контрольная сумма нужна для коррекции ошибок. В том случае если фрейм запорчен, декодер его проигрывать не будет, происходит проскок и воспроизведение начинается со следующего целого фрейма.
После формирования заголовка композиции и первого фрейма, далее процесс идет по циклу, эта стадия называется "конкатенация" или формирование цепочки. Начало и конец каждого фрейма отмечается специальными сигналами - маркерами. И так до образования последнего фрейма и концовки содержащей код окончания файла.

3.11 WMA

Кодек Windows Media Audio (сокращенно WMA) является сегодня собственной разработкой компании Microsoft и успешно продвигается. Изначально, кодек WMA разрабатывался фирмой Voxware и имел название Voxware Audio Codec, однако впоследствии компания забросила его доработку, остановившись на версии 4.0. Все же, кодек не остался гнить, и был полностью куплен фирмой Microsoft. Программисты серьезно доработали этот кодек, а фирма Microsoft переименовала кодек в Windows Media Audio, не забыв позаботиться о том, чтобы он был бесплатным.
Если кодек MP3 был изначально стандартизован на предмет разрешенных значений битрейтов и других основных параметров, то WMA изменялся параллельно своему развитию. На сегодняшний день существует несколько версий кодека WMA: v1, v2, v7, v8 и v9. Версия 7 отличается от младших собратьев поддержкой битрейтов до 192 Кбит/с (в отличие от цифры 164 Кбит/с для v1 и v2), несколько худшим качеством кодирования и иной структурой данных. v8 отличается от всех предыдущих явно переработанной психоакустической моделью кодека, за счет чего качество кодирования сильно возросло. Так, при 96 Кбит/с WMA v8.0 на не сильно требовательных к качеству композициях (поп-музыка, например) почти не отличим от MP3 при 128 Кбит/с, хотя, опять же, все зависит от конкретной композиции и аппаратуры, на которой осуществляется прослушивание. Девятая версия WMA является логическим продолжением восьмой версии. Разработчики говорят о повышении качества кодирования в среднем на 20 процентов по сравнению с WMA v8. В версии 9 применена новая технология Fast Streaming, призванная сильно сократить время буферизации WMA -потока, передаваемого через Интернет конечному пользователю. Помимо этого, WMA 9 является, фактически, пакетом кодеков и включает кроме привычного lossy-кодера, также и lossless кодер (кодер без потерь), а также специальный речевой кодер.
Судя по проведенным тестам, а также по параметрам кодеров WMA , механизм работы кодека в целом очень похож на механизм MP 3 – то же покадровое сжатие с применением предположительно тех же приемов обработки входного сигнала.
Все вышеописанные форматы относятся к категории сжатия с потерями. На сегодняшний день, в связи с увеличением пропускных способностей компьютерных сетей, наличием у многих пользователей жестких дисков большой емкости, а также доступностью цен на акустическое оборудование популярность стали получать lossless-форматы, позволяющие кодировать без потерь качества звучания.

3.12 FLAC

FLAC (Free Lossless Audio Codec - свободный аудио-кодек без потерь) – это популярный свободный кодек для сжатия аудио. В отличие от кодеков с потерями Ogg Vorbis, MP3, FLAC не удаляет никакой информации из аудиопотока и подходит как для прослушивания музыки на высококачественной звуковоспроизводящей аппаратуре, так и для архивирования аудиоколлекции. На сегодня формат FLAC поддерживается многими аудиоприложениями.
Метаданные.
FLAC определяет несколько типов блоков метаданных. Блоки метаданных могут быть любого размера, новые блоки могут быть легко добавлены. Декодер имеет возможность пропускать неизвестные ему блоки метаданных. Обязателен только блок “streaminfo”. В нем содержится частота дискретизации, количество каналов и т. п., а также данные, позволяющие декодеру настроить буферы. Сюда также записывается подпись MD5 несжатых аудиоданных. Это полезно для проверки всего потока после его передачи.
Другие блоки предназначены для резервирования места, хранения таблиц точек поиска, тегов, список разметки аудиодисков, а также данных для конкретных приложений. Опции для добавления блоков “padding” или точек поиска приведены ниже. FLAC не нуждается в точках поиска, однако они позволяют значительно увеличить скорость доступа, а также могут быть использованы для расстановки меток в аудио редакторах.
Аудиоданные
За метаданными следуют сжатые аудиоданные. Метаданные и аудиоданные не чередуются. Как и большинство кодеков, FLAC делит входной поток на блоки и кодирует их независимо друг от друга. Блок упаковывается во фрейм и добавляется к потоку. Базовый кодер использует блоки постоянного размера для всего потока, однако формат предусматривает наличие блоков разной длины в потоке.
Разбиение на блоки
Размер блока очень важный параметр для кодирования. Если он очень мал, то в потоке будет слишком много заголовков фреймов, что уменьшит уровень сжатия. Если размер большой, то кодер не сможет подобрать эффективную модель сжатия. Понимание процесса моделирования поможет Вам увеличить уровень сжатия для некоторых типов входных данных. Обычно при использовании линейного прогнозирования на аудиоданных с частотой дискретизации 44.1 кГц оптимальный размер блока лежит в диапазоне 2-6 тысяч сэмплов.
Моделирование
На следующем этапе кодер пытается аппроксимировать сигнал такой функцией, чтобы полученный после её вычитания из оригинала результат (называемый разностью, остатком, ошибкой) можно было закодировать минимальным количеством битов. Параметры функций тоже должны записываться, поэтому они не должны занимать много места. FLAC использует два метода формирования аппроксимаций:
- подгонка простого полинома к сигналу
- общее кодирование с линейными предикторами (LPC).
Во-первых, постоянное полиномиальное предсказание (-l 0) работает значительно быстрее, но менее точно, чем LPC. Чем выше порядок LPC, тем медленнее, но лучше будет модель. Однако с увеличением порядка выигрыш будет все менее значительным. В некоторой точке (обычно около 9) процедура кодера, определяющая наилучший порядок, начинает ошибаться и размер получаемых фреймов возрастает. Чтобы преодолеть это, можно использовать полный перебор, что приведёт к значительному увеличению времени кодирования.
Во-вторых, параметры для постоянных предикторов могут быть описаны тремя битами, а параметры для модели LPC зависят от количества бит на сэмпл и порядка LPC. Это значит, что размер заголовка фрейма зависит от выбранного метода и порядка и может повлиять на оптимальный размер блока.
Остаточное кодирование
Когда модель подобрана, кодер вычитает приближение из оригинала, чтобы получить остаточный (ошибочный) сигнал, который затем кодируется без потерь. Для этого используется то обстоятельство, что разностный сигнал обычно имеет распределение Лапласа и есть набор специальных кодов Хаффмана, называемый кодами Райса, позволяющий эффективно и быстро кодировать эти сигналы без использования словаря.
Кодирование Райса состоит из нахождения одного параметра, отвечающего распределению сигнала, а затем использования его для составления кодов. При изменении распределения меняется и оптимальный параметр, поэтому имеется метод позволяющий пересчитывать его по необходимости. Остаток может быть разбит на контексты или разделы, у каждого из которых будет свой параметр Райса. FLAC позволяет указать, как нужно производить разбиение. Остаток может быть разбит на 2n раздела.
Составление фреймов
Аудиофрейму предшествует заголовок, который начинается с кода синхронизации и содержит минимум информации, необходимой декодеру для воспроизведения потока. Сюда также записывается номер блока или сэмпла и восьмибитная контрольная сумма самого заголовка. Код синхронизации, CRC заголовка фрейма и номер блока/сэмпла позволяют осуществлять пересинхронизацию и поиск даже в отсутствие точек поиска. В конце фрейма записывается его шестнадцатибитная контрольная сумма. Если базовый декодер обнаружит ошибку, будет сгенерирован блок тишины.

3.13 AAC

AAC (англ. Advanced Audio Coding) Патентованный формат аудиофайла с меньшей потерей качества при кодировании, чем MP3 при одинаковых размерах. Формат также позволяет сжимать без потери качества исходника (профиль ALAC AAC).
AAC это широкополосный алгоритм кодирования аудио, который использует два основных принципа кодирования для сильного уменьшения количества данных, требуемых для передачи высококачественного цифрового аудио. Данный формат является одним из наиболее качественных, использующих сжатие с потерями, поддерживаемый большинством современного оборудования, в том числе портативного. Изначально создавался как преемник MP3 с улучшенным качеством кодирования. Формат AAC, официально известный как ISO/IEC 13818-7, вышел в свет в 1997 как новая, седьмая, часть семьи MPEG-2. Существует также формат AAC, известный как MPEG-4 Часть 3.
Принцип работы AAC.
1) Удаляются невоспринимаемые составляющие сигнала.
2) Удаляется избыточность в кодированном аудио сигнале.
3) Cигнал обрабатывается по методу MDCT согласно его сложности.
4) Добавляются коды коррекции внутренних ошибок.
5) Сигнал сохраняется или передаётся.
Аудио стандарт MPEG-4 не требует единственного или малого набора высокоэффективных схем компрессии, а скорее сложный набор для выполнения широкого круга операций от кодирования низкокачественной речи до высококачественного аудио и синтезирования музыки.
- Семейство алгоритмов аудио кодирования MPEG-4 охватывает диапазон от кодирования низкокачественной речи (до 2 кбит/с) до высококачественного аудио (от 64 кбит/с на канал и выше).
- AAC имеет частоту сэмплов от 8 Гц до 96 кГц и количество каналов от 1 до 48.
- В отличие от гибридного набора фильтров MP3, AAC использует Модифицированное Дискретное Косинусное Преобразование (MDCT) вместе с увеличенным размером «окна» в 2048 пунктов. AAC более подходит для кодирования аудио с потоком сложных импульсов и прямоугольных сигналов, чем MP3.
AAC может динамически переключаться между длинами блоков MDCT от 2048 пунктов до 256:
- Если происходит единственная или кратковременная смена, используется малое «окно» в 256 пунктов для лучшего разрешения.
- По умолчанию используется большое 2048-пунктовое «окно» для улучшения эффективности кодирования.
Разновидности формата.
На данный момент различают четыре разновидности формата ААС:
- HomeboyAAC
- AT&T a2bAAC
- Liquifier Pro AAC
- Astrid/Quartex AAC

HomeboyAAC
Это первая версия ААС, кодер для которой стал общедоступен. Работает очень медленно в сочетании с отчетливо слышимыми искажениями. Это сыграло свою роль в отталкивании широких масс от этого формата. Единственными его плюсами является достижение качества MP3 128 Кбит/с на более низких битрейтах и наличие приятного и быстрого плейера BitAAC. Сейчас этот формат уже практически не используется.

AT&T a2bAAC
Известная компания AT&T не могла остаться в стороне от технологий новых систем сжатия аудиоданных. При фирме было создано специальное подразделение, занимающееся созданием программ и раскруткой нового формата, который получил название a2b. Строго говоря, этот формат практически полностью следует тем же самым принципам компрессии, что и предыдущий. Однако фирмой были предприняты значительные усилия по повышению качества звучания (в результате чего снизилась степень сжатия) и внесению новых элементов в формат. Составной частью формата a2b стала возможность включения изображения исполнителя и текста песни внутрь аудиофайла. Также была разработана технология получения самовоспроизводящихся песен (исходную композицию можно преобразовать в .ехе-файл, включающий в себя все необходимые для воспроизведения, что увеличивало файл всего примерно на 170 Кб). Для файлов этого формата существует удобный и бесплатный плейер с поддержкой многих дополнительных возможностей. Однако, несмотря на мощнейшую рекламную компанию и на очевидные достоинства формата, он не нашел широкого применения по одной простой причине отсутствию общедоступного кодера. Кроме того, эта фирма пыталась запатентовать и запретить к использованию все составные части формата. Юридически это не получилось осуществить и патент был получен только на собственные нововведения.
Формат по степени сжатия превосходит MP3, но на 1520% уступает VQF, РАС, Astrid/Quartex ААС и Liquifier Pro AAC. Качество звучания a2b 96 Кбит/с сравнимо с качеством MP3 128 Кбит/с и VQF 96 Кбит/с, но уступает Liquifier Pro AAC 96, Astrid/Quartex AAC 96 и РАС 96.

Liquifier Pro AAC
Компания AT&T не могла остаться одинокой на рынке борьбы за первенство в области высококачественной компрессии звука. Через некоторое время фирма Liquid Audio выпустила свою версию кодека. Предложенная ей версия формата ААС наиболее четко следовала всем техническим тонкостям и в результате появилась лучшая на сегодняшний день система сжатия звука. Она по степени сжатия и качеству звучания превосходит все существующие в данный момент форматы. И хотя превосходство по сжатию над VQF и Astrid/Quartex AAC незначительное минимальный битрейт, заслуживающий внимания, все те же 96 Кбит/с, звук превосходит все ожидания.
К сожалению, политика компании Liquid Audio на данный момент слабо отличается от политики AT&T есть отличный плейер, но нет общедоступного кодера.
В октябре 1998 г. в "спор гигантов" вступило частное лицо. Никому не известный и скромный программист создал, на основе изданных фирмой NTT в мае исходников МР4, свою собственную систему компрессии.
Уже через несколько дней после выхода новой версии популярного плейера K-Jofol, для которого автор формата Astrid/Quartex AAC написал декодирующий модуль, появились восторженные отклики. Кодер, обладающий непритязательным интерфейсом командной строки, по сжатию и качеству звучания превосходил кодировщики от AT&T ААС и YAMAHA VQF. При этом качество звука практически не уступало хваленому Liquifier Pro AAC. Почти одновременно появились графические интерфейсы (front-end) для нового кодировщика и масса хвалебных отзывов в разных источниках. При всех видимых недостатках сегодняшней версии 0.2 (поддержка только WAV 44 кГц/16 бит РСМ и степени сжатия только 64, 96 и 128 Кбит/с), она уже широко применяется.
По степени сжатия и качеству звучания формат превосходит все остальные, кроме Liquifier Pro AAC, и является объективно лучшим среди тех, что имеют общедоступные кодеры и доступные для распространения в Интернете звуковые файлы. По сравнению с MP3 обеспечивается аналогичное качество при потоке на 30% меньше. Качество Astrid AAC 96 Кбит/с много лучше качества VQF/96 Кбит/с. Возможно также потоковое воспроизведение.
Расширения файлов
.m4a незащищённый файл AAC
.m4b файл AAC, поддерживающий закладки. Используется для аудиокниг и подкастов.
.m4p защищённый файл AAC. Используется для защиты файла от копирования при легальной загрузке собственнической музыки в онлайн-магазинах.


Вопросы:
Как описать звуковой сигнал?
Как преобразуется звуковой сигнал в электрический?
Что такое звуковая система?
Назначение звуковой системы.
Входные – выходные датчики звуковой системы.
Амплитудно-частотная характеристика (АЧХ). Способы описания АЧХ.
Диапазон частот голоса и музыкальных инструментов.
Единицы измерения параметров звуковых сигналов.
Уровень звука (децибелы).
Уровень громкости.
Динамический диапазон звукового сигнала.
Выбор частоты дискретизации звукового сигнала.
На что влияет разрядность представления отсчетов звука?
Что такое дизеринг, Нойс шейпинг, джитер?
Что такое импульсно-кодовая модуляция?
Что такое А и µ законы сжатия речевого сигнала?
Методы эффективного кодирования речевых сигналов.
Особенности кодеков для сотовых систем.
Особенности кодеков для IP телефонии.
Оценка качества кодирования речевого сигнала.
Основные понятия цифровой звукозаписи.
Применение импульно-кодовой модуляции для записи звука.
Сжатие звуковой информации.
Психофизиологические свойства слуха и их использование при сжатии информации.
История системы сжатия МР-3.
Особенности VDR и CBR.
Оценка сложности сигнала.
Кодирование стереосигнала.
Альтернативные системы сжатия звукового сигнала OGG, WMA, FLAG.
Принципы работы системы сжатия звукового сигнала ААС.








4 ВИДЕОСИГНАЛЫ

4.1 Общие положения алгоритмов сжатия изображений

В течение последних 10 лет в рамках компьютерной графики бурно развивается совершенно новая область алгоритмы архивации изображений. Появление этой области обусловлено тем, что изображения это своеобразный тип данных, характеризуемый тремя особенностями:
Изображения (как и видео) занимают намного больше места в памяти, чем текст. Так, скромная, не очень качественная иллюстрация на обложке книги размером 500x800 точек, занимает 1.2 Мб столько же, сколько художественная книга из 400 страниц (60 знаков в строке, 42 строки на странице). В качестве примера можно рассмотреть также, сколько тысяч страниц текста мы сможем поместить на CD-ROM, и как мало там поместится качественных несжатых фотографий. Эта особенность изображений определяет актуальность алгоритмов архивации графики.
Второй особенностью изображений является то, что человеческое зрение при анализе изображения оперирует контурами, общим переходом цветов и сравнительно нечувствительно к малым изменениям в изображении. Таким образом, мы можем создать эффективные алгоритмы архивации изображений, в которых декомпрессированное изображение не будет совпадать с оригиналом, однако человек этого не заметит. Данная особенность человеческого зрения позволила создать специальные алгоритмы сжатия, ориентированные только на [ Cкачайте файл, чтобы посмотреть ссылку ]. Эти алгоритмы обладают очень высокими характеристиками.
Мы можем легко заметить, что изображение, в отличие, например, от текста, обладает избыточностью в 2-х измерениях. Т.е. как правило, соседние точки, как по горизонтали, так и по вертикали, в изображении близки по цвету. Кроме того, мы можем использовать подобие между цветовыми плоскостями R, G и B в наших алгоритмах, что дает возможность создать еще более эффективные алгоритмы. Таким образом, при создании алгоритма компрессии графики мы используем особенности структуры изображения.
Всего на данный момент известно минимум три семейства алгоритмов, которые разработаны исключительно для сжатия изображений, и применяемые в них методы практически невозможно применить к архивации еще каких-либо видов данных.
Для того, чтобы говорить об алгоритмах сжатия изображений, мы должны определиться с несколькими важными вопросами:
Какие критерии мы можем предложить для сравнения различных алгоритмов?
Какие классы изображений существуют?
Какие классы приложений, использующие алгоритмы компрессии графики, существуют, и какие требования они предъявляют к алгоритмам?
Рассмотрим эти вопросы подробнее.


4.2 Алгоритмы сжатия

Все графические данные в компьютере можно разделить на на две большие ветви: растровую и векторную. Векторы представляют из себя математическое описание объектов относительно точки начала координат. Проще говоря, чтобы компьютер нарисовал прямую нужны координаты двух точек, которые связываются по кратчайшей, для дуги задается радиус и т.д. Таким образом, векторная иллюстрация это набор геометрических примитивов. Большинство векторных форматов могут так же содержать внедрённые в файл растровые объекты или ссылку на растровый файл (технология [ Cкачайте файл, чтобы посмотреть ссылку ]). Сложность при передаче данных из одного векторного формата в другой заключается в использовании программами различных алгоритмов, разной математики при построении векторных и описании растровых объектов.
Растровый файл устроен проще (для понимания, по крайней мере). Он представляет из себя прямоугольную матрицу (bitmap), разделенную на маленькие квадратики - пикселы (pixel - picture element). Растровые файлы можно разделить на два типа: предназначенные для вывода на экран и для печати.
Растровые файлы, предназначенные для допечатной подготовки изданий имеют, подобно большинству векторных форматов, параметр Print Size - печатный размер. С ним связано понятие печатного разрешения, которое представляет из себя соотношение количества пикселов на один квадратный дюйм страницы (ppi, pixels per inch или dpi - dots per inch, - термин не совсем верный, но часто употребимый). Печатное разрешение может быть от 130 dpi (для газеты) до 300 (высококачественная печать), больше почти никогда не нужно.
Растровые форматы, так же отличаются друг от друга способностью нести дополнительную информацию: различные цветовые модели, вектора, Альфа-каналы или каналы плашковых (spot)-цветов, слои различных типов, интерлиньяж (черезстрочная подгрузка), анимация, возможности сжатия и другое.

GIF (CompuServe Graphics Interchange Format)
Независящий от аппаратного обеспечения формат GIF был разработан в 1987 году (GIF87a) фирмой CompuServe для передачи растровых изображений по сетям. В 1989-м формат был модифицирован (GIF89a), были добавлены поддержка прозрачности и анимации. GIF использует LZW-компрессию, что позволяет неплохо сжимать файлы, в которых много однородных заливок (логотипы, надписи, схемы).
GIF позволяет записывать изображение "через строчку" (Interlaced), благодаря чему, имея только часть файла, можно увидеть изображение целиком, но с меньшим разрешением. Это достигается за счет записи, а затем подгрузки, сначала 1, 5, 10 и т.д. строчек пикселов и растягивания данных между ними, вторым проходом следуют 2, 6, 11 строчки, разрешение изображения в интернетовском браузере увеличивается. Таким образом, задолго до окончания загрузки файла пользователь может понять, что внутри и решить, стоит ли ждать, когда файл поднимется весь. Черезстрочная запись незначительно увеличивает размер файла, но это, как правило, оправдывается приобретаемым свойством.
В GIF’e можно назначить один или более цветов прозрачными, они станут невидимыми в интернетовских браузерах и некоторых других программах. Прозрачность обеспечивается за счет дополнительного Alpha-канала, сохраняемого вместе с файлом. Кроме того файл GIF может содержать не одну, а несколько растровых картинок, которые браузеры могут подгружать одну за другой с указанной в файле частотой. Так достигается иллюзия движения (GIF-анимация).
Основное ограничение формата GIF состоит в том, что цветное изображение может быть записано только в режиме 256 цветов. Для полиграфии этого явно недостаточно.

Метод сжатия LZW (Lempel-Ziv-Welch) разработан в 1978 году израильтянами Лемпелом и Зивом и доработан позднее в США. Сжимает данные путем поиска одинаковых последовательностей (они называются фразы) во всем файле. Выявленные последовательности сохраняются в таблице, им присваиваются более короткие маркеры (ключи). Так, если в изображении имеются наборы из розового, оранжевого и зеленого пикселов, повторяющиеся 50 раз, LZW выявляет это, присваивает данному набору отдельное число (например, 7) и затем сохраняет эти данные 50 раз в виде числа 7. Метод LZW, так же, как и [ Cкачайте файл, чтобы посмотреть ссылку ], лучше действует на участках однородных, свободных от шума цветов, он действует гораздо лучше, чем RLE, при сжатии произвольных графических данных, но процесс кодирования и распаковки происходит медленнее.

JPEG (Joint Photographic Experts Group)
Строго говоря JPEG’ом называется не формат, а алгоритм сжатия, основанный не на поиске одинаковых элементов, как в [ Cкачайте файл, чтобы посмотреть ссылку ] и [ Cкачайте файл, чтобы посмотреть ссылку ], а на разнице между пикселами. Кодирование данных происходит в несколько этапов. Сначала графические данные конвертируются в цветовое пространство типа [ Cкачайте файл, чтобы посмотреть ссылку ], затем отбрасывается половина или три четверти информации о цвете (в зависимости от реализации алгоритма). Далее анализируются блоки 8х8 пикселов. Для каждого блока формируется набор чисел. Первые несколько чисел представляют цвет блока в целом, в то время, как последующие числа отражают тонкие делали. Спектр деталей базируется на зрительном восприятии человека, поэтому крупные детали более заметны.
На следующем этапе, в зависимости от выбранного вами уровня качества, отбрасывается определенная часть чисел, представляющих тонкие детали. На последнем этапе используется кодирование [ Cкачайте файл, чтобы посмотреть ссылку ] для более эффективного сжатия конечных данных. Восстановление данных происходит в обратном порядке.
Таким образом, чем выше уровень компрессии, тем больше данных отбрасывается, тем ниже качество. Используя JPEG можно получить файл в 1-500 раз меньше, чем ВМР! Формат аппаратно независим, полностью поддерживается на РС и Macintosh, однако он относительно нов и не понимается старыми программами (до 1995 года). JPEG не поддерживает [ Cкачайте файл, чтобы посмотреть ссылку ] цветов. Первоначально в спецификациях формата не было и CMYK, Adobe добавила поддержку цветоделения, однако CMYK JPEG во многих программах делает проблемы. Лучшим решением является использование JPEG-сжатия в Photoshop EPS-файлах, которое [ Cкачайте файл, чтобы посмотреть ссылку ].
Существуют подформаты JPEG. Baseline Optimized - файлы несколько лучше сжимаются, но не читаются некоторыми программами. JPEG Baseline Optimized разработан специально для Интернета, все основные браузеры его поддерживают. Progressive JPEG так же разработан специально для Сети, его файлы меньше стандартных, но чуть больше Baseline Optimized. Главная особенность Progressive JPEG в поддержке аналога [ Cкачайте файл, чтобы посмотреть ссылку ].
Из сказанного можно сделать следующие выводы. JPEG’ом лучше сжимаются растровые картинки фотографического качества, чем логотипы или схемы - в них больше полутоновых переходов, среди однотонных заливок же появляются нежелательные помехи. Лучше сжимаются и с меньшими потерями большие изображения для web или с высокой печатной резолюцией (200-300 и боее dpi), чем с низкой (72-150 dpi), т.к. в каждом квадрате 8х8 пикселов переходы получаются более мягкие, за счет того, что их (квадратов) в таких файлах больше. Нежелательно сохранять с JPEG-сжатием любые изображения, где важны все нюансы цветопередачи (репродукции), так как во время сжатия происходит отбрасывание цветовой информации. В JPEG’е следует сохранять только конечный вариант работы, потому что каждое пересохранение приводит ко все новым потерям (отбрасыванию) данных и превращении исходного изображения с кашу.
Цветовое пространство LAB представляет цвет в трех каналах: один канал выделен для значений яркости (L - Lightnes) и два других - для цветовой информации (А и В). Цветовые каналы соответствуют шкале, а не какому-нибудь одному цвету. Канал А представляет непрерывный спектр от зеленого к красному, в то время как канал В - от синего к желтому. Средние значения для А и В соответствуют реальным оттенкам серого.
Существует похожая цветовая модель YCC, используемая в форматах Kodak Photo CD и FlashPix, здесь не описываемых.
Метод сжатия Хаффмана (Huffman) разработан в 1952 году и используется как составная часть в ряде других схем сжатия, таких как [ Cкачайте файл, чтобы посмотреть ссылку ], Дефляция, [ Cкачайте файл, чтобы посмотреть ссылку ]. В методе Хаффмана берется набор символов, который анализируется, чтобы определить частоту каждого символа. Затем для наиболее часто встречающихся символов используется представление в виде минимально возможного количества битов. Например, буква "е" чаще всего встречается в английских текстах. Используя кодировку Хаффмана вы можете представить "е" всего лишь двумя битами (1 и 0), вместо восьми битов, необходимых для представления буквы "е" в кодировке ASCII.
PNG (Portable Network Graphics)
PNG - разработанный относительно недавно формат для Сети, призванный заменить собой устаревший [ Cкачайте файл, чтобы посмотреть ссылку ]. Использует сжатие без потерь Deflate, сходное с [ Cкачайте файл, чтобы посмотреть ссылку ] (именно из-за патентования в 1995-м году алгоритма LZW возник PNG). Сжатые индексированные файлы PNG, как правило, меньше аналогичных GIF'ов, RGB PNG меньше соответствующего файла в формате [ Cкачайте файл, чтобы посмотреть ссылку ].
Глубина цвета файлах PNG может быть любой, вплоть до 48 бит. Используется двумерный [ Cкачайте файл, чтобы посмотреть ссылку ] (не только строк, но и столбцов), который, так же, как и в GIF'е, слегка увеличивает размер файла. В отличие от GIF'а, где прозрачность как мед - либо есть, либо нет, PNG поддерживает также полупрозрачные пикселы (то есть в диапазоне прозрачности от 0 до 99%) за счет Альфа-канала с 256 градациями серого.
В файл формата PNG записывается информация о гамма-коррекции. Гамма представляет собой некое число, характеризующее зависимость яркости свечения экрана вашего монитора от напряжения на электродах кинескопа. Это число, считанное из файла, позволяет ввести поправку яркости при отображении. Нужно оно для того, чтобы картинка, созданная на Мас’е, выглядела одинаково и на РС и на [ Cкачайте файл, чтобы посмотреть ссылку ]. Таким образом эта особенность помогает реализации основной идеи WWW - одинакового отображения информации независимо от аппаратуры пользователя.
PNG поддерживается в Microsoft Internet Explorer начиная с версии 4 для Windows и с версии 4.5 на Макинтош. Netscape добавила поддержку PNG для своего браузера в версиях, начиная с 4.0.4 для обеих платформ. Тем не менее до сих пор не реализована поддержка таких важных функций формата, как плавно переходящая прозрачность и гамма-коррекция.
TIFF (Tagged Image File Format)
Аппаратно независимый формат TIFF, на сегодняшний день, является одним из самых распространенных и надежных, его поддерживают практически все программы на РС и Macintosh так или иначе связанные с графикой. TIFF является лучшим выбором при импорте растровой графики в векторные программы и издательские системы. Ему доступен весь диапазон цветовых моделей от монохромной до RGB, CMYK и дополнительных цветов Pantone. TIFF может сохранять обтравочные контуры, Альфа-каналы, другие дополнительные данные.
TIFF имеет две разновидности: для Macintosh и РС. Это связано с тем, что процессоры Motorola читают и записывают числа слева направо, а процессоры Intel - наоборот. Современные программы могут без проблем использовать оба варианта формата.
В формате TIFF может быть использована [ Cкачайте файл, чтобы посмотреть ссылку ]-компрессия. Ряд старых программ (например, QuarkXPress 3.x, Adobe Streamline, многие программы-распознаватели текста) не умеют читать сжатые файлы TIFF, однако, если вы пользуетесь новым программным обеспечением, нет причины не использовать компрессию.
PDF (Portable Document Format)
PDF предложен фирмой Adobe как независимый от платформы формат для создания электронной документации, презентаций, передачи верстки и графики через сети.
PDF-файлы создаются путем конвертации из PostScript-файлов или функцией экспорта ряда программ. Photoshop и Illustrator могут создавать одностраничные файлы PDF. Illustrator 8, как это ни странно для программы Adobe, имеет проблему со встраиванием шрифтов. Photoshop же выпускает PDF отличного качества. Многостраничные PDF могут создавать InDesign, FreeHand 7-9, PDFWriter и Acrobat Distiller некоторые другие программы. PDFWriter работает как виртуальный принтер. Он не основан на PostScript и не может корректно обрабатывать графику, PDFWriter предназначен для быстрого изготовления простых текстовых документов. У него наблюдается та же проблема со встраиванием шрифтов, что и у Illustrator'а. FreeHand, так же, не может внедрять шрифты. Самые надежные и максимально близкие к оригиналу PDF создает из PostScript и EPS-файлов программа Acrobat Distiller, поставляемая в пакете Adobe Acrobat и вместе и PageMaker'ом.
PDF первоначально проектировался как компактный формат электронной документации. Поэтому все данные в нем могут сжиматься, причем к разного типа информации применяются разные, наиболее подходящие для них типы сжатия: [ Cкачайте файл, чтобы посмотреть ссылку ], [ Cкачайте файл, чтобы посмотреть ссылку ], [ Cкачайте файл, чтобы посмотреть ссылку ], ZIP (похожее на [ Cкачайте файл, чтобы посмотреть ссылку ] и известное еще как Deflate). Программа Acrobat Exchange 3 (которая в 4-й версии стала называться просто Acrobat 4.0) позволяет расставлять гиперссылки, заполняемые поля, включать в файл PDF видео и звук, другие действия.
Adobe Photoshop Document
Внутренний формат популярного растрового редактора Photoshop в последнее время стал поддерживаться все большим количеством программ. Он позволяет записывать изображение со многими слоями, их масками, дополнительными Альфа-каналами и каналами простых (spot) цветов (начиная с версии 5), контурами и другой информацией - все, что может сделать Photoshop. В версии 3.0 появляются слои, контуры и [ Cкачайте файл, чтобы посмотреть ссылку ]-компрессия, в 4-й версии алгоритм улучшается, файлы становятся еще меньше. В версии 5 реализован принципиально иной подход к управлению цветом. В программу была внедрена архитектура управления цветом, основанная на профилях для сканеров, мониторов и принтеров Международного консорциума по цвету (International Color Consortium, ICC).
Несмотря на то, что в 5-й версии появились новые эффекты со слоями, текстом, а так же возможность создавть дополнительные каналы для простых цветов, профили, формат Photoshop'a имеет полную совместимость от 5-й до 3-й версии. В Photoshop'e 2.5 не было слоев и контуров, поэтому он выступает, как отдельный подформат.
Однослойный Photoshop Document понимают ряд программ, многослойные могут импортировать Illustrator и InDesidn. Fractal Design Painter и Corel PHOTO-PAINT открывают на редакцию многослойные документы Photoshop, причем лишь PHOTO-PAINT 8 открывает файл Photoshop'а 100-процентно корректно.
Одной из простейших форм сжатия является метод RLE (Run Length Encoding - кодирование с переменной длиной строки). Действие метода RLE заключается в поиске одинаковых пикселов в одной строке. Если в строке, допустим, имеется 3 пиксела белого цвета, 21 - черного, затем 14 - белого, то применение RLE дает возможность не запоминать каждый из них (38 пикселов), а записать как 3 белых, 21 черный и 14 белых в первой строке.
Так же как и [ Cкачайте файл, чтобы посмотреть ссылку ], RLE хорошо работает с искусственными и пастеризованными картинками и плохо с фотографиями. В действительности, если фотография детализирована, RLE может даже увеличить размер файла.
CorelDRAW Document
Формат известен в прошлом низкой устойчивостью, плохой совместимостью файлов, искажением цветовых характеристик внедряемых битовых карт, тем не менее пользоваться CorelDRAW чрезвычайно удобно, он имеет неоспоримое лидерство на платформе РС. Многие программы на РС (FreeHand, Illustrator, PageMaker - среди них) могут импортировать файлы CorelDRAW.
В седьмой версии многие основные проблемы были решены. Ее, 8-ю и 9-ю версии CorelDRAW можно без натяжек назвать профессиональными. В файлах этих версий применяется компрессия для векторов и растра отдельно, могут внедряться шрифты, файлы CorelDRAW имеют огромное рабочее поле 45х45 метров (этот параметр важен для наружней рекламы); начиная с 4-й версии поддерживается многостраничность, начиная с 7-й - технология [ Cкачайте файл, чтобы посмотреть ссылку ].
Сказанное означает, что файлы формата CorelDRAW можно применять для переноса/передачи работ на PC, но нежелательно импортировать в программы верстки. На Макинтош файлы CorelDRAW for Windows открывают версия CorelDRAW для Макинтош и Adobe Illustrator 8.
WMF (Windows Metafile)
Векторный формат WMF использует графический язык Windows и, можно сказать, является ее родным форматом. Служит для передачи векторов через буфер обмена (Clipboard). Понимается практически всеми программами Windows, так или иначе связанными с векторной графикой. Однако, несмотря на кажущуюся простоту и универсальность, пользоваться форматом WMF стоит только в крайних случаях для передачи "голых" векторов. WMF искажает (!) цвет, не может сохранять ряд параметров, которые могут быть присвоены объектам в различных векторных редакторах, не может содержать растровые объекты, не понимается очень многими программами на Macintosh.

BMP (Windows Device Independent Bitmap)
Еще один родной формат Windows. Он поддерживается всеми графическими редакторами, работающими под управлением этой операционной системы. Применяется для хранения растровых изображений, предназначенных для использования в Windows и, по сути, больше ни на что не пригоден. Способен хранить как [ Cкачайте файл, чтобы посмотреть ссылку ] (до 256 цветов), так и [ Cкачайте файл, чтобы посмотреть ссылку ] (16.700.000 оттенков). Возможно применение сжатия по принципу [ Cкачайте файл, чтобы посмотреть ссылку ], но делать это не рекомендуется, так как очень многие программы таких файлов (они могут иметь расширение .rle) не понимают. Существует разновидность формата ВМР для операционной системы OS/2.
Использование BMP не для нужд Windows является распространенной ошибкой новичков. Я описываю здесь этот формат только для того, чтобы подчеркнуть - использовать BMP нельзя ни в web, ни для печати (особенно), ни для простого переноса и хранения информации.
RTF (Microsoft Rich Text Format)
Текстовый формат RTF попал сюда за свои неординарные способности к переносу текстов из одной программы в другую. Он позволяет переносить форматированный текст из программ оптического распознавания символов или текстовых редакторов в графические программы или в любых других направлениях. RTF может оказаться хорошим решением (а, иногда, и единственным выходом) при переброске из программы в программу нелатинского, например, ивритского текста или русского в Windows 95/98 Hebrew Edition.
Секрет совместимости заключается в использовании специальных тегов форматирования RTF и Unicode. Именно Unicode, кстати (использованный как основа формата Microsoft Word 97/98 для Макинтош и PC), позволяет легко переносить русские тексты с PC на Мак и обратно в файлах MS Word 97/98.
На Макинтош RTF менее применим, так как у программ, работающих под управлением Mac OS, не наблюдается таких проблем с совместимостью и переносом текста, как у Windows-приложений.

4.3 Вейвлет-преобразования

В последнее время в направлении обработки сигналов понадобились новые методы для представления, сжатия, хранения всех видов сигналов, взамен старым, которые не давали решения по ряду проблем. На замену классическим методам обработки сигналов на основе преобразований Фурье получили распространение вейвлет-преобразования.
Вейвлеты (wavelets) – это обобщенное название временных функций, имеющих вид волновых пакетов той или иной формы (в том числе фрактальной), локализованных по оси независимой переменной (t или x) и способных к сдвигу по ней и масштабированию (сжатию/растяжению). Вейвлеты создаются с помощью специальных базовых функций – прототипов, задающих их вид и свойства. В сущности, вейвлеты – это новый базис приближения функций и сигналов произвольной формы.
Набор вейвлетов, в их временном или частотном представлении, может приближать сложный сигнал или изображение, причем идеально точно или с некоторой погрешностью. Вейвлеты имеют явные преимущества перед рядами Фурье в представлении локальных особенностей функций.
Благодаря прекрасному представлению локальных особенностей сигналов, принципиально отсутствующих у рядов Фурье, и множеству видов вейвлеты нашли практическое применение для анализа тонких особенностей сложных сигналов и изображений, для их сжатия и очистки от шума. Они уже получили применение в аудио формате MPEG 4, в сжатии видеоинформации по записи изображений – JPEG 2000. Технологию вейвлет-компресии сигналов используют в новых графических программах. Они могут найти перспективное развитие в передачи сжатых изображений по каналам Интернета.

4.3.1 Вейвлеты, вейвлет-преобразования, виды и свойства

Вейвлет анализ и прямое вейвлет-преобразование
Как уже говорилось, вейвлеты – это новые системы базисных функций, используемые для представления, фильтрации, сжатия, хранения и т.д. любого из «сигналов» 13 EMBED Equation.3 1415
В случае, если n = 1, переменная t представляет время и мы имеем дело с временными сигналами 13 EMBED Equation.3 1415. Случай n = 2 относится к обработке изображений.
Основная модель вейвлетного преобразования действует на комплексно-значных временных сигналах 13 EMBED Equation.3 1415, также как преобразование Фурье. Для начала выбирают анализирующий вейвлет (материнский вейвлет) 13 EMBED Equation.3 1415. На рис.2 представлен
·, имеющий компактный носитель [0,L]. Растянутые и сдвинутые копии материнского вейвлета
· называют вейвлетными функциями или просто вейвлетами.


Рисунок 2 – График вейвлета функции Гаусса 1-го порядка.

Также примером является вейвлет «мексиканская шляпа» на рисунке 3, определённый и вычисленный аналитически, математически записывается как:
13 EMBED Mathcad 1415

Но он не обладает свойствами ортогональности.
Вейвлеты (wavelets) – это обобщенное название временных функций, имеющих вид волновых пакетов той или иной формы (в том числе фрактальной), локализованных по оси независимой переменной (t или x) и способных к сдвигу по ней и масштабированию (сжатию/растяжению).
Тем самым, набором вейвлетов, в их временном или частотном представлении можно представить любой сложности сигнал очень точно, с небольшой погрешностью, но более точно, чем преобразованием Фурье.
Вейвлеты занимают промежуточное положение между крайними случаями (синусоидальной и импульсной функциями) и образуют некоторый набор функций, удовлетворяющих сформулированным далее условиям и основанных на использовании представления сигнала в виде:
13 EMBED Equation.3 1415 (1)

13 EMBED Mathcad 1415

Рисунок 3 – График вейвлета «мексиканская шляпа».

где s(t) – представление сигнала в виде взвешенной суммы простых составляющих – базисных функций
·k (t), помноженных на коэффициенты СК.
Поскольку базисные функции
·k(t) зафиксированы как функции определенного типа, только коэффициенты Сk содержат информацию о конкретном сигнале. Таким образом, можно говорить о возможности представления произвольных сигналов на основе рядов с различными базисными функциями.
Базисными функциями вейвлетов могут быть различные функции, в том числе, напоминающие модулированные импульсами синусоиды, функции со скачками уровня и т.д. Это обеспечивает легкое представление сигналов с локальными скачками и разрывами наборами вейвлетов того или иного типов. Почти все вейвлеты не имеют аналитического представления в виде одной формулы и могут задаваться итерационными выражениями.
Вейвлеты характеризуются своим временным и частотным образами. Временной образ определяется psi-функцией времени
·(t). Частотный образ задаётся её Фурье-образом 13 EMBED Equation.3 1415(t) , который задаёт огибающую спектра вейвлета. Ширина вейвлета обратно зависит от его частоты, если сузить вейвлет, то его «средняя частота» увеличивается, спектр сдвигается и расширяется. Это почти линейный процесс.
Становиться понятно, что с помощью вейвлетов сигнал можно представить совокупностью волновых пакетов (вейвлетов), образованных на основе некоторой исходной (базовой) функции
·0(t). Это и есть вейвлет-анализ сигналов.
Прямое вейвлет-преобразование (ПВП) это разложение произвольного сигнала на принципиально новый базис в виде совокупности волновых пакетов (вейвлетов), которые характеризуются четырьмя свойствами:
имеют вид коротких, локализованных во времени (пространстве), волновых пакетов с нулевым значением интеграла;
обладают возможностью сдвига во времени;
способны к масштабированию (сжатию/растяжению);
имеют ограниченный (или локальный) частотный спектр.
Это базис может быть ортогональным, а может и не быть. Ортогональные базисы на порядок облегчают анализ.
Идея вейвлет представления заключается в разбивке приближения к сигналу на две составляющие – грубую (аппроксимирующую) и утончённую (детализирующую) – с последующим их дробление с целью изменения уровня декомпозиции сигнала (число используемых при разложении сигнала вейвлетов).

4.3.2 Непрерывное прямое и обратное вейвлет-преобразования

Основной задачей теории вейвлет преобразований является доказательство того, что прямое и обратное вейвлет преобразования способны обеспечить реконструкцию сигнала, причём точную или хотя бы приближённую, локальную или для сигнала в целом на заданном промежутке времени.
В основе непрерывного вейвлет-преобразования (НВП) лежит использование двух непрерывных и интегрируемых по всей оси t (или x) функций:
вейвлет-функция psi
·(t) с нулевым значением интеграла (13 EMBED Equation.3 1415), определяющая детали сигнала и порождающая детализирующие коэффициенты;
масштабирующая или скейлинг-функция phi
·(t) с единичным значением интеграла (13 EMBED Equation.3 1415), определяющая грубое приближение (аппроксимацию) сигнала и порождающая коэффициенты аппроксимации.
Phi-функции
·(t) присущи далеко не всем вейвлетам, а только тем которые относятся к ортогональным.
Psi-функция
·(t) создается на основе базисной функции
·0(t), которая определяет тип вейвлета. Базисная функция должна удовлетворять всем требованиям, которые отмечены для psi-функции
·(t). Она должна обеспечить выполнение двух основных операций:
смещение по оси времени t –
·0(t - b) при b13 EMBED Equation.3 1415R;
масштабирование - 13 EMBED Equation.3 1415 при a>0 и a13 EMBED Equation.3 1415R+ - {0}.
Параметр a – масштабирующий параметр, задаёт ширину этого пакета, а b – параметр сдвига, задаёт его положение. Если a по модулю 0< |a|<<1 то соответствует очень узким окнам, служит для локализованной регистрации высокой частоты соответствующих переходных процессов. Если a по модулю |a|>>1 то это соответствует очень широким окнам и служит для регистрации медленных процессов или длинноволновых колебаний. Шаг растяжения
·>0 (обычно используют
· = 2) задаёт aj =
·j (j(Z), а параметр сдвига задаётся базовым шагом
·>0 (обычно
· = 1): bj,k = k
·j
· (k(Z).
Для заданных функций a и b вейвлетом является функция
·(t):

·(t) = 13 EMBED Equation.3 1415. (2)
Видно что любой вейвлет можно сдвинуть и растянуть, а может наоборот сузить во времени. Например для вейвлета функции Гаусса зададим b = 5, а для расширения a = 3. Полученный вейвлет представлен на рис. 5.
13 EMBED Mathcad 1415
Рисунок 5

Отсюда видно, что вейвлеты это вещественные функции времени t и колеблются вокруг оси t. Базисная функция может быть разнообразной.
Использую вейвлеты можно по аналогии с преобразованием Фурье произвести прямое непрерывное вейвлет-преобразование (ПНВП). Для этого задается сигнал s(t), его энергия конечна в пространстве V с областью ограничения R. Вейвлет-коэффициенты вычисляются по формуле:
C(a,b) = 13 EMBED Equation.3 1415 (3,a)
с учётом области ограничения сигналов:
C(a,b) = 13 EMBED Equation.3 1415 (3,б)
Вейвлет-коэффициенты определяются интегральным значением скалярного произведения сигнала на вейвлет-функцию заданного вида.
Обратное непрерывное вейвлет-преобразование (ОНВП) осуществляется по формуле реконструкции во временной области:
13 EMBED Equation.3 1415 (4)
где K
· – константа, определяемая функцией
·.
Вейвлет-преобразование способно на основе детализирующей ортогональной вейвлет функции
·(t) восстановить лишь тонкие детали временной зависимости сигнала s(t). Для восстановления полной формы сигнала приходиться применять аппроксимирующую функцию
·(t).
Анализ с использование функции
·(t) называется кратномасштабным.

4.3.3 Ортогональные вейвлеты

В радиотехнических системах очень часто необходимы ортогональные функции. В ортонормированном пространстве есть много классических ортогональных базисов – Эрмита, Лаггера и др. Среди вейвлетов важную роль играют ортогональные и биортогональные вейвлеты, отличающиеся рядом выгодных качеств. Главные среди них – возможность восстановления (реконструкции) не только локальных особенностей произвольного сигнала s(t), но и сигнала в целом, а также возможность осуществления быстрых вейвлет-преобразований.
Ортогональные вейвлеты, как отмечалось выше, характеризуются двумя функциями – вейвлет-функцией (psi) и масштабирующей функцией (phi).
Один из первых известных ортогональных вейвлетов – вейвлет Хаара. Функция phi у него имеет значение 1 в интервале [0,1] т 0 за пределами этого интервала. Функция psi имеет вид прямоугольных импульсов – меандра (значения 1 в интервале [1,0.5] и -1 в интервале [0.5,1]). Вейвлеты Хаара хорошо локализованы в пространстве, но не очень хорошо локализованы в частотной области, поскольку меандр имеет широкий спектр частот (теоретически бесконечный).
Вейвлеты Добеши (dbN) ортогональные с компактным носителем, при этом они сосредоточенны на конечном интервале времени. Они имеют хорошо локализованный спектр в частотной области. Но они являются несимметричными и при этом реализуются итерационными формулами.
Примером является вейвлет Добеши 8-го порядка, его psi представлена на рис. 6, а phi функция на рисунке 7.



Рисунок 6 – Функция psi вейвлета Добеши8.


Рисунок 6 – Функция phi вейвлета Добеши8.

Также к ортогональными вейвлетами с компактным носителем относятся вейвлеты Симлета (symN) и Коифлета (coifN). У них имеется функция phi, и обе функции phi и psi имеют компактный носитель и определенное число моментов исчезновения. Посредством их можно проводить непрерывные вейвлет-преобразования, а также дискретные преобразования с применением быстрого вейвлет-преобразования. Минусом их является недостаточная периодичность.
Отдельно идут биортогональные парные вейвлеты с компактным носителем. Это B-сплайновые биортогональные вейвлеты (biorNr.Nd и rbioNr.Nd). Они имеют phi функцию, и также обе функции phi и psi имеют компактный носитель. Для реконструкции могут иметь периодичность.


4.4 Формат сжатия изображений JPEG

JPEG СЖАТИЕ и ФОРМАТ ФАЙЛА JPG

Главным образом из-за того, что большинство файлов JPG сжаты способом Baseline Sequential DCT, этот документ рассматривает только этот формат сжатия и особенно его JFIF реализацию. Он НЕ раскрывает JPG Прогрессивное или Иерархическое сжатие.

ШАГИ ШИФРАТОРА JPEG

1) Плавное преобразование цветового пространства: [R G B] -> [Y Cb Cr]

(R,G,B - 8-битовые величины без знака)

13 EMBED Equation.3 1415

Новая величина Y = 0.299*R + 0.587*G + 0.114*B названа яркостью. Это – величина, использованная монохромными мониторами, чтобы представить цвет RGB. Физиологически, передает интенсивность цвета RGB воспринятого глазом.
Вы видите, что формула для Y, подобно средневзвешенному значению с разным весом для каждого спектрального компонента: глаз наиболее чувствителен на Зеленый цвет, затем следует Красный компонент и в последнюю очередь - Синий.

Величины 13 EMBED Equation.3 1415 и названы цветовыми величинами и представляют 2 координаты в системе, которая измеряет оттенок и насыщение цвета ([Приближенно], эти величины указывают количество синего и красного в этом цвете).
Эти 2 координаты кратко названы цветоразностью.

Преобразование [Y,Cb,Cr] в [R,G,B] (обратно предыдущему преобразованию)
RGB-цвет может быть вычислен непосредственно из YCbCr (8-битовые величины без знака) следующим образом:

R
=
Y
+
1.402
*
(Cr-128)







G
=
Y
-
0.34414
*
(Cb-128)
-
0.71414
*
(Cr-128)



B
=
Y
+
1.772
*
(Cb-128)








Примечание, связывающее Y,Cb,Cr в человеческой визуальной системе

Глаз, особенно сетчатка, имеет как визуальные анализаторы два типа ячеек: ячейки для ночного видения, воспринимающие только оттенки серого (от ярко-белого до темно-черного) и ячейки дневного видения, которые воспринимают цветовой оттенок. Первые ячейки, дающие цвет RGB, обнаруживают уровень яркости, подобный величине Y. Другие ячейки, ответственные за восприятие цветового оттенка, - определяют величину, связанную с цветоразностью.

2) Дискретизация

JPEG Стандарт принимает во внимание то, что глаз более чувствителен к яркости цвета, чем к оттенку этого цвета. (Черно-белые ячейки вида имеют больше влияния, чем ячейки дневного видения)

Так, для большинства JPG, яркость взята для каждого пикселя, тогда как цветоразность – как средняя величина для блока 2x2 пикселей. Имейте в виду, что это не обязательно, но при этом можно достичь хороших результатов сжатия, с незначительным убытком в визуальном восприятии нового обработанного изображения.

Примечание: JPEG стандарт определяет, что для каждого компонента образа (подобно, например Y) должно быть определено 2 коэффициента дискретизации: один для горизонтальной дискретизации и один для вертикальной дискретизации. Эти коэффициенты дискретизации определяются в файле JPG как относительно максимального коэффициента дискретизации (дополнительно об этом позже).

3) Сдвиг Уровня

Все 8-битовые величины без знака (Y,Cb,Cr) в изображении - "смещенные по уровню": они преобразовываются в 8-битовое знаковое представление вычитанием 128 из их величины.

4) 8x8 Дискретное Косинусоидальное Преобразование (DCT)

Изображение делится на блоки 8x8 пикселей, затем для каждого блока 8x8 применяется DCT-трансформация. Заметьте, что если размер X исходного образа не делится на 8, шифратор должен сделать его делимым, дополняя остальные правые столбцы (пока X не станет кратным 8). Аналогично, если размер Y не делимо на 8, шифратор должен дополнить строки.
Блоки 8x8 обрабатываются слева направо и сверху вниз.
Примечание: Поскольку каждый пиксель в блоке 8x8 имеет 3 компонента (Y,Cb,Cr), DCT приложен отдельно в трех блоках 8x8:
Первый блок 8x8 является блоком, который содержит яркость пикселей в исходном блоке 8x8;
Второй блок 8x8 является блоком, который содержит величины Cb;
И, аналогично, третий блок 8x8 содержит величины Cr.

Цель DCT-трансформации в том, что вместо обработки исходных изображений, Вы работаете с пространством частот изменения яркости и оттенка. Эти частоты очень связаны с уровнем детализации изображения. Высокие частоты соответствуют высокому уровню детализации.

DCT-трансформация очень похожа на 2-мерное преобразование Фурье, которое получает из временного интервала (исходный блок 8x8) частотный интервал (новые коэффициенты 8x8=64, которые представляют амплитуды проанализированного частотного пространства)

Математическое определение прямого DCT (FDCT) и обратного DCT (IDCT):

FDCT:
13 EMBED Equation.3 1415

u,v = 0,1...7

c(u,v)=1/2, когда u=v=0;
c(u,v)= 1 – в остальных случаях.
IDCT:

13 EMBED Equation.3 1415

x,y = 0,1...7

Применение этих формул непосредственно в вычислительном отношении дорого, особенно, когда имеются разработанные более быстрые алгоритмы для прямого или обратного DCT. Один, названный AA&N, имеет только 5 операций умножения и 29 операций сложения. Больше информации и реализацию этого можно найти в свободном программном обеспечении для JPEG кодировщиков от Независимой JPEG Группы (IJG), их C-источники могут быть найдены на www.ijg.org.

5) Зигзагообразная перестановка 64 DCT коэффициентов

Так, после того, как мы выполнили DCT-преобразование над блоком величин 8x8, у нас есть новый блок 8x8. Затем, этот блок 8x8 просматривается по зигзагу подобно этому:


(Числа в блоке 8x8 указывают порядок, в котором мы просматриваем 2-мерную матрицу 8x8)

00, 1, 5, 6, 14, 15, 27, 28,
02, 4, 7, 13, 6, 26, 29, 42,
03, 8, 12, 17, 25, 30, 41, 43,
09, 11, 18, 24, 31, 40, 44, 53,
10, 19, 23, 32, 39, 45, 52, 54,
20, 22, 33, 38, 46, 51, 55, 60,
21, 34, 37, 47, 50, 56, 59, 61,
35, 36, 48, 49, 57, 58, 62, 63


Как Вы видите, сначала - верхний левый угол (0,0), затем величина в (0,1), затем (1,0), затем (2,0), (1,1), (0,2), (0,3), (1,2), (2,1), (3,0) и т.п.

После того, как мы прошли по зигзагу матрицу 8x8, мы имеем теперь вектор с 64 коэффициентами (0..63) Смысл этого зигзагообразного вектора – в том, что мы просматриваем коэффициенты 8x8 DCT в порядке повышения пространственных частот. Так, мы получаем вектор отсортированный критериями пространственной частоты: первая величина на векторе (индекс 0) соответствует самой низкой частоте в изображении – она обозначается термином DC. С увеличением индекса на векторе, мы получаем величины соответствующие высшим частотам (величина с индексом 63 соответствует амплитуде самой высокой частоте в блоке 8x8). Остальная часть коэффициентов DCT обозначается AC.

6) Квантование

На этом этапе, у нас есть отсортированный вектор с 64 величинами, соответствующими амплитудам 64 пространственных частот в блоке 8x8.

Эти 64 величины квантованы: Каждая величина делится на число, определенное для вектора с 64 величинами - таблицу квантования, затем округляется до ближайшего целого.

для (i = 0; i<=63; i++)
вектор[i] = (округлить) (вектор[i] / таблица_квантования[i] + 0.5)

Вот пример таблицы квантования для яркости(Y) данной в приложении JPEG стандарта. (Дается в форме блока 8x8; полученного из 64 векторных величин, зигзагообразным преобразованием)
16 11 10 16 24 40 51 61
12 12 14 19 26 58 60 55
14 13 16 24 40 57 69 56
14 17 22 29 51 87 80 62
18 22 37 56 68 109 103 77
24 35 55 64 81 104 113 92
49 64 78 87 103 121 120 101
72 92 95 98 112 100 103 99


Эта таблица опирается на "психовизуальный порог", это "используется с хорошими результатами для изображений с 8-битовой яркостью и оттенками". Большинство существующих шифраторов просто копируют этот пример, но величины не оптимизируются (шифратор может использовать ЛЮБУЮ ДРУГУЮ таблицу квантования) таблица определяется в JPEG файле с DQT (Определение Таблицы Квантования) маркером. Обычно присутствует одна таблица для Y, и другие для оттенка (Cb и Cr).

Процесс квантования играет ключевую роль в JPEG сжатии. Это - процесс, который удаляет высокие частоты, представленные в исходном изображении - впоследствии высокую детализацию. Мы делаем это из-за того, что глаз более чувствителен к низким частотам, чем к высоким, так что мы можем удалить, с очень небольшим визуальным убытком, высокие частоты. Это сделано посредством деления величин в высоких индексах на векторе (амплитуды высоких частот) на большие величины, чем величины, на которыми разделены амплитуды более низких частот. Больше величины в таблице квантования - больше потери (впоследствии визуальные потери) введенные этим процессом, и меньше – лучше визуальное качество.

Другой важный факт - в большинстве изображений цвет изменяется медленно от одного пикселя к другому, так что большинство образов будут иметь небольшое количество высокой детализации -> небольшая сумма (небольшие амплитуды) высоких пространственных частот - но у них есть много информации об изображении, содержащейся на низких пространственных частотах.

Впоследствии на новом квантованном векторе, на высоких пространственных частотах, мы будем иметь много последовательных нулей.

7) RunLength кодирование нулей (RLC)

Теперь у нас есть квантованный вектор с длинной последовательностью нулей. Мы можем использовать это, кодируя последовательные нули. ВАЖНО: Вы увидите позже почему, но здесь мы пропускаем кодировку первого коэффициента вектора (коэффициент DC), который закодирован по-другому. (Я представлю его кодирование позже в этом документе) Рассмотрим исходный 64 вектор как 63 вектор (это - 64 вектор без первого коэффициента)

Допустим, мы имеем 57,45,0,0,0,0,23,0,-30,-16,0,0,1,0,0,0,0,0,0, только 0,...,0

Здесь - как RLC JPEG сжатие сделано для этого примера:

(0,57); (0,45); (4,23); (1,-30); (0,-16); (2,1); EOB

Как Вы видите, мы кодируем для каждой величины, отличающейся от 0 количество последовательных ПРЕДШЕСТВУЮЩИХ нулей перед величиной, затем мы добавляем величину. Другое примечание: EOB - короткая форма для Конца Блока, это - специальная кодированная величина (маркер). Если мы достигли в позиции на векторе, от которого мы имеем до конца только нули вектора, мы выделим эту позицию с EOB и завершим сжатие RLC квантованного вектора.

8) Конечный шаг - кодирование Хаффмана

Сначала ВАЖНОЕ примечание: Вместо хранения фактической величины, JPEG стандарт определяет, что мы храним минимальный размер в битах, в котором мы можем держать эту величину (это названо категория этой величины) и затем битно кодированное представление этой величины подобно этому:

4.5 JPEG2000

4.5.1 Общая характеристика стандарта и основные принципы сжатия

Отправной точкой для стандарта JPEG2000 стало предложение М. Болиека 1996 года. Разработанный Болиеком алгоритм должен был стать основой нового стандарта сжатия изображений  без  потерь JPEG-LS,  но  был  отвергнут  в  пользу  более  перспективного  алгоритма LOCO-I. Алгоритм Болиека, тем не менее, обладал рядом очень привлекательных возможностей, что послужило причиной создания нового стандарта JPEG2000.
Объявление о  начале  разработки нового  стандарта датируется мартом 1997  года. Традиционно был устроен конкурс алгоритмов сжатия, на котором проводилось численное и визуальное сравнение результатов работы различных программ. Программа-победитель (ею стала разработка аризонского университета, алгоритм WTCQ) была выбрана за основу первой версии стандарта. В ноябре 1998 года с подачи Д. Таубмана в стандарт было внесено существенное изменение. Таубман предложил решение, позволившее сделать стандарт существенно более гибким и менее требовательным к ресурсам вычислительной системы. Алгоритм Таубмнана (алгоритм EBCOT) в результате составил основу финальной версии стандарта. В  процессе  стандартизации  было  учтено  большое  количество  различных  предложений. Так как все они не могли составить новый стандарт, было принято решение часть из них внести в его базовый вариант, а часть рассматривать как дополнение. На данный момент документация стандарта представлена двумя частями (в будущем планируются дополнительные разделы). Первая описывает основные моменты, которые должны быть  в  обязательном порядке  соблюдены  в  любой  реализации  стандарта.  Вторая  содержит  расширения  основной части стандарта, которые не являются обязательными. Данный подход выгоден тем, что, во-первых, учитывает большое количество различных предложений и обеспечивает гибкость, а во-вторых,  позволяет  получать  достаточно  непритязательные  в  плане  вычислительных  ресурсов реализации, совместимые со стандартом.
Разделение стандарта на основную и дополнительную часть лучше всего иллюстрируется на примере алгоритмов квантования. Предложение аризонского университета подразумевало использование сложного алгоритма квантования, получившего название квантование с сетчатой геометрией. Фактически была предложена быстрая реализация векторного квантования. Как известно, векторное квантование обладает большей эффективностью по сравнению со скалярным квантованием, однако, в то же время, оно является существенно менее производительным.  В  предложенном  алгоритме WTCQ   векторное  квантование  реализовано  на базе конечного набора скалярных квантователей, выбор которых  (для осуществления квантования) производится в соответствии с возможными направлениями обхода заданного графа  (сети).  Направление  обхода  одновременно  соответствует младшим  разрядам  квантованных  значений,  полученных  с  использованием  предыдущих  квантователей  (выбранных  на предыдущем этапе). Путем перебора возможных путей внутри графа можно найти более или менее эффективные способы квантования произвольной по длине последовательности величин. Несмотря на то, что подобный алгоритм весьма прост, его сложность, все же, не идет нив какое сравнение со сложностью алгоритма обычного равномерного квантования. Как следствие,  последний  (используется  равномерный  квантователь  с  мертвой  зоной  вблизи  нуля)является  обязательной  частью  стандарта,  а  первый  (квантование  с  сетчатой  геометрией)представляет собой расширение стандарта и является лишь его опцией. Сжатие по стандарту JPEG2000 основано на ставшем уже классическим алгоритме пирамидального вейвлет-преобразования. Обработка вейвлет-коэффициентов осуществляется методом контекстно-зависимого бит-ориентированного арифметического кодирования.
Первоначально  изображение  подвергается  чередующимся  последовательностям  вертикальных и горизонтальных одномерных вэйвлет преобразований. Сначала преобразуются все строки, а затем все столбцы. На следующем этапе левая верхняя четверть матрицы получившейся в результате предыдущего преобразования опять преобразуется  (сначала  все строки, затем все столбцы). И так далее. Количество этапов соответствует количеству уровней вейвлет-декомпозиции.  В  результате  преобразования  мы получаем  множество  прямоугольных диапазонов  вейвлет-коэффициентов,  которые  принято  называть  частотными  диапазонами, так как они содержат информацию о том, как ведет себя исходный двухмерный сигнал (изображение) при разном разрешении (то есть набор коэффициентов при разной частоте). Для  преобразования  могут  использоваться  различные  вейвлет-фильтры.  Обязательная часть стандарта предписывает использование только двух фильтров: обратимый .5/3. . для сжатия  без  потерь  и  необратимый  .9/3.  .  для  сжатия  с  потерями  (оба  фильтра  являются классическими вейвлет-фильтрами). Расширение допускает любые другие фильтры. Подразумевается, что для реализации преобразования используется удобная с практической точки зрения лифтинг-схема. После  преобразования  осуществляется  квантование  коэффициентов.  Именно  на  этапе квантования  возникают  основные  информационные  потери,  и  именно  за  счет  квантования возможно  существенное  уменьшение  объема  представления  изображения. (Естественно,  в квантовании нет необходимости, если производится сжатие без потерь.) Как уже было сказано, квантование может быть либо равномерным скалярным, либо каким-либо другим (например, векторным). В случае использования равномерного скалярного квантования квант-параметр может меняться в зависимости от квантуемого диапазона. Этап арифметического кодирования является завершающим этапом кодирования. Диапазоны коэффициентов разбиваются на прямоугольные кодовые блоки (как правило, 32x32 или64x64). Каждый из блоков кодируется независимо. Это означает, что состояние арифметического кодера сбрасывается перед кодированием очередного кодового блока. В процессе кодирования  коэффициенты  в  блоке  виртуально  представляются  в  виде  битовых  плоскостей. Одну из таких плоскостей составляют знаки коэффициентов; остальные плоскости соответствуют различным разрядам величин коэффициентов (положение бита в плоскости соответствует положению коэффициента в блоке). Кодирование коэффициентов сводится к кодированию битов, составляющих эти коэффициенты. Таким образом, арифметическое кодирование является бит-ориентированным.
Арифметическое кодирование основано на контекстно-зависимой модели. Контекст формируется как функция от значений битов, окружающих кодируемый бит. Кодирование осуществляется по плоскостям: сначала кодируется плоскость, соответствующая старшему разряду коэффициентов, затем следующая по убыванию, и т.д. Во время кодирования каждому коэффициенту в кодируемом блоке ставится в соответствие параметр значимость. Коэффициент называется значимым, если в уже закодированных на данный момент битовых плоскостях, присутствует хотя бы один ненулевой разряд данного коэффициента. Каждая битовая плоскость  кодируется  в  три  прохода.  Во  время  первого  кодового  прохода  осуществляется распространение  информации  о  значимости  коэффициентов.  Для  каждого  бита  плоскости, если соответствующий коэффициент еще не является значимым, и если хоть один соседний коэффициент  уже  является  значимым,  осуществляется  кодирование  факта  значимости  для текущего коэффициента, то есть фактически осуществляется кодирование значения данного бита текущей кодируемой плоскости. Если кодируемый бит оказался ненулевым, сразу после его  обработки кодируется  соответствующий  бит  битовой  плоскости  знаков коэффициентов(кодирование  знака). Во  время  второго  кодового  прохода  кодируются  все биты,  соответствующие значимым на данный момент коэффициентам и не обрабатывавшиеся во время первого прохода. В отличие от предыдущего кодового прохода, когда решение о кодировании принималось на основе информации о значимости соседних коэффициентов, во время данного прохода биты кодируются в обязательном порядке. Цель третьего кодового прохода, обработать  те  биты,  которые  не  были  обработаны  во  время  первого  и  второго  проходов.  Во время  третьего  прохода  арифметическое  кодирование  применяется  совместно  с  групповым кодированием. Существенной деталью, предусмотренной стандартом, является возможность пропуска кодовых проходов, что  является еще одним источником повышения эффективности за счет информационных потерь (первым, наиболее явным источником является квантование). Данная возможность активно используется для осуществления контроля над скоростью генерации кода.
Представление  информации,  полученное  в  результате  вейвлет-преобразования,  очень удобно тем, что оно обеспечивает возможность получения приблизительных копий изображения  без  осуществления  полного  обратного  преобразования.  Обратное  преобразование осуществляется  в  порядке,  обратном  порядку  прямого  преобразования.  Производя  ограниченное число обратных декомпозиций (объединение частотных диапазонов), полагая, что все не  вовлеченные  в  преобразование  частотные  диапазоны  содержат  исключительно  нулевые элементы, мы  легко  можем  получить  либо  копию  изображения  в  уменьшенном  масштабе, либо исходное изображение, но в более низком качестве по  сравнению с изображением, полученным в результате полного обратного преобразования.   Учитывая тот факт, что блоки вейвлет-коэффициентов  кодируются  независимо  друг  от  друга,  мы  получаем  возможность частичного декодирования не только на уровне преобразования, но и на уровне интерпретации кода. Для получения приблизительной копии изображения достаточно декодировать всего лишь часть информации, а затем произвести частичное обратное преобразование. Таким образом,  формат  хранения  изображения  обеспечивает  масштабируемость  как  по  разрешению, так и по качеству.
Другим  важным  преимуществом  нового  стандарта  является  возможность  доступа  к  отдельным элементам изображения без полного декодирования его представления. Обеспечивается  такая возможность, во-первых, разбиением исходного изображения на  непересекающиеся области (тайлы), которые кодируются как отдельные изображения, а во-вторых, представлением  кода  отдельного  тайла  в  виде  частей  (слоев),  каждая  из  которых  является  суммарным  кодом  коэффициентов,  соответствующих  некоторой  его  (тайла)  области  (отметим, что слои в свою очередь делятся на так называемые пакеты, содержащие код блоков коэффициентов на разных уровнях декомпозиции). Для того, чтобы декодировать какую-либо область изображения достаточно определить, каким тайлам она принадлежит и какие слои, относящиеся к этим тайлам содержат код блоков коэффициентов, необходимых для восстановления требуемой области. Безусловно, «удобное» представление изображения не может быть выгодным с точки зрения эффективности сжатия. Действительно, с уменьшением размера структурных элементов (тайлов, областей тайлов, образующих слои и др.) эффективность сжатия несколько снижается.  Стандарт  в  данном  случае  оставляет  нам  выбор:  с  одной  стороны, мы  имеем  возможность получать информационные представления, позволяющие достаточно быстро извлекать и редактировать части изображения, с другой стороны, стандарт не препятствует созданию информационных представлений, эффективных по объему.
Все, что было сказано выше, в действительности относится не совсем к сжатию изображений. Речь шла всего лишь о сжатии матриц. Реальные изображения подчас  являются  более  сложными  объектами.  Как  правило,  изображение  включает  в  себя сразу несколько компонентов. Чаще всего, оно состоит из трех цветовых компонентов: красного, зеленого и синего. Так как каждый компонент в отдельности представляет собой матрицу, для того, чтобы закодировать изображение целиком, нам необходимо закодировать не одну, а три матрицы. Такой подход, как показывает практика, приемлем, но не является самым удачным. Большей эффективности сжатия можно добиться в случае, когда кодируемые компоненты представлены в яркостно-цветовой форме. Для преобразования изображения из стандартного цветового представления RGB в яркостно-цветовое представление YCrCb стандартом предусмотрены две процедуры: обратимая и необратимая.  Необратимая  процедура  в  точности  повторяет  классическое  преобразование RGB-> YCrCb,  которое  использовалось,  например,  в  старом  стандарте JPEG.  Обратимая процедура представляет собой достаточно грубое приближение к классической необратимой процедуре. Как следует из названия, данное преобразование не ведет к потере цветовой информации, и может  применяться  в  тех  случаях,  когда  задействуется  режим  сжатия  без  потерь. Для  обеспечения  помехоустойчивости  информационного  представления  и  удобства  доступа  к  информации  в  стандарте JPEG2000  предусмотрена  система  маркеров  и  маркерных сегментов.  Маркеры  играют  роль  разграничителей  внутри  информационного  потока;  маркерные сегменты содержат в себе параметры фрагментов информации ограниченных маркерами. Данные, начинающиеся с маркера, как правило, могут быть корректно проинтерпретированы без какой-либо дополнительной информации (это, естественно, не означает возможность  восстановления  целого  по  фрагментам),  что  обеспечивает  возможность  частичного восстанов
·ления изображения,  представление  которого было  повреждено.  Введение  элементов помехоустойчивости дает зеленый свет использованию стандарта во всевозможных телекоммуникационных приложениях.

В JPEG2000 реализовано:
Кодирование на низких скоростях. Существующие стандарты великолепно работают на средних и высоких битовых скоростях, но при низких - искажение изображений становится недопустимым.
Сжатие без потерь и сжатие с потерями. Ни один из существующих стандартов не предполагает сжатие без потерь и сжатие с потерями в одном потоке данных.
Обработка больших по объему изображений. На текущий момент, алгоритм сжатия обычного JPEG не позволяет обрабатывать изображения, большие 64К, без их деления на куски.
Единая архитектура декомпрессии. Существующий стандарт JPEG имеет как минимум 44 модели, которые не поддерживаются большинством декодеров.
Минимальные искажения при передаче данных с некоторыми помехами. Существующий стандарт JPEG имеет такую особенность, что изображение довольно значительно страдает даже при небольшом числе ошибочно переданных битов.
Эффективная работа с искусственными изображениями (сгенерированными компьютерами). Предыдущий формат великолепно позволяет обрабатывать естественные изображения, но плохо обеспечивает кодирование искусственных.
Эффективная обработка составных документов. Обычный JPEG редко используется для работы с составными документами из-за его слабой эффективности при наличии текстовых элементов в изображении.
 
Основными недостатками стандарта являются:
Алгоритм JPEG 2000 неэффективен по времени выполнения, так как входящие в него вейвлет-преобразование и побитовая обработка коэффициентов требуют больших временных затрат. Время выполнения можно сократить для одного частного случая, когда сжимаются снимки природного происхождения и зафиксирована степень сжатия. В этом случае существует устойчивая связь между кодированием низких и высоких частот, что позволило оптимизировать длину R-D кривых. В среднем это дает экономию времени 20%.

Преимущество JPEG 2000 над JPEG в качестве алгоритма сжатия в некоторых случаях нельзя однозначно установить, используя показатель среднеквадратической ошибки (MSE). Для космических снимков предложен новый метод – метод тестирования на мирах.

4.5.2 Информационные потери в jpeg2000 на разных этапах обработки

Предварительная обработка. Изображение, как правило, представляет собой набор неотрицательных целых чисел. На этапе предварительной обработки из него вычитают среднее. Кроме того, если изображение большого размера, то оно может быть разбито на части. Тогда каждая часть сжимается отдельно, а для предотвращения появления заметных линий на стыке восстановленных частей применяются специальные меры. Для преобразования изображения из стандартного цветового представления RGB в яркостно-цветовое представление YCrCb стандартом предусмотрены две процедуры: обратимая и необратимая.  Необратимая  процедура  в  точности  повторяет  классическое  преобразование RGB-> YCrCb,  которое  использовалось,  например,  в  старом  стандарте JPEG.  Обратимая процедура представляет собой достаточно грубое приближение к классической необратимой процедуре. Как следует из названия, данное преобразование не ведет к потере цветовой информации, и может  применяться  в  тех  случаях,  когда  задействуется  режим  сжатия  без  потерь.
Вейвлет-преобразование. В первой части определены два вейвлет-фильтра - фильтр Добеши для сжатия с потерями и тоже биортогональный фильтр с целочисленными коэффициентами для сжатия без потерь. Во второй части стандарта разрешается применение любых фильтров, а также не только октавополосное разбиение, но и произвольное (вейвлет-пакеты и т.д.) В стандарте определено, что вейвлет-преобразование осуществляется не путем свертки с импульсными характеристиками фильтров, а на основе алгоритма, известного как лифтинговая схема. Обязательная часть стандарта предписывает использование только двух фильтров: обратимый .5/3. . для сжатия  без  потерь  и  необратимый  .9/3.  .  для  сжатия  с  потерями  (оба  фильтра  являются классическими). Фильтр представляет собой небольшое «окно». Значения яркости и цветности попавших в него пикселей умножаются на заданный набор коэффициентов, а полученные значения суммируются, и «окно» сдвигается для расчета следующего значения. Каждый канал проходит фильтрацию низкочастотным и высокочастотным фильтрами отдельно по строкам и по рядам, в результате чего после первого прохода в каждой части формируются четыре более мелких изображения (subband). Все они несут информацию об исходном изображении, но их информативность сильно отличается. Например, изображение, полученное после низкочастотной фильтрации по строкам и рядам (вверху слева), несет наибольшее количество информации, а полученное после высокочастотной минимальное. Информативность у изображений, полученных после НЧ-фильтрации строк и ВЧ для столбцов (и наоборот), средняя. Наиболее информативное изображение опять подвергается фильтрации, а полученные составляющие, как и при jpeg-компрессии, квантуются. Так происходит несколько раз: для сжатия без потерь цикл обычно повторяется 3 раза, с потерями разумным компромиссом между размером, качеством и скоростью декомпрессии считается 10 итераций. В результате получается одно маленькое изображение и набор картинок с мелкими деталями, последовательно и с определенной точностью восстанавливающих его до нормального размера.
Квантование. В первой части стандарта определен равномерный квантователь с мертвой зоной, описанный, например, по вейвлетам. В случае сжатия без потерь размер шага квантователя равен 1, иначе он выбирается в зависимости от требуемой степени сжатия. Шаг квантователя постоянен в пределах субполосы. Во второй части стандарта определена возможноть применения решетчатого квантователя - TCQ. Именно  на  этапе квантования  возникают  основные  информационные  потери,  и  именно  за  счет  квантования возможно  существенное  уменьшение  объема  представления  изображения. (в квантовании нет необходимости, если производится сжатие без потерь.)
Энтропийное кодирование. Применяется адаптивный арифметический кодер (а в JPEG был кодер Хаффмана). Ввиду патентных ограничений используется не QM-кодер разработки IBM, а чуть худший MQ-кодер, специально разработанный для JPEG2000. Кодирование ведется не всего изображения в целом и даже не отдельных субполос, а более мелких объектов - кодируемых блоков (КБ). Размер кодируемого блока может быть не более 4096 пикселов, высота не менее 4 пикселов. Такое разбиение хотя и снижает несколько коэффициент сжатия, но повышает устойчивость сжатого потока к ошибкам канала связи: ошибка испортит лишь небольшой блок. Кодирование блоков ведется в три этапа, битовыми плоскостями. Каждая битовая плоскость  кодируется  в  три  прохода.  Существенной деталью, предусмотренной стандартом, является возможность пропуска кодовых проходов, что  является еще одним источником повышения эффективности за счет информационных потерь. Использование методов кодирования, учитывающих структуру вейвлет - преобразования, может существенно повысить степень сжатия. Один из широко используемых методов такого типа - метод нуль - дерева (zero - tree compression). Он основан на предположении, что если некоторая область изображения не содержит нетривиальной информации на некотором уровне разрешения, то с большой вероятностью она не будет информативной и на более тонком уровне разрешения. Вейвлет - преобразование изображения можно хранить в виде дерева, корнем которого является сильно сглаженная версия оригинала, а ветви, представляющие отдельные блоки, обрываются на том уровне, где дальнейшая обработка не дает заметного уточнения. Такое дерево можно с успехом сжать обычными методами типа хаффменовского или арифметического кодирования, которые используются почти во всех алгоритмах сжатия.
Сжатый поток данных упаковывается в пакеты. Именно благодаря гибкой и продуманной структуре пакетов возможно достижение целей разработки стандарта.
 
4.5.3 Практическая реализация

С тех пор, как были заложены основы компрессии методом JPEG2000, ряд компаний разработал достаточно эффективные алгоритмы ее реализации. Среди крупных разработчиков ПО можно отметить Corel (кстати, она одна из первых внедрила в свои пакеты поддержку формата wi, основанного на волновых преобразованиях, за что ей честь и хвала) все изображения, поставляемые на компакт-дисках с пакетом CorelDRAW вплоть до девятой версии, сжимались именно таким способом. Позже к ней подтянулась и Adobe. Часть идей, заложенных в JPEG2000, была применена разработчиками Photoshop 6 в виде продвинутых опций при сохранении изображения в формате JPEG (обычном, основанном на косинусном преобразовании). Среди них прогрессивный JPEG (параметр Progressive в окне Save for Web). Этот алгоритм предназначен, главным образом, для систем реального времени и работает точно так же, как и прогрессивный GIF. Сначала появляется грубая копия изображения, состоящая всего из нескольких блоков большого размера, а со временем, когда подгружаются остальные данные, структура начинает просматриваться все четче, пока, наконец, конечное изображение не восстановится полностью. В отличие от GIF, такой алгоритм создает большую нагрузку на просмотрщик, поскольку ему придется полностью выполнять весь цикл преобразований для каждой передаваемой версии. Из других дополнений отметим включение в файл нескольких JPEG-сжатых изображений с разной степенью компрессии, разрешением и даже цветовыми моделями. Соответственно, в Photoshop 6 появилась возможность выделять в изображении отдельные области и применять для них другие установки компрессии (Region-Of-Interest, впервые такой механизм был предложен еще в 1995 г.), используя более низкие значения в таблице квантования. Для этого задается требуемая область (например, в виде нового канала в изображении) и нажимается пиктограмма маски возле пункта Quality (Качество). В появившемся окне можно экспериментировать с изображением, передвигая ползунки, готовый результат отображается на экране, позволяя быстро находить необходимый компромисс между качеством и размером.

4.6 Видеостандарт MPEG

На наших глазах в области видеокомпьютерных технологий происходит очередной революционный скачок, а именно широкое практическое внедрение различных систем, основанных на компьютерном воспроизведении в реальном времени и с высоким качеством последовательностей видеоизображений. Это компакт-диски стандартов СD-I и Video-CD, несущие по 60-70 минут настоящего видео с возможностью его просмотра на стандартных PC-компьютерах, оснащенных CD-проигрывателем и MPEG-платой. Это устройства нелинейного монтажа, позволяющие захватывать в компьютер видеофрагменты длительностью от десятков секунд до минут с целью последующей их цифровой обработки (а ее возможности поистине неограниченны) и обратного ТВ-воспроизведения и записи в соответствии с заданным сценарием (тем самым компьютер превращается в монтажную студию). Это, наконец, видеоконференции, обеспечивающие визуальное общение через компьютеры, соединенные между собой с помощью модемов по телефонным каналам. Распространение этих и других подобных систем стало возможным в силу разработки мощных алгоритмов, обеспечивающих цифровое сжатие видеоинформации в десятки и сотни раз, и последующего массового производства микросхем, аппаратно реализующих данные алгоритмы в соответствии с принятыми стандартами. Понимание принципов этих алгоритмов представляется важным не только для разработчиков оригинальных алгоритмов и устройств, но и для квалифицированных пользователей вышеупомянутых систем.
Настоящий материал посвящен краткому описанию основ одного из наиболее продвинутых стандартов, разработанного международным комитетом Motion Pictures Expert Group (сокращенно - MPEG) и принятого в окончательной редакции ISO 11172-2 только в 1993г. Хотя MPEG-стандарт определяет правила кодирования и декодирования цифровых потоков как изображений, так и связанного с ними звука, в этом материале мы остановимся только на видео.

4.6.1 Общее описание

Несмотря на большую гибкость стандарта, позволяющую для различных приложений менять в широких пределах значения большинства его параметров (такие как разрешение изображений, аспектное отношение, частота кадров), его разработчики первоначально были ориентированы на использование в качестве основного носителя кодированной информации компакт-дисков (CD-ROM) со скоростью передачи данных 150 Кб/с. В результате базовый алгоритм (MPEG 1) ограничивает скорость передачи диапазоном 150-225 Кб/с, разрешение изображений (кадров) как 352х288 (PAL) или 320х240 (NTSC), частоту их смены 25 (PAL) или 30 (NTSC). Далее для простоты мы ограничимся рассмотрением PAL-системы.
MPEG-компрессия использует следующие основные идеи:
 устранение временной избыточности видео, учитывающее тот факт, что в пределах коротких интервалов времени большинство фрагментов сцены оказываются неподвижными или незначительно смещаются по полю;  устранение пространственной избыточности изображений подавлением мелких деталей сцены, несущественных для ее визуального восприятия человеком;    использование более низкого цветового разрешения при YUV-представлении изображений (Y -яркость, U и V - цветоразностные сигналы) - установлено, что глаз менее чувствителен к пространственным изменениям оттенков цвета по сравнению с изменениями яркости;    повышение информационной плотности результирующего цифрового потока путем выбора оптимального математического кода для его описания (например, использование более коротких кодовых слов для наиболее часто повторяемых значений).
Изображения в MPEG-последовательности подразделяются на следующие типы:
  I (intra), играющие роль опорных при восстановлении остальных изображений по их разностям;    Р (predicted), содержащие разность текущего изображения с предыдущим I или Р с учетом смещений отдельных фрагментов;    В (bidirectionally predicted), содержащие разность текущего изображения с предыдущим и последующим изображениями типов I или Р с учетом смещений отдельных фрагментов;
Изображения объединяются в группы (GOP - Group Of Pictures), представляющие собой минимальный повторяемый набор последовательных изображений, которые могут декодированы независимо от других изображений в последовательности. Типичной является группа вида
(I0 В1 В2 РЗ В4 В5 Р6 В7 В8 Р9 В10 В11)(I12 В13 В14 Р15 В16 В17 Р18...)
в которой I-тип повторяется каждые полсекунды. Обратим внимание, что в изображении РЗ основная часть фрагментов сцены предсказывается на основании соответствующих смещенных фрагментов изображения I0. Собственно кодированию подвергаются только разности этих пар фрагментов. Аналогично Р6 "строится" на базе РЗ, Р9 - на базе Р6 и т.д. В то же время большинство фрагментов В1 и В2 предсказываются как полусумма смещенных фрагментов из I0 и РЗ, В4 и В5 -из РЗ и Р6, В7 и В8 - из Р6 и Р9 и т.д. В то же время В-изображения не используются для предсказания никаких других изображений. В силу зависимости изображений в процессе их кодирования меняется порядок следования. Для вышеприведенной последовательности он будет следующим:
I0 РЗ В1 В2 Р6 В4 В5 Р9 В7 В8 I12 В10 В11 Р15 В13 В14 Р18 В16 В17... .
Ясно, что точность кодирования должна быть максимальной для I, ниже - для P минимальной - для В. Установлено, что для типичных сцен хорошие результаты достигаются при отведении числа бит для I в 3 раза больше, чем для Р, и для Р в 2-5 раз больше, чем для В. Эти отношения уменьшаются для динамичных сцен и увеличиваются для статичных.
Отдельные изображения состоят из макроблоков. Макроблок - это основная структурная единица фрагментации изображеия. Он соответствует участку изображения размером 16х16 пикселей. Именно для них определяются вектора смещения относительно I - или Р-изображений. Общее число макроблоков в изображении - 396. Для повышения устойчивости процесса восстановления изображений к возможным ошибкам передачи данных последовательные макроблоки объединяют в независимые друг от друга разделы (slices), максимальным числом до 396. В предельном случае "чистой" передачи на изображение приходится всего один раздел из 396 макроблоков. В свою очередь каждый макроблок состоит из шести блоков, четыре из которых несут информацию о яркости Y, а по одному определяют цветовые U- и V-компоненты. Каждый блок представляет собой матрицу 8х8 элементов. Блоки являются базовыми структурными единицами, над которыми осуществляются основные операции кодирования, в том числе выполняется дискретное косинусное преобразование (DCT - discrete cosine transform) и квантование полученных коэффициентов.
Упрощенно процесс MPEG-кодирования сводится к следующему. На этапе предварительной обработки входной видеосигнал оцифровывается и форматируется согласно заданному размеру 352х288 и цветовой выборке 2:1 (на каждые 2 Y-отсчета по горизонтали и вертикали приходится по одному U- и V-отсчету). После этого кодер делает выбор структуры группы (она может меняться в процессе кодирования в зависимости от содержания видео и разрешенного объема передаваемой информации), задает типы всех изображений и по необходимости меняет их последовательность. Далее для I -изображений он осуществляет DCT каждого макроблока. Для Р- и В-изображений он сначала оценивает вектора смещения - по одному на макроблок для Р (для предсказания вперед) и по 2 для В (вперед и назад). Затем, сравнивая число бит, необходимое для кодирования макроблока как в случае предсказания его значений на основе соответствующих макроблоков из предыдущего (для Р) и последующего (для В) изображений, так и без оного предсказания, кодер по каждому макроблоку принимает отдельное решение и осуществляет DCT - либо собственных значений макроблока, либо его разностных (относительно предсказанных) значений. После этого полученные коэффициенты DCT подвергаются квантованию с переменным шагом - более высоким частотам задается больший шаг. В результате большинство высокочастотных коэффициентов принимают нулевые значения, что позволяет математически эффективно их кодировать. Изменяя масштаб квантования, кодер реализует компромисс между качеством кодированных изображений (тем хуже, чем больше масштаб) и объемом передаваемой информации (тем меньше, чем больше масштаб). Это особенно важно для систем с фиксированной пропускной способностью. Поскольку в видео информационная насыщенность изображений меняется со временем, то кодер должен постоянно отслеживать реальный объем передаваемых данных и оперативно менять масштаб квантования (и, конечно, значения других параметров). Безусловно, этот процесс не может быть абсолютно точным, поэтому кодер (как и декодер) обладает буфером памяти, в который предварительно записывается переменный поток данных, и из которого этот поток передается с заданной скоростью. Чем больше размер этого буфера, тем большие изменения объема данных на изображение относительно среднего уровня допускаются. В стандарте буфер установлен как 327 680 бит (40 Кб), что при скорости 200 Кб/с соответствует 0,2 с. Таким образом, кодер должен следить за реальным состоянием буфера, не допуская его переполнения (часть данных будет потеряна) или не дополнения (качество передаваемых изображений будет неоправданно низким). В результирующем потоке кодер должен передавать как собственно математически закодированные значения коэффициентов DCT, так и выбранные значения всех параметров кодировки (вид матрицы квантования и ее масштаб, тип предсказания макроблока и значения векторов смещения, структуру группы и т.д.). Декодеру остается сравнительно простая работа - принять в буфер и расшифровать (шифр задан стандартом) полученную информацию, осуществить обратные преобразования и отобразить полученное видео на мониторе.
Вышеизложенное объясняет, почему при наличии множества недорогих MPEG-проигрывателей MPEG-кодеры до сих пор остаются дорогими и элитарными устройствами. Теперь рассмотрим более подробно некоторые важные вопросы MPEG-кодирования.

4.6.2 Предварительная обработка

В соответствии с принятым стандартом CCIR 601 обычно используется YUV-представление цифрового изображения с разрешением 720х576 по Y и 360х576 по U и V (4:2:2), при этом значения всех отсчетов задаются целыми числами из интервала 0-255. Попутно отметим, что такое разрешение определяет неквадратный пиксел с аспектным отношением 0.9375. MPEG-стандарт не ограничивает метода перехода от данного разрешения к требуемому - 352х288 по Y и 176х144 по U и V (4:1:1). Для примера можно привести следующий простой, но надежный способ. Сначала выбирается одно из полей полного кадра, т.е. выбрасывается его каждая вторая строка. Затем для Y производится построчное сглаживание фильтром вида (-29,0,88,138,88,0,-29)//256 и выборка каждого второго значения сглаженных строк. В результате мы приходим к матрице 360х288, уже из которой выбрасываются первые и последние четыре столбца. Аналогично поступают для U и V, но после выбора одного полукадра осуществляют как строчную, так и вертикальную выборки с сглаживающим фильтром вида (1,3,3,1)//8 - "ставят" по одному новому отсчету между двумя старыми. В результате получают, что на каждый фрагмент изображения размером 16х16 (макроблок) приходится 16х16 Y-отсчетов (4 блока 8х8) и по 8х8 U- и V-отсчетов (по одному блоку).

4.6.3 Преобразование макроблоков I-изображений

Все макроблоки I-изображения являются опорными (имеют тип intra) и подвергаются независимому преобразованию. Оно начинается с DCT каждого из шести блоков макроблока. Двумерное DCT определяется как
[ Cкачайте файл, чтобы посмотреть картинку ]
суммирование отсчетов изображения f ведется по пространственным координатам х,у (от О до 7), а полученные коэффициенты F задают представление изображения в частотной плоскости m,n (от 0 до 7). DCT является обратимым - по распределению F обратным преобразованием однозначно восстанавливается f. По физическому смыслу DCT сводится к представлению изображения в виде суммы (ко)синусоидальных гармоник (волн), значения F определяют амплитуды этих гармоник, а координаты m,n - их частоты. При этом значение F(0,0) пропорционально среднему уровню в блоке и может достигать величины 2040 (8*255). В то же время высокие частоты "отвечают" за передачу "тонких" деталей изображения. Поскольку, как правило, эти детали относительно среднего уровня слабо выделены, то и высокочастотные амплитуды имеют небольшие значения относительно F(0,0).
Следующим необходимым шагом преобразования является квантование коэффициентов DCT и сведение их к диапазону (-255,255). Установлено, что глаз более чувствителен к ошибкам передачи изменений значений на больших площадях, т.е. на низких частотах. Это требует использовать для них более точное квантование. Конкретная матрица квантования может задаваться кодером, но по умолчанию MPEG предполагает использование следующей эффективной матрицы, заимствованной из JPEG-стандарта:

8 16 19 22 26 27 29 34
16 16 22 24 27 29 34 37
19 22 26 27 29 34 34 38
22 22 26 27 29 34 37 40
22 26 27 29 32 35 40 48
26 27 29 32 35 40 48 58
26 27 29 34 38 46 56 69
27 29 35 38 46 56 69 83

Конкретный шаг квантования для каждой частоты определяется как произведение соответствующего значения матрицы и масштаба квантования. Кодер по необходимости может менять масштаб квантования от макроблока к макроблоку, но по умолчанию будет использоваться его предыдущее значение. Допустимый диапазон изменений масштаба - от 1 до 31. Таким образом, шаг квантования может меняться в широких пределах. Исключением является квантование значения F(0,0), для которого стандартом с целью повышения точности передачи средних уровней в блоках устанавливается фиксированный шаг, равный 8. Более того, в силу заметной корреляции средних уровней соседних блоков (для остальных коэффициентов это не так) квантованию подвергаются их разности (независимо для Y, U и V блоков). При этом исходные (опорные) значения для формирования разностей и последующего восстановления по ним в начале каждого раздела макроблоков установлены как 1024. Для передачи последовательности разностей эффективным оказывается метод Хаффмана (Huffman), который наиболее часто встречаемым значениям присваивает наиболее короткий битовый код. Таблица соответствия определяется стандартом.
Что касается остальных коэффициентов, то из вышеизложенного понятно, что большинство из них после квантования окажутся равными нулю. Характерный пример полученной матрицы значений приведен ниже.

1 0 0 0 0 0 0 0
2 -3 0 0 0 0 0 0
4 -5 0 0 0 0 0 0
1 0 0 13 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0

Следующий шаг сводится к преобразованию матрицы в одномерную последовательность путем зигзаг-сканирования.

1 2 6 7 15 16 28 29
3 5 8 14 17 27 30 43
4 9 13 18 26 31 42 44
10 12 19 25 32 41 45 54
11 20 24 33 40 46 53 55
21 23 34 39 47 52 56 61
22 35 38 48 51 57 60 62
36 37 49 50 58 59 63 64

Для нее эффективным методом математического кодирования оказывается RLE (Run Legnth Encoding), который для передачи длинной цепочки нулей задает только ее начало и длину.

4.6.4 Преобразование макроблоков Р-изображений

Макроблоки Р-изображений могут быть различных типов - опорные (intra), кодируемые согласно уже описанной схеме, и предсказываемые (predicted), у которых формируются и аналогичным образом преобразуются разности текущего макроблока и подобного ему (смещенного) макроблока из предыдущего I- или Р-изображения. Важно отметить, что опорные блоки обычно требуют для своего кодирования существенно больше информации, но и обеспечивают более высокую точность при восстановлении. Очевидно, что в основном в Р-изображениях присутствуют макроблоки второго типа.
Стандарт не ограничивает метода определения векторов смещений при поиске подобных макроблоков, но определяет диапазон их максимальных значений как ±128 при точности задания в 1 пиксел или как ±64 при точности 1/2 (но может быть меньше - задается кодером). Наиболее точный метод -полный поиск (full search) - сводится к расчету ошибки предсказания (например, среднее значение абсолютной величины разности Y-отсчетов текущего макроблока и предсказанных) для всех разрешенных векторов и определения положения минимальной ошибки. Более быстрым, но достаточно точным является т.н. логарифмический метод. Он выполняется за несколько шагов, на каждом из которых рассчитываются и сравниваются по 9 значений ошибки в узловых точках с постепенным сужением области поиска и повышением точности предсказания.
Ниже представлен соответствующий пример подобного поиска за 3 шага, где цифры соответствуют его номерам шагов.

[ Cкачайте файл, чтобы посмотреть картинку ]

Здесь размер шага меняется как 4->2>1, а диапазон возможных значений вектора равен (7,7). Известен также метод телескопического поиска, рекомендуемый для последовательных В-изображений и основанный на использовании в качестве стартовой оценки вектора смещения текущего макроблока значение вектора из предыдущего В-изображения для этого же макроблока. Важно подчеркнуть, что не все найденные вектора смещения будут использованы для построения (предсказания) макроблоков текущего изображения на основании соответствующих макроблоков из предыдущего I - или Р-изображения. Может оказаться, что разница между ошибкой подобного оптимального предсказания и ошибкой предсказания, полученной при нулевом смещении, несущественна (~1), а потому целесообразно пренебречь смещением (экономия на информации о векторе). Более того, если последняя ошибка мала сама по себе (~1), то поиск можно просто не производить. С другой стороны, даже с использованием оптимального вектора ошибка может оказаться столь значительной, что экономии объема информации, требуемого для кодирования макроблока, за счет предсказания по сравнению со случаем его непосредственного кодирования как опорного, не возникает. Для упрощенного анализа требуемых объемов можно сравнивать средние дисперсии Y-отсчетов текущего макроблока и его разности с предсказанным. При этом в случае, когда дисперсия текущего макроблока сама по себе мала (меньше 64), целесообразно кодировать данный блок как опорный даже без подобного сравнения.
Последующая схема преобразования разностных макроблоков аналогична преобразованию опорных. Единственное существенное отличие может заключаться в использовании иного вида матрицы квантования с менее выраженным подавлением высоких частот. Поскольку разности в основном несут информацию о небольших изменениях фрагментов сцены (в процессе их перемещения), то высокие частоты, ответственные за детализацию изображений, столь же важны, как и низкие. Конкретный вид матрицы задается кодером, но по умолчанию она принимается равномерной с постоянным значением 16 для всех частот включая нулевую. После квантования все DCT-коэффициенты блока могут оказаться равными нулю, а для его передачи достаточно поставить соответствующую определенную стандартом метку (флаг) и сразу перейти к следующему блоку. Для таких пропускаемых (skipped) блоков достигается самый короткий код описания. Аналогичная ситуация возникает с макроблоком, когда все его блоки имеют статус skipped, и соответствующие вектора смещения (если они должны быть определены) также равны нулю.

4.6.5 Преобразование макроблоков В-изображений

Обобщая вышеизложенные рассуждения для Р-изображений, несложно заключить, что макроблоки В-изображений могут быть следующих типов - опорные (intra), кодируемые сами по себе, предсказываемые вперед ( forward predicted) на основании предыдущего изображения, предсказываемые назад ( backward predicted) на основании последующего изображения, а также интерполируемые (interpolated) как полусумма обоих предсказаний. В данном случае кодеру предстоит наиболее сложная работа с рассмотрением множества различных вариантов и выбора наиболее эффективного из них, реализующего компромисс между длиной кода и качеством восстанавливаемого изображения. Задача облегчается тем, что ошибки этих изображений в отличие от I- и Р-типов не накапливаются, т.е. не приводят к регулярным искажениям. Более того, за счет быстрой смены изображений эти случайные ошибки менее заметны. В результате В-изображения, кодируемые по вышеописанным схемам для опорных и предсказываемых макроблоков, допускают самый короткий код.

4.6.6 Разделы макроблоков

Кратко остановимся на значении разделов (slices). Дело в том, что MPEG-стандарт предполагает передачу текущих значений многих параметров не в абсолютных величинах, а в виде разностей с предыдущими значениями. Это используется, например, при кодировании пространственных координат текущего макроблока, вектора его смещения и значения коэффициента F(0,0). В силу коррелированности этих значений формируемые разности, как правило, небольшие по величине и допускают короткий код. Но платой за это является повышенная чувствительность к ошибкам передачи разностной информации. Для повышения устойчивости и вводятся разделы, в начале которых записываются опорные (не разностные) значения этих параметров, обеспечивающие возможность их восстановления вне зависимости от ошибок передачи в предыдущем разделе. Разделы покрывают всю площадь изображения без пропусков и перехлестов, причем макроблоки каждого раздела образуют непрерывную последовательность (сканирование вдоль строк).
В заключение подчеркнем важную особенность MPEG-последовательностей - они не допускают покадрового редактирования. Действительно, в силу вышеописанной сложной зависимости изображений внесение изменений в одно из них неизбежно повлечет за собой необходимость комплексного пересчета множества параметров во всей группе. Исключением является группы, состоящие только из /-изображений. Но подобные вырожденные видеопоследовательности фактически уже реализуют не MPEG, a M-JPEG алгоритм компрессии, обсуждение которого выходит за рамки настоящего материала.

4.7 MPEG-1

По стандарту MPEG-1 потоки видео и звуковых данных передаются со коростью 150 килобайт в секунду - с такой же скоростью, как и односкоростной CD-ROM проигрыватель - и управляются путем выборки ключевых видео кадров и заполнением только областей, изменяющихся между кадрами. К несчастью, MPEG-1 обеспечивает качество видеоизображения более низкое, чем видео, передаваемое по телевизионному стандарту.
MPEG-1 был разработан и оптимизирован для работы с разрешением 352 ppl (point per line -- точек на линии) * 240 (line per frame -- линий в кадре) * 30 fps (frame per second -- кадров в секунду), что соответствует скорости передачи CD звука высокого качества. Используется цветовая схема - YCbCr (где Y - яркостная плоскость, Cb и Cr - цветовые плоскости).

Как MPEG работает:
В зависимости от некоторых причин каждый frame (кадр) в MPEG может быть следующего вида:
I (Intra) frame - кодируется как обыкновенная картинка.
P (Predicted) frame - при кодировании используется информация от предыдущих I или P кадров.
B (Bidirectional) frame - при кодировании используется информация от одного или двух I или P кадров (один предшествующий данному и один следующий за ним, хотя может и не непосредственно, см. Рис.1)

[ Cкачайте файл, чтобы посмотреть картинку ]
Рисунок 2.3

Последовательность кадров может быть например такая: IBBPBBPBBPBBIBBPBBPB...
Последовательность декодирования: 0312645...
Нужно заметить, что прежде чем декодировать B кадр требуется декодировать два I или P кадра. Существуют разные стандарты на частоту, с которой должны следовать I кадры, приблизительно 1-2 в секунду, соответствуюшие стандарты есть и для P кадров (каждый 3 кадр должен быть P кадром). Существуют разные относительные разрешения Y, Cb, Cr плоскостей (Таблица 2.2), обычно Cb и Cr кодируются с меньшим разрешением чем Y.

Таблица 2.2
Вид Формата
Отношения разрешений по горизонтали (Cb/Y):
Отношение разрешений по вертикали (Cb/Y):

4:4:4
1:1
1:1

4:2:2
1:2
1:1

4:2:0
1:2
1:2

4:1:1
1:4
1:1

4:1:0
1:4
1:4


Для применения алгоритмов кодировки происходит разбивка кадров на макроблоки каждый из которых состоит из определенного количества блоков (размер блока - 8*8 пикселей). Количество блоков в макроблоке в разных плоскостях разное и зависит от используемого формата (рисунок 2.4):

[ Cкачайте файл, чтобы посмотреть картинку ] Рисунок 2.4 - Пример для формата 4:2:0

Техника кодирования:
Для большего сжатия в B и P кадрах используется алгоритм предсказания движения (что позволяет сильно уменьшить размер P и B кадров) на выходе которого получается:
Вектор смещения (вектор движения) блока который нужно предсказать относительно базового блока.
Разница между блоками (которая затем и кодируется).
Так как не любой блок можно предсказать на основании информации о предыдущих, то в P и B кадрах могут находиться I блоки (блоки без предсказания движения).

Таблица 2.3
Вид кадра
I
P
B
Средний размер

Размер кадра для стандарта SIF (kilobit)
150
50
20
38


Метод кодировки блоков (либо разницы, получаемой при методе предсказание движения) содержит в себе:
Discrete Cosine Transforms (DCT - дискретное преобразование косинусов).
Quantization (преобразование данных из непрерывной формы в дискретную).
Кодировка полученного блока в последовательность.

DCT использует тот факт, что пиксели в блоке и сами блоки связаны между собой (т.е. коррелированны), поэтому происходит разбивка на частотные фурье компоненты (в итоге получается quantization matrix - матрица преобразований данных из непрерывной в дискретную форму, числа в которой являются величиной амплитуды соответствующей частоты), затем алгоритм Quantization разбивает частотные коэффициенты на определенное количество значений. Encoder (кодировщик) выбирает quantization matrix которая определяет то, как каждый частотный коэффициент в блоке будет разбит (человек более чувствителен к дискретности разбивки для малых частот чем для больших). Так как в процессе quantization многие коэффициенты получаются нулевыми то применяется алгоритм зигзага для получения длинных последовательностей нулей (рисунок 2.5)

[ Cкачайте файл, чтобы посмотреть картинку ]
Рисунок 2.5
Звук в MPEG:
Форматы кодирования звука деляться на три части: Layer I, Layer II, Layer III (прообразом для Layer I и Layer II стал стандарт MUSICAM, этим именем сейчас иногда называют Layer II). Layer III достигает самого большого сжатия, но, соответственно, требует больше ресурсов на кодирование.
Принципы кодирования основаны на том факте, что человеческое ухо не совершенно и на самом деле в несжатом звуке (CD-audio) передается много избыточной информации. Принцип сжатия работает на эффектах маскировки некоторых звуков для человека (например, если идет сильный звук на частоте 1000 Гц, то более слабый звук на частоте 1100 Гц уже не будет слышен человеку, также будет ослаблена чувствительность человеческого уха на период в 100 мс после и 5 мс до возникновения сильного звука). Psycoacustic (психоакустическая) модель используемая в MPEG разбивает весь частотный спектр на части, в которых уровень звука считается одинаковым, а затем удаляет звуки не воспринимаемые человеком, благодаря описанным выше эффектам.
В Layer III части разбитого спектра самые маленькие, что обеспечивает самое хорошее сжатие. MPEG Audio поддерживает совместимость Layer'ов снизу вверх, т.е. decoder (декодировщик) для Layer II будет также распознавать Layer I.
Синхронизация и объединение звука и видео, осуществляется с помощью System Stream (рисунок 2.6), который включает в себя:
Системный слой, содержащий временную и другую информацию чтобы разделить и синхронизовать видео и аудио.
Компрессионный слой, содержащий видео и аудио потоки.


[ Cкачайте файл, чтобы посмотреть картинку ]
Рисунок 2.6

Видео поток (рисунок 2.7) содержит заголовок, затем несколько групп картинок (заголовок и несколько картинок необходимы для того, что бы обеспечить произвольный доступ к картинкам в группе в независимости от их порядка).
Звуковой поток состоит из пакетов каждый из которых состоит из заголовка и нескольких звуковых кадров (audio-frame).
Для синхронизации аудио и видео потоков в системный поток встраивается таймер, работающий с частотой 90 КГц (System Clock Reference -- SCR, метка по которой происходит увеличения временного счетчика в декодере) и Presentation Data Stamp (PDS, метка насала воспроизведения, вставляются в картинку или в звуковой кадр, чтобы объяснить декодеру, когда их воспроизводить. Размер PDS сотавляет 33 бита, что обеспечивает возможность представления любого временного цикла длинной до 24 часов).


[ Cкачайте файл, чтобы посмотреть картинку ] Рисунок 2.7


Параметры MPEG-1

Параметры Аудио: 48, 44.1, 32 КГц, mono, dual (два моно канала), стерео, интенсивное стерео (объединяются сигналы с частотой выше 2000 Гц.), m/s stereo (один канал переносит сумму - другой разницу). Сжатие и скорость передачи звука для одного канала, для частоты 32 КГц представлены в таблице 2.4

Таблица 2.4
Способ кодирования
Скорость передачи kbps (килобит в сек.)
Коэффициент сжатия

Layer I
192
1:4

Layer II
128..96
1:6..8

Layer III
64..56
1:10..12


Параметры Видео: в принципе с помощью MPEG-1 можно передавать разрешение вплоть до 4095x4095x60 fps (в этих границах кадр может быть произвольного размера), но так как существует Constrained Parameters Bitstream (CPB, неизменяемые параметры потока данных; другие стандарты для MPEG-1 поддерживаются далеко не всеми декодерами) которые ограничивают общее число макроблоков в картинке (396 для скорости <= 25 fps и 330 для скорости <= 30 fps) то MPEG-1 кодируется стандартом SIF /352*240*30 - (получено урезанием стандарта CCIR-601) или 352*288*25 - (урезанный PAL, SECAM) формат 4:2:0, 1.15 MBPS (мегабит в сек.), 8 bpp (бит на точку) - в каждой плоскости/.
Существует более высокое разрешение для MPEG-1 - так называемый MPEG-1 Plus, разрешение как у MPEG-2 ML@MP (Main Level, Main Profile) - этот стандарт часто используется в Set-Top-Box для улучшения качества.

4.8 MPEG-2

В рамках стандартизации методов цифровой компрессии и мультиплексирования сигналов телевидения, звукового сопровождения и дополнительной информации в настоящее время разработаны три международных стандарта сжатия видеоданных подвижных изображений: MPEG-1, MPEG-2 и MPEG-4. Их параметры оптимизированы.
Стандарт MPEG-1 ориентирован на системы записи на компакт-диски (CD ROM) и низкоскоростные каналы передачи ТВ изображений (скорости цифрового потока 1,5 Мбит/с и меньше). При этом в стандарте MPEG-1 используется стандарт развертки с четкостью в четверо меньшей, чем в вещательном телевидении: 288 активных строк и 352 отсчета в активной части ТВ строки, для чего при кодировании сигналов ТВ систем обычной четкости производится децимация (прореживание) в два раза исходных ТВ отсчетов по вертикальным и горизонтальным направлениям ТВ растра.
Стандарт MPEG-2 был специально разработан для кодирования ТВ сигналов вещательного телевидения. Он позволяет получить полную четкость декодированного ТВ изображения, соответствующую Рекомендации 601 МККР. (При скорости передачи видеоданных 9 Мбит/с качество ТВ изображения соответствует студийному).
С принятием стандарта MPEG-2 работы по компрессии видеоданных перешли в область практической реализации. На данный момент можно назвать, по крайней мере, десяток фирм, которые выпускают для продажи кодеры и декодеры по стандарту MPEG-2. Наиболее известны из них Philips, Panasonic, Page Micro Technology, CD Communication, WegenerCommunications, Scientific-Atlanta, NTL, Segem Group и др.
В октябре 1995 г. через спутник Pan Am Sat начато 20-канальное ТВ вешание по стандарту MPEG-2, осуществляемое на территории Скандинавии, Бельгии, Нидерландов, Люксембурга, Ближнего Востока и Африки. В этой сети будет использовано более миллиона декодеров MPEG-2. На стандарт MPEG-2 ориентированы и создаваемая сейчас 100-канальная система непосредственного телевизионного вешания (НТВ) Канады, и 150-кальная система НТВ оператора спутника "Эхо-стар", а также 10-канальная система НТВ Австралии, как и системы НТВ других стран. В Российской Федерации телекомпания ВГТРК ввела в эксплуатацию четырехканальную систему НТВ по стандарту MPEG-2. Другие российские телекомпании также планируют начать НТВ по этому стандарту. Например РАО "Газпром" создает систему цифрового вещания в России по стандарту MPEG-2 с использованием спутников "Горизонт" и "Ямал". Здесь по одному стандартному каналу будет передаваться от трех до восьми ТВ программ. К созданию системы привлечены многие известные зарубежные фирмы. Вот некоторые из них: NEC, Vistek, Fuba, Scientific Atlanta и др.
Пакет стандартов MPEG предусматривает и возможность перехода к телевидению высокой четкости. Первоначально алгоритмы сжатия видеоданных сигналов ТВЧ разрабатывались в виде самостоятельного стандарта MPEG-3, однако на последующих этапах стандарт MPEG-3 был объединен со стандартом MPEG-2, после чего стандарт MPEG-3, как самостоятельный, перестал использоваться. Следующее направление - стандарт MPEG-4. В двух словах - это организация видеоконференций при передаче видеоданных по цифровым телефонным каналам. При этом используется стандарт развертки с четкостью, в четыре раза меньшей, чем в стандарте MPEG-1. Так, кадр ТВ изображения содержит 144 активные строки и 176 отсчетов ТВ сигнала в активной части строки. Этот стандарт может также использоваться в низкоскоростных системах мультимедиа.

4.8.1 Стандарт кодирования MPEG-2

Даже в рамках одного стандарта, как показывает практика, передача сигналов телевидения - и цифровое здесь не исключение, ведется на разных уровнях качества. То же самое можно сказать и о телевизионных приемниках. Жесткие, а главное узкие допусковые интервалы, не жизненны, поскольку лишают систему гибкости, приспосабливаемости к разным условиям функционирования с ориентацией на различные слои потребителей. При этом любая перспективная система должна иметь резервы для перехода на более высокие уровни качества. Эти и многие другие соображения и требования легли в основу очень важного документ: ISO/IEC 13818-2.
В этом документе определено, что стандарт MPEG-2 - это целое семейство взаимосогласованных совместимых цифровых стандартов информационного сжатия телевизионных сигналов с различной степенью сложности используемых алгоритмов.
Традиции качества ТВ изображения для вещательных систем в стандарте ISO/I ЕС 13818-2 устанавливаются введением четырех уровней для формата разложения строк ТВ изображения и пяти профилем для форматов кодирования сигналов яркости и цветности. Общая идеология построения стандарта поясняется таблицей.

Таблица 2.1
Профили




Уровни
«Простой»
4:2:2, без В кадров

1.компенсация движения
2.ДКП
«Основной»
4:2:0, без В кадров

1., 2., 3. предсказание по двум направлениям
«Масштаби-руемый»
4:2:0, с В кадрами
1., 2., 3., 4. масштаби-рование
«Специальный»
4:2:0, с В кадрами

1., 2., 3., 4.
5.разделение потоков видеоданных

«Высший»
4:2:0, с В кадрами

1., 2., 3., 4., 5.
добавлено
4:2:2,

Высокий
1152 х
1920

80


100

Высокий
1152 х
1440

60

60
80

Основной
576 х
720
15
15
15

29

Низкий
288 х
352

4
4




Расположенный в нижней части таблицы уровень называется "низким уровнем" и ему соответствует новый класс качества ТВ изображения, которое вводится в стандарте MPEG-2 - телевидение ограниченной четкости. В этом случае в кадре ТВ изображения содержится 288 активных строк (в два раза меньше, чем в телевидении обычной четкости) и каждая строка дискретизируется на 352 отсчета.
Кодирование сигналов телевидения обычной четкости выполняется в соответствии с основным уровнем, т.е. с форматом разложения на 576 активных строк в кадре, которые кодируются с использованием 720 отсчетов на строку.
Высокий-1440 и высокий-1920 предусматриваются для кодирования сигналов телевидения высокой четкости (ТВЧ). В обоих ''высоких" уровнях кадр ТВ изображения содержит 1152 активные строки (вдвое больше, чем в телевидении обычной четкости). Эти строки дискретизируются соответственно на 1440 ч или 1920 отсчетов.
В стандарте используются 5 профилей, которым соответствует 5 наборов функциональных операций по обработке (компрессии) видеоданных. Некоторые из теоретически возможных наборов функциональных операций по компрессии видеоданных на этапе создания стандарта не были включены в таблицу. Они могут быть введены и стандартизованы в дальнейшем если будет доказана их необходимость или полезность.
Профиль, в котором используется наименьшее число функциональных операций по компрессии видеоданных, назван простым профилем. В нем при компрессии видеоданных используется компенсация движения изображения и гибридное дискретно-косинусное преобразование. Следующий профиль назван основным профилем. Он содержит все функциональные операции шестого профиля и одну новую: предсказание по двум направлениям. Эта новая операция, естественно, повышает качество ТВ изображения.
Следующий за основным назван профилем с масштабируемым отношением сигнал/шум. Термин «масштабирование», в данном случае, означает возможность обмена одних показателей системы на другие. Этот профиль к функциональным операциям основного профиля добавляет новую - масштабирование. Основная идея - повышение устойчивости цифрового телевидения и сохранение работоспособности при неблагоприятных условиях приема. Операция масштабирования позволяет в рассматриваемом случае повысить устойчивость системы за счет некоторого снижения требований к допустимому уровню отношения сигнал/шум в воспроизводимом ТВ изображении.
При масштабировании поток видеоданных разделяют на две части. Одна из них несет наиболее значимую часть информации - ее называют основным сигналом. Вторую часть, несущую менее значимую информацию, называют дополнительным сигналом. Декодирование только одного основного сигнала позволяет получить ТВ изображение с пониженным отношением сигнал/шум. Одновременное декодирование основного и дополнительного сигналов повышает отношение сигнал/шум до исходного значения.
И все же, что можно извлечь из идеи деления потока данных на более и менее значимые части? А все дело в защите системы от ошибок. Помехоустойчивое кодирование требует введения дополнительных бит, что повышает общий поток информации. Задача упрощается, когда более мощная защита применяется только к части информации и тем самым соблюдается разумный баланс между уровнем потока видеоданных и степенью их зашиты. При неблагоприятных условиях приема (например, при низкой напряженности радиополя, при приеме на комнатную антенну и т.п.) сохраняется возможность устойчивого декодирования более защищенного основного сигнала, а неустойчиво воспринимаемый дополнительный сигнал просто отключается. Как уже сказано, это ведет к росту уровня шума, зато система остается работоспособной.
Не так уж редки ситуации, когда сигналы приходится передавать по каналам с ограниченной пропускной способностью. Деление потока видеоданных на два, позволяет использовать и "плохие" каналы, ограничивая передачу основным сигналом.
Следующий, четвертый профиль назван специально масштабируемым профилем. Здесь, естественно, сохранены все операции предшествующего профиля и добавлена новая - разделение потока видеоданных по критерию четкости ТВ изображения. Этот профиль обеспечивает переходы между ныне действующими системами и телевидением высокой четкости. С этой целью видеоданные сигнала ТВЧ разделяются на три потока. Первый - это основной (значимый) поток видеоданных, например, по стандарту разложения на 625 строк. Второй поток несет дополнительную информацию об изображении с числом строк до 1250. Одновременное декодирование первого и второго потоков видеоданных позволяет получить телевизионное изображение высокой четкости, но с пониженным отношением сигнал/шум. В третьем потоке сосредоточена менее значимая информация, его декодирование позволяет повысить отношение сигнал/шум в видеоканале до уровня, принятого в ТВЧ. Обычно первый поток видеоданных, представляющих сигнал 625-строчного ТВ, - это 6 Мбит/с, дополняющий его до ТВЧ - 6 Мбит/с, а повышающий отношение сигнал/шум до уровня, когда шумы визуально незаметны -12 Мбит/с.
В рассмотренных четырех профилях при кодировании сигналов яркости и цветности используется формат представления видеоданных 4:2:0, в котором число отсчетов сигналов цветности по сравнению с сигналом яркости уменьшается в два раза не только по горизонтальным, но и по вертикальным направлениям. Следующий, пятый профиль называется высшим профилем, и он включает в себя все функциональные операции специального профиля 4:2:2, при котором число отсчетов сигналов цветности в вертикальных направлениях остается тем же, что и у сигнала яркости (рисунок 2.1).


Щ Щ Щ Щ Щ О Щ О
Щ Щ Щ Щ 4:4:4 Щ О Щ О 4:2:2
Щ Щ Щ Щ Щ О Щ О
Щ Щ Щ Щ Щ О Щ О

Щ О Щ О Щ О О О
О О О О 4:2:0 Щ О О О 4:1:1
Щ О Щ О Щ О О О
О О О О Щ О О О


Щ - яркостный и цветоразностный сигнал, О – яркостный сигнал

Рисунок 2.1 – Форматы представления видеоданных

Приведенные в таблице пять профилей и четыре уровня образуют двадцать возможных комбинаций видеосигнала, из которых, вероятнее всего, только одиннадцать будут полезными или необходимыми. Для этих комбинаций (согласованные точки) в таблице указаны максимальные значения скорости передачи видеоданных. Комбинации, которые сегодня не вызывают интереса, в стандарте MPEG-2, пока, не нормированы и в таблице отмечены крестами.
Для всех стандартизованных точек указаны максимальные потоки видеоданных, которые позволяют получить ТВ изображение, свободное от каких-либо дефектов. В иных случаях они могут проявиться в процессах кодирования/декодирования видеосигнала. Используемые в конкретных кодеках потоки видеоданных могут быть меньше (в несколько раз) указанных значений. Выбор уровня компрессии и, в конечном итоге, уровня потока зависит от допустимой степени искажений ТВ изображения.
Таким образом, стандарт MPEG-2 позволяет гибко менять скорость передачи видеоданных в очень широки пределах. Надо заметить, системы кодирования стандарта МРЕG-2 могут работать как с чересстрочной так и с прогрессивной развертками, при частоте полей 50 или 60 Гц и т. д. Для каждой стандартизованной точки таблицы оговорено число отсчетов сигнала яркости на активной части строки. Рассмотренные комбинации параметров информационного кодирования пригодны для работы различными цифровыми трактами и накопителями (записывающими устройствами).
Стандарт MPEG-2 принципиально нацелен в будущее, все богатство упомянутых выше комбинаций станет работать, хотя и скоро, но не сейчас. Так, промышленность готова и будет выпускать в этом году ТВ приемники только одной системы кодирования: "Основной уровень - Основной профиль" с чересстрочным разложением изображения на 625 строк. Эта система принята для первого поколения цифровых телевизоров для непосредственного ТВ приема со спутников, работающих в диапазоне 11/12 ГГц, и кабельной сети распределения.
Сказанное не означает, что массовый выпуск бытовых телевизоров для иных профилей и уровней, пока и до лучших времен, закрыт. Любая вещательная организация вправе использовать систему нового уровня кодирования. Просто следует публично заявить о намерениях и начать "переговорный процесс" с возможными изготовителями соответствующих телевизоров. Следует добавить, что при реализации системы по конкретному уровню/профилю необходимо пронормировать и поток видеоданных, который не должен превышать максимальные значения скоростей, указанные в стандартизованных точках (см. табл.). Если в системе планируется использовать несколько скоростей передачи видеоданных, следует указать максимальную из них.

4.8.2 Компрессия видеоданных

Телевизионный сигнал, как известно, избыточен. Различают статистическую избыточность, избыточность по восприятию, структурную и спектральную избыточность. По теории вероятностей избыточность является следствием определенных корреляционных связей. Корреляция означает, что некоторый элемент изображения более или менее существенно зависит от соседей в пространстве и во времени.
Под статистической избыточностью понимают корреляционные связи между соседними (по вертикали и горизонтали) отсчетами ТВ сигнала. Сразу же надо подчеркнуть, что снижение избыточности в этом случае до определенных пределов обратимо, т. е. без потерь информации. Примером такого "беспроигрышного" кодирования служит предсказание на основе дискретно-косинусного преобразования. Можно назвать и другие разностные методы.
Избыточность по восприятию связана с особенностями зрения человека. Например, цветовое разрешение нашего зрения ниже яркостного. Эта особенность учтена во всех стандартных аналоговых системах цветового кодирования. В NTSC. PAL, SECAM цветовое разрешение существенно пониже-)НО по отношению к яркостному. То же самое зафиксировано в цифровом стандарте 4:2:2, где, по определению, две цветоразностные компоненты представлены таким же по объему информационным массивом, что и один яркостный сигнал. Учитывая эту особенность нашего зрения по восприятию мелких деталей цветного изображения, можно в несколько раз сократить полосу частот при передаче и кодировании сигналов цветности.
Структурная избыточность - итог особенностей стандарта разложения или, по иному, преобразования изображения в ТВ сигнал. В нем, например, периодически передаются неизменные по форме элементы сигнала: гасящие импульсы строк и полей. В цифровом ТВ сигнале нет необходимости передавать эти импульсы по каналу связи, т.к. они могут быть восстановлены в декодере по опорным сигналам синхронизации. Устранение из состава информационного ТВ сигнала гасящих импульсов строк и полей снижает скорость передачи видеоданных примерно на 23%. Естественно, эта особенность сигнала учтена в стандарте MPEG-2.
Спектральная избыточность проявляется как результат излишне высокой частоты дискретизации. В частности, принятая ортогональная структура дискретизации ТВ изображения в общем случае не является оптимальной в частотном пространстве. Используя интерполяцию и передискретизацию определенным образом выбранных групп отсчетов ТВ сигнала, можно, в принципе, видоизменить спектральный состав и снизить частоту дискретизации. Такая обработка обычно необратима и, как правило, ведет к некоторому снижению качества восстановленного ТВ изображения. В стандарте MPEG-2 этот вид избыточности не устраняется.
Итак, в MPEG-2 применены известные, давно апробированные методы сокращения избыточности. Вместе с ними использованы и новые подходы. В особенности это относится к совокупности согласованных алгоритмов сокращения статистической избыточности. Здесь особо эффективными оказались два метода: кодирование ТВ отсчетов с предсказанием и дискретно-косинусное преобразование
Кодирование с предсказанием реализуется с помощью дифференциальной импульсно-кодовой модуляции (часто используется абревиатура ДИКМ). При кодировании с предсказанием вычисляется разность между истинным и предсказанным значением отсчета. Затем разность квантуется по уровню. От точности предсказания зависит среднее число бит, необходимых для передачи разностной информации. Предсказание может быть экстраполяционным. В этом случае (его часто называют предсказанием вперед) по предшествующим значениям отсчетов ТВ сигнала оцениваются последующие отсчеты. Интерполяционное (двунаправленное) предсказание означает, что оценка среднего по положению отсчета ТВ сигнала выполняется по известным значениям предшествующих и последующих отсчетов. Такое предсказание наиболее точно оценивает текущие отсчеты. Однако за точность приходится расплачиваться возросшим объемом вычислений и соответственно памяти, необходимой при реализации. При этом эффект не окупает затраты.
Как уже отмечаюсь, предсказание выполняется по соседним с предсказываемым отсчетам, причем под соседними надо понимать отсчеты, расположенные "до и за" рассматриваемым. К ним надо добавить соседей в предшествующей и последующей строках, полях и кадрах. Таким образом, возможно построчное, межстрочное, внутриполевое, внутрикадровое, межполевое и межкадровое предсказание. Это полный набор возможных направлений корреляций. Но уже подчеркивалось, что предсказание вдоль отдельной строки по предшествующему и последующему элементу неэффективно. По этому же критерию можно отсеять и некоторые другие возможные направления.
При простейшем внутриполевом предсказании вперед предшествующий отсчет ТВ строки принимается как ожидаемый уровень последующего отсчета. Фактически это означает вычеркивание постоянной составляющей или, что тоже самое, выделение разностной информации. Такой метод предсказания особенно эффективен, когда передаются крупные, не содержащих мелких деталей, фрагменты изображения, где яркость постоянна или изменяется медленно.
Другой способ - межкадровое предсказание вперед. В этом случае текущий отсчет оценивается по отсчету с теми же координатами, но предыдущего кадра. Это очень эффективный метод предсказания для неподвижных изображений. Ситуация усложняется, когда изображение содержит движущиеся объекты или изменятся в целом. В этом случае отсчеты, принадлежащие однотипным элементам изображения от кадра к кадру будут смещаться. Возникает разностная информация, даже если в остальном никаких изменений не происходит. Это можно ослабить, если ввести компенсацию движения. Для этого необходимо определить векторы перемещения движущихся частей изображения при последовательном переходе от кадра к кадру. Векторы движения позволяют определить положение кодируемого отсчета в новом кадре (скомпенсировать его перемещение) и, таким образом, сохранить высокую точность предсказания.

4.8.3 Кодируемые кадры

Базовым объектом кодирования в стандарте MPEG-2 является кадр ТВ изображения. Это неслучайно и обеспечивает преемственность со стандартом JPEG, принципиально ограничивающимся внутрикадровым кодированием. При этом очевидно, что для ТВ сигналов, в которых смешаны различные сюжеты с разными типами движений «от ничего до многого» простое предсказание, в принципе, не обеспечит высокую эффективность. По этой причине в стандарте используются три вида предсказаний: внутрикадровое и межкадровое предсказание вперед с компенсацией движения, межкадровое двунаправленное предсказание также с компенсацией движения.
Так называемые I кадры обрабатываются только с применением внутри кадрового предсказания. Обработка ведется на основе алгоритмов, подобных используемым в стандарте JPEG. Это первый этап, где сжатие видеоданных относительно невелико, но зато при восстановлении ТВ изображения оно менее всего деградирует и зависит от ошибок кодирования и передачи видеоданных по каналу связи. I кадры служат опорными при межкадровом предсказании Р и В кадров. Кодирование Р кадров выполняется с использованием алгоритмов компенсации движения и предсказания вперед по предшествующим I или Р кадрам. В Р кадрах, если сравнивать их с I кадрами, в три раза выше достижимая степень сжатия видеоданных.
Обработка видеоданных в Р кадре выполняется по макроблокам. Это квадратные матрицы 16 х 16 (отсчетов х строк). Такой макроблок обрабатывается с использованием алгоритмов компенсации движения и предсказания вперед, пока в блоке не появится новый объект. С этого момента процесс кодирования переключается на алгоритмы, используемые в I кадрах, т. е. на внутрикадровое предсказание. Р кадры являются опорными для последующих Р или В кадров. Отметим, что необходима высокая точность восстановления исходного изображения при декодировании опорных Р кадров. Дело в том, что ошибки опорного кадра распределяются по всем кадрам, связанным с опорным.
Алгоритмы кодирования В кадров зависят от характера ТВ изображения. Предусмотрено четыре способа кодирования. В одном применяется компенсация движения и предсказание вперед по ближайшим предшествующим опорным I или Р кадрам, в другом - компенсация движения и обратное предсказание по ближайшим последующим I или Р кадрам. Обратное предсказание используется в тех случаях, когда в кодируемом В кадре появляются новые объекты изображения. Третий алгоритм - компенсация движения и двунаправленное предсказание, при котором опорными являются предшествующий или последующий I или Р кадры. И, наконец, это внутрикадровое предсказанием без компенсации движения. Такое кодирование нужно при резкой смене передаваемых сюжетов, а также при больших скоростях перемещения объектов ТВ изображения. С В кадрами связано наиболее глубокое сжатие видеоданных. Поскольку высокая степень сжатия снижает точность восстановления исходного ТВ изображения, В кадры не используются в качестве опорных. Ошибки при их декодировании не распределяются по другим кадрам.
Очевидно, что точность кодирования должна быть максимальной для I кадров, ниже для Р кадров и минимальной для В кадров.
Типичным является следующий порядок кодирования I, P, В кадров: В кодере вырабатываются следующие группы, состоящие из 12 чередующихся кадров: I0, В1, В2, РЗ. В4, В5, Р6, В7, В8, Р9, В10, В11,112, В13, В14, Р15ит. д., в которых кадры следу ют с интервалом: (1/25 Гц) х 12= 0,48 с.
При передаче по каналу связи порядок следования 1, Р и В кадров меняется. В декодер в начале поступают опорные I и Р кадры, без которых нельзя начать декодирование. Типичным является следующий порядок передачи I, Р, В кадров: I0, РЗ, В1,В2, Р6, В4, В5, Р9, В7, В8,112, В10, ВИ - Р15, В13 и т. д.

4.8.4 Компенсация движения

В стандарте MPEG-2 используется метод компенсации движения, основанный на макроблоках. Два смежных кадра, содержащих только активные строки сигнала яркости (576 активных строк), разбиваются на макроблоки и более крупные зоны поиска. Размеры макроблока должны быть согласованы со структурой дискретизации кадра ТВ изображения. В стандарте MPEG-2 блок – это квадратная матрица отсчетов размером 16 строк по вертикали и . 16 столбцов (отсчетов) по горизонтали. Отметим, что при таком формате блока, ТВ кадр разбивается на целое число зон. По вертикали (576 активных i строк/16) – это 36 зон, по горизонтали (704 активных отсчета/16) –44 зоны.
Зона поиска должна быть достаточно большой, чтобы быстро движущийся макроблок изображения первого кадра не вышел из зоны поиска второго кадра. Размеры зоны поиска ограничиваются объемом вычислений, которые необходимо выполнить в реальном масштабе времени. Эти размеры также должны быть согласованы с принятой структурой дискретизации ТВ кадра. Обычно, они в 4 раза больше размеров отдельного макроблока. Иными словами. размеры зоны поиска - это 64 х 64. Таким образом, в ТВ кадре создается 576/64 = 9 зон поиска по вертикали и 704/64 = 11 зон по горизонтали.
К примеру, надо определить координаты движения при предсказании вперед. Для этого берется макроблок отсчетов первого кадра и ищется его новое положение в зоне поиска второго кадра, вычисляются межкадровые разности отсчетов. Положение макроблока, при котором суммарное значение |модулей межкадровых разностей макроблока получается наименьшим, принимается за его реальное перемещение, после чего координаты вектора движения рассчитываются как смещение макроблока по вертикали и горизонтали относительно его начального положения.

4.8.5 Дискретно-косинусное преобразование

Это преобразование выполняется поблочно, для чего ТВ изображение разбивается на блоки. Каждый блок – квадратная матрица. Ее размеры: 8 отсчетов - (строк) по вертикали и 8 отсчетов по горизонтали. Таким образом, матрица содержит 8 х 8 = 64 отсчета ТВ сигнала. Она называется сигнальной матрицей. При этом в ТВ кадре создается: 576/8 = 72 зоны по вертикали и 704/8 = 88 зон по горизонтали, что в общей сложности дает: 72 х 88 = 6336 блоков, подлежащих дискретно-косинусному преобразованию ДКП) в реальном масштабе времени. В результате ДКП исходная сигнальная матрица 8 х 8 = 64 ТВ отсчетов преобразуется в матрицу частотных коэффициентов ДКП такого же размера 8 х 8 - 64.
Поскольку положение ТВ отсчетов сигнальной матрицы определяется двумя координатами, то частотные коэффициенты (С) матрицы ДКП являются функциями этих двух переменных и обозначаются двухзначными номерами. Отметим , что матрица частотных-коэффициентов ДКП уже не имеет прямой геометрической связи с положением отсчетов ТВ на ТВ растре, а представляет собой только удобную форму математической записи, при которой частотные коэффициенты ДКП можно трактовать как двумерный спектр ТВ изображения в горизонтальном и вертикальном направлениях ТВ кадра.
Спектр ДКП имеет очень важную, если ее оценивать с позиций компрессии видеоданных, особенность: основная энергия частотных составляющих этого спектра концентрируется в небольшой области около нулевых частот. Амплитуда высокочастотных составляющих или мала, или просто равна нулю. На этом и строится вся игра. Передаче подлежат частотные коэффициенты матрицы ДКП, величины которых превышают принятые пороговые значения. Коэффициенты ниже порогового значения считаются нулевыми.
Введение пороговой (нелинейной) обработки, строго говоря, ведет к потерям информации и, соответственно, к снижению качества восстановленного в декодере ТВ изображения. Однако, при разумном выборе величины порога это ухудшение окажется практически незаметным или же допустимым.
Следует отметить, что при кодировании динамический интервал коэффициентов ДКП возрастает в 8 раз. Так, при уровневом кодировании видеосигнала 8 бит его динамический интервал 0 - 255 дискретных уровней. При этом динамический интервал коэффициентов спектра ДКП составит от 0 до 2040 и от -1020 до +1020 дискретных уровней для коэффициентов постоянной и переменных составляющих ДКП, соответственно.
Кодирование коэффициентов ДКП в таком широком динамическом интервале потребует в последующих узлах кодера перехода от 8 битового к 11-битовому коду. Чтобы избежать этого, после ДКП производится масштабирование (сжатие) динамического интервала сигналов коэффициентов ДКП за счет увеличения шага квантования в 8 раз. Эта операция сводится к делению полученных в матрице значений коэффициентов ДКП на 8. Результат деления затем округляется до ближайших целых значений уровней новой шкалы квантования. Так, например, если исходное значение коэффициента ДКП было 22, то после деления на 8 и округления до ближайшего целого значения (22/8 = 2.75) новое значение будет 3. При этом новый динамический интервал составит от -255 до +255 дискретных уровней.
После выравнивания динамического диапазона коэффициенты ДКП подвергаются взвешенному квантованию для сокращения избыточности в высокочастотной области. Надо заметить, что чувствительность глаз здесь наименьшая. Точность кодирования зависит от шага квантования. Он выбирается разным для разных коэффициентов матрицы ДКП. его масштаб в процессе кодирования может меняться от 1 до 31.
Коэффициент, соответствующий постоянной составляющей ТВ сигнала, кодируется с использованием 10 бит, потому что при более грубом квантовании соседние блоки начинают отличаться по яркости. На экране они проявляются в виде шахматной структуры.
Последний алгоритм сокращения избыточности связан с кодами переменной длительности. При этом те коэффициенты ДКП, которые повторяются наиболее часто, кодируются короткими кодовыми комбинациями, а редкие значения коэффициентов - более длинными. Отметим, что в стандартах MPEG-2 и МPEG-1 применяются схожие алгоритмы сжатия видео-данных.

4.8.6 Профессиональный профиль стандарта MPEG-2

С позиций видеопроизводства самым серьезным недостатком рассмотренных выше алгоритмов кодирования является отсутствие простых способов монтажа ТВ программ из типовых групп I,Р и В кадров. Монтаж новой ТВ программы может выполняться только законченными группами I,Р и В кадров других ТВ программ. Поэтому точность[ монтажа для типовых кодеров MPEG-2 составляет 12 или 15 ТВ кадров, т. е. 0,48 или 0,6 с. Такая временная точность стыковки сюжетов разных ТВ программ считается недостаточной. Напомним, что в аналоговом телевидении точность монтажа равна одному кадру (или по времени 40 мс). Для устранения этой неприятной ситуации было предложено ввести в стандарт MPEG-2 новый профиль, который был назван профессиональным или студийным (монтажным) профилем. В этом профиле используются только I кадры. По сути речь идет о внутрикадровой компрессии, близкой к JPEG. В итоге достигается точность монтажа ТВ программ в один кадр. При этом эффективность кодирования заметно снижена, а скорость передачи видеоданных I кадров возросла до 50 Мбит/с.
Зависимость качества ТВ изображений от скорости передачи видеоданных для основного профиля (кривые 1 и 2) и разных вариантов профессионального профиля (кривые 3,4 и 5) при кодировании по стандарту MPEG-2 показаны на рис.2. При использовании низкого уровня (288 активных строк в кадре) и основного профиля (I,Р и В кадры) лучшее качество ТВ изображения достигается при скорости передачи видеоданных менее 3,5 Мбит/с - это зона 1, кривая 1 на рис. 2.
Для основного уровня (576 активных строк в кал-ре) и основного профиля (1, Р и В кадры) - наилучшее качество ТВ изображения получается при скорости передачи видеоданных в интервале от 3,5 до 15 Мбит/с - зона, кривая 2, рисунок 2.2.
Изменение качества ТВ изображения для профессионального профиля в зависимости от скорости передачи видеоданных характеризуются кривой 5 (используются только I кадры), кривой 4 (I и В кадры) и кривой 3 (I, P и В кадры).
Отметим, что параметры профессионального профиля окончательно еще не выбраны, ведутся работы по их оптимизации и стандартизации.

I, P, B кадры низкий уровень -1
Высокий уровень – 2
Профессиональный профиль и низкий уровень - 3
I, B кадры, профессиональный (4:2:2) профиль и основной уровень – 4
Только I кадры профессиональный (4:2:2) профиль и основной уровень – 5

В верхней части рисунка зоны высокого качества ТВ изображения.


Рисунок 2.2 – Качество ТВ изображения при кодировании по стандарту MPEG-2


4.9 Стандарт MPEG-4


MPEG-4 является стандартом ISO/IEC разработанным MPEG (Moving Picture Experts Group), комитетом, который разработал такие известные стандарты как MPEG-1 и MPEG-2. Эти стандарты сделали возможным интерактивное видео на CD-ROM и цифровое телевидение. MPEG-4 является результатом работы сотен исследователей и разработчиков всего мира. Разработка MPEG-4 (в ISO/IEC нотации имеет название ISO/IEC 14496) завершена в октябре 1998. Международным стандартом он стал в начале 1999. Полностью совместимый расширенный вариант MPEG-4 версия 2 был разработан к концу 1999 и стал международным стандартом в начале 2000. Работы над этим документом продолжаются. MPEG-4 предназначен для решения трех проблем:
Цифровое телевидение;
Интерактивные графические приложения (synthetic content);
Интерактивное мультимедиа World Wide Web.

4.9.1 Особенности стандарта MPEG-4

Стандарт MPEG-4 предоставляет технологии для нужд разработчиков, сервис-провайдеров и конечных пользователей.
Для разработчиков, MPEG-4 позволяет создавать объекты, которые обладают большей адаптивностью и гибкостью, чем это возможно сейчас с использованием разнообразных технологий, таких как цифровое телевидение, анимационная графика WWW и их расширения. Новый стандарт делает возможным лучше управлять содержимым и защищать авторские права.
Для сетевых провайдеров MPEG-4 предлагает прозрачность данных, которые могут интерпретироваться и преобразовываться приемлемые сигнальные сообщения для любой сети посредством стандартных процедур. MPEG-4 предлагает индивидуальные QoS-дескрипторы (Quality of Service) для различных сред MPEG-4. Точное преобразование параметров QoS для каждой из сред в сетевые значения QoS находится за пределами регламентаций MPEG-4 (оставлено на усмотрение сетевых провайдеров). Передача QoS-дескрипторов MPEG-4 по схеме точка-точка оптимизирует транспортировку данных в гетерогенных средах.
Для конечных пользователей, MPEG-4 предлагает более высокий уровень взаимодействия с содержимым объектов. Стандарт транспортировать мультимедиа данные через новые сети, включая те, которые имеют низкую пропускную способностью, например, мобильные. Описания приложений MPEG-4 можно найти на странице http://www.cselt.it/mpeg.


Стандарт MPEG-4 определяет следующее:
Представляет блоки звуковой, визуальной и аудиовизуальной информации, называемые "медийными объектами". Эти медийные объекты могут быть естественного или искусственного происхождения; это означает, что они могут быть записаны с помощью камеры или микрофона, а могут быть и сформированы посредством ЭВМ;
Описывает композицию этих объектов при создании составных медийных объектов, которые образуют аудиовизуальные сцены;
Мультиплексирование и синхронизацию данных, ассоциированных с медийными объектами, так чтобы они могли быть переданы через сетевые каналы, обеспечивая QoS, приемлемое для природы специфических медийных объектов; и
Взаимодействие с аудиовизуальной сценой, сформированной на принимающей стороне.

Кодированное представление медийных объектов

Аудиовизуальные сцены MPEG-4 формируются из нескольких медийных объектов, организованных иерархически. На периферии иерархии находятся примитивные медийные объекты, такие как:
статические изображения (например, Фон изображения),
видео-объекты (например, говорящее лицо – без фона)
аудио-объекты (например, голос данного лица);
и т.д.
MPEG-4 стандартизует число таких примитивных медиа-объектов, способных представлять как естественные, так и синтетические типы содержимого, которые могут быть 2- или 3-мерными. Кроме медиа-объектов, упомянутых выше и показанных на рис. 1, MPEG-4 определяет кодовое представление объектов, такое как:
текст и графика; говорящие синтезированные головы и ассоциированный текст, использованный для синтеза речи и анимации головы; синтезированный звук .
Медиа-объекты в его кодированной форме состоит из описательных элементов, которые позволяют обрабатывать его в аудио-визуальной сцене, а также, если необходимо, ассоциированный с ним поток данных. Важно заметить, что кодированная форма, каждого медиа-объекта может быть представлена независимо от его окружения или фона.
Кодовое представление медиа-объектов максимально эффективно с точки зрения получения необходимой функциональности. Примерами такой функциональности являются разумная обработка ошибок, легкое извлечение и редактирование объектов и представление объектов в масштабируемой форме.

Состав медийных объектов

На рисунке 2.8 объясняется способ описание аудио-визуальных сцен в MPEG-4, состоящих из отдельных объектов. Рисунок содержит составные медиа-объекты, которые объединяют примитивные медиа-объекты. Примитивные медиа-объекты соответствуют периферии описательного дерева, в то время как составные медиа-объекты представляют собой суб-деревья. В качестве примера: визуальные объекты, соответствующие говорящему человеку, и его голос объединены друг с другом, образуя новый составной медиа-объект.
Такое группирование позволяет разработчикам создавать комплексные сцены, а пользователям манипулировать отдельными или группами таких объектов.
MPEG-4 предлагает стандартизованный путь описания сцен, позволяющий:
помещать медиа-объекты, где угодно в заданной координатной системе;
применять преобразования для изменения геометрического или акустического вида медиа-объекта;
группировать примитивный медиа-объекты для того чтобы образовать составные медиа-объекты;
использовать потоки данных, чтобы видоизменять атрибуты медиа-объектов (например, звук, движущуюся текстуру, принадлежащую объекту; параметры анимации, управляющие синтетическим лицом);
изменять, интерактивно, точку присутствия пользователя на сцене (его точку наблюдения и прослушивания).
Описание сцены строится во многих отношениях также как и в языке моделирования виртуальной реальности VRML (Virtual Reality Modeling language).
[ Cкачайте файл, чтобы посмотреть картинку ]

Рисунок 4.9.1


Описание и синхронизация потоков данных для медийных объектов

Медиа-объектам может быть нужен поток данных, который преобразуется в один или несколько элементарных потоков. Дескриптор объекта идентифицирует все потоки ассоциированные с медиа-объектом. Это позволяет иерархически обрабатывать кодированные данные, а также ассоциированную медиа-информацию о содержимом (называемом “информация содержимого объекта”).
Каждый поток характеризуется набором дескрипторов для конфигурирования информации, например, чтобы определить необходимые ресурсы записывающего устройства и точность кодированной временной информации. Более тог, дескрипторы могут содержать подсказки относительно QoS, которое необходимо для передачи (например, максимальное число бит/с, BER, приоритет и т.д.)
Синхронизация элементарных потоков осуществляется за счет временных меток блоков данных в пределах элементарных потоков. Уровень синхронизации управляет идентификацией таких блоков данных (модулей доступа) и работой с временными метками. Независимо от типа среды, этот слой позволяет идентифицировать тип модуля доступа (например, видео или аудио кадры, команды описания сцены) в элементарных потоках, восстанавливать временную базу медиа-объекта или описания сцены, и осуществлять их синхронизацию. Синтаксис этого слоя является конфигурируемым самыми разными способами, обеспечивая работу с широким спектром систем.

Доставка потоков данных

Синхронизованная доставка потока данных отправителя получателю, использующая различные QoS, доступные в сети, специфицирована в терминах слоя синхронизации и доставки, которые содержат двухслойный мультиплексор (рисунок 2.9).
Первый слой мультиплексирования управляется согласно спецификации DMIF (Delivery Multimedia Integration Framework). Это мультиплексирование может быть реализовано определенным в MPEG мультиплексором FlexMux, который позволяет группировать элементарные потоки ES (Elementary Streams) с низкой избыточностью. Мультиплексирование на этом уровне может использоваться, например, для группирования ES с подобными требованиями по QoS, чтобы уменьшить число сетевых соединений или значения задержек.
Слой "TransMux" (Transport Multiplexing) на рисунке 2.9 моделирует уровень, который предлагает транспортные услуги, удовлетворяющие требованиям QoS. MPEG-4 специфицирует только интерфейс этого слоя, в то время как остальные требования к пакетам данных будут определяться транспортным протоколом. Любой существующий стек транспортных протоколов, например, (RTP)/UDP/IP, (AAL5)/ATM, или MPEG-2 Transport Stream поверх подходящего канального уровня может стать частным случаем TransMux. Выбор оставлен за конечным пользователем или серис-провайдером, и позволяет использовать MPEG-4 с широким спектром операционного окружения.
[ Cкачайте файл, чтобы посмотреть картинку ]

Рисунок 4.9.2 – Модель системного слоя MPEG-4

Использование мультиплексора FlexMux является опционным и, как показано на рисунке 2.9, этот слой может быть пустым, если нижележащий TransMux предоставляет все необходимые функции. Слой синхронизации, однако, присутствует всегда. С учетом этого возможно:
идентифицировать модули доступа, транспортные временные метки и эталонную временную информацию, а также регистрировать потерю данных.
опционно выкладывать данные от различных элементарных потоков в потоки FlexMux
передавать управляющую информацию:
индицировать необходимый уровень QoS для каждого элементарного потока и потока FlexMux;
транслировать данные требования QoS в действительные сетевые ресурсы;
ассоциировать элементарные потоки с медиа-объектами
передавать привязку элементарных потоков к FlexMux и TransMux каналам

Взаимодействие с медийными объектами

Пользователь видит сцену, которая сформирована согласно дизайну разработчика. В зависимости от степени свободы, предоставленной разработчиком, пользователь имеет возможность взаимодействовать со сценой. Пользователю могут быть разрешены следующие операции:
изменить точку наблюдения/слушания на сцене;
перемещать объекты по сцене;
вызывать последовательность событий путем нажатия кнопки мыши на определенных объектах, например, запуская или останавливая поток данных;
выбирать предпочтительный язык, когда такой выбор возможен;

Менеджмент и идентификация интеллектуальной собственности

Важно иметь возможность идентифицировать интеллектуальную собственность в MPEG-4 медиа-объектах. Полный перечень требований для идентификации интеллектуальной собственности можно найти на базовой странице MPEG в разделе Management and Protection of Intellectual Property’.
MPEG-4 включает в себя идентификацию интеллектуальной собственности путем запоминания уникальных идентификаторов, которые выданы международными системами нумерации (например ISAN, ISRC, и т.д. [ISAN: International Audio-Visual Number, ISRC: International Standard Recording Code]). Эти числа могут использоваться для идентификации текущего владельца прав медиа-объекта. Так как не все содержимое идентифицируется этим числом, MPEG-4 версия 1 предлагает возможность идентификации интеллектуальной собственности с помощью пары ключевых значений (например:”композитор“/”John Smith“). Кроме того, MPEG-4 предлагает стандартизованный интерфейс, который тесно интегрирован с системным слоем для людей, которые хотят использовать системы, контролирующие доступ к интеллектуальной собственности. С этим интерфейсом системы контроля прав собственности могут легко интегрироваться со стандартизованной частью декодера.

4.9.2 Основные функции в MPEG-4

DMIF

DMIF поддерживает следующие функции:
Прозрачный интерфейс MPEG-4 DMIF-приложения независящий оттого, является ли партнер удаленным интерактивным или локальной запоминающей средой.
Контроль установления каналов FlexMux
Использование однородных сетей между интерактивными партнерами: IP, ATM, мобильные, PSTN, узкополосные ISDN.

Системы

Как объяснено выше, MPEG-4 определяет набор алгоритмов улучшенного сжатия для аудио и видео данных. Потоки данных (Elementary Streams, ES), которые являются результатом процесса кодирования, могут быть переданы или запомнены независимо. Они должны быть объединены так, чтобы на принимающей стороне возникла реальная мультимедийная презентация.
Системные части MPEG-4 обращаются к описаниям взаимодействий между аудио и видео компонентами, которые образуют сцену. Эти взаимодействия описаны на двух уровнях.
Двоичный формат для сцен BIFS (Binary Format for Scenes) описывает пространственно-временные отношения объектов на сцене. Зрители могут иметь возможность взаимодействия с объектами, например, перемещая их на сцене или изменяя свое положение точки наблюдения в 3D виртуальной среде. Описание сцены предоставляет широкий набор узлов для композиционных 2-D и 3-D операторов и графических примитивов.
На нижнем уровне, Дескрипторы объектов OD (Object Descriptors) определяют отношения между элементарными потоками, имеющими отношение к конкретному объекту (например, аудио- и видео-потоки участников видеоконференции). OD предоставляют также дополнительную информацию, такую как URL, необходимые для доступа к элементарным потокам, характеристики декодеров, нужных для их обработки, идентификация владельца авторских прав и пр.
Некоторые другие особенности работы системы MPEG-4:
Интерактивно, включая: взаимодействие клиент-сервер; общая модель событий или отслеживание действий пользователя; общая обработка событий и отслеживание взаимодействий объектов на сцене пользователем или с помощью событий, генерируемых на сцене.
Средство объединения большого числа потоков в один общий поток, включая временную информацию (мультиплексор FlexMux).
Средство для запоминания данных MPEG-4 в файле (файловый формат MPEG-4, MP4’)
Интерфейсы для различных терминалов и сетей в виде Java API (MPEG-J)
Независимость транспортного уровня.
Текстовые презентации с международной лингвистической поддержкой, выбор шрифта и стиля, согласование времени и синхронизация.
Инициализация и непрерывное управление буферами приемных терминалов. Идентификация временной привязки, синхронизация и механизмы восстановления.
Наборы данных, включающие идентификацию прав интеллектуальной собственности по отношению к медиа-объектам.




Аудио-система

MPEG-4 аудио предлагает широкий перечень приложений, которые покрывают область от понятной речи до высококачественного многоканального аудио, и от естественных до синтетических звуков. В частности, он поддерживает высокоэффективную презентацию аудио объектов, состоящих из:
Речь: Кодирование речи может производиться при скоростях обмена от 2 кбит/с до 24 кбит/с. Низкие скорости передачи, такие как 1.2 кбит/с, также возможны, когда разрешена переменная скорость кодирования. Для коммуникационных приложений возможны малые задержки. Когда используются средства HVXC, скорость и высота тона могут модифицироваться пользователем при воспроизведении. Если используются средства CELP, изменение скорости воспроизведения может быть реализовано с помощью дополнительного средства.
Синтезированная речь: TTS-кодировщики с масштабируемой скоростью в диапазоне от 200 бит/с до 1.2 кбит/с которые позволяют использовать текст или текст с интонационными параметрами (вариация тона, длительность фонемы, и т.д.), в качестве входных данных для генерации синтетической речи. Это включает следующие функции.
Синтез речи с использованием интонации оригинальной речи
Управление синхронизацией губ и фонемной информации.
Трюковые возможности: пауза, возобновление, переход вперед/назад.
Международный язык и поддержка диалектов для текста (т.е. можно сигнализировать в двоичном потоке, какой язык и диалект следует использовать)
Поддержка интернациональных символов для фонем.
Поддержка спецификации возраста, пола, темпа речи говорящего.
Поддержка передачи меток анимационных параметров лица FAP (facial animation parameter).
Общие аудио сигналы. Поддержка общей кодировки аудио потоков от низких скоростей до высококачественных. Рабочий диапазон начинается от 6 кбит/с при полосе ниже 4 кГц и распространяется до широковещательного качества передачи звукового сигнала для моно и многоканальных приложений.
Синтезированный звук: Поддержка синтезированного звука осуществляется декодером структурированного звука (Structured Audio Decoder), который позволяет использовать управление музыкальными инструментами с привлечением специального языка описания.
Синтетический звук с ограниченной сложностью: Реализуется структурируемым аудио декодером, который позволяет работать со стандартными волновыми форматами.
Примерами дополнительной функциональности является возможность управления скоростью обмена и масштабируемость в отношении потоков данных, полосы пропускания, вероятности ошибок, сложности, и т.д. как это определено ниже.
Возможность работы при изменении скорости передачи допускает изменение временного масштаба без изменения шага при выполнении процесса декодирования. Это может быть, например, использовано для реализации функции "быстро вперед" (поиск в базе данных) или для адаптации длины аудио-последовательности до заданного значения, и т.д.
Функция изменения шага позволяет варьировать шаг без изменения временного масштаба в процессе кодирования или декодирования. Это может быть использовано, например, для изменения голоса или для приложений типа караоке. Эта техника используется в методиках параметрического и структурированного кодирования звука.
Изменение скорости передачи допускает анализ потока данных с разбивкой на субпотоки меньшей скорости, которые могут быть декодированы в осмысленный сигнал. Анализ потока данных может осуществляться при передаче или в декодере.
Масштабируемость полосы пропускания является частным случаем масштабируемости скорости передачи данных, когда часть потока данных, представляющая часть частотного спектра может быть отброшена при передаче или декодировании.
Масштабируемость сложности кодировщика позволяет кодировщикам различной сложности генерировать корректные и осмысленные потоки данных.
Масштабируемость сложности декодера позволяет заданную скорость потока данных дешифровать посредством декодеров с различным уровнем сложности. Качество звука, вообще говоря, связано со сложностью используемого кодировщика и декодера.
Аудио эффекты предоставляют возможность обрабатывать декодированные аудио сигналы с полной точностью таймирования с целью достижения эффектов смешения, реверберации, создания объемного звучания, и т.д.

Видео-система

Стандарт MPEG-4 Видео допускает гибридное кодирование естественных (пиксельных) изображений и видео вместе с синтезированными сценами (генерированными на ЭВМ). Это, например, допускает виртуальное присутствие участников видеоконференций. Видео стандарт содержит в себе средства и алгоритмы, поддерживающие кодирование естественных (пиксельных) статических изображений и видео последовательностей, а также средства поддержки сжатия искусственных 2-D и 3-D графических геометрических параметров.

Поддерживаемые форматы
Следующие форматы и скорости передачи будут поддерживаться MPEG-4 версия 1:
Скорости передачи: обычно между 5 кбит/с и 10 Mбит/с Форматы: progressive а также interlaced видео Разрешение: обычно от sub-QCIF вплоть до HDTV

Эффективность сжатия
Эффективное сжатие видео будет поддерживаться для всех скоростей обмена. Сюда входит компактное кодирование текстур с качеством, регулируемым от уровня “приемлемо” (для высоких сжатий данных) вплоть до “практически без потерь”.
Эффективное сжатие текстур для 2-D и 3-D сеток.
Произвольный доступ к видео, обеспечивающий такие функции как пауза, быстрый переход вперед или назад для записанного видео.

Функции, зависящие от содержимого (Content-Based)
Кодирование, учитывающее содержимое изображения и видео, позволяет разделить кодовое преобразование и реконструкцию видео-объектов произвольной формы.
Произвольный доступ к содержимому видео последовательности открывает возможность реализации функций пауза, быстрый переход вперед или назад для записанного видео-объектов.
Расширенное манипулирование видео последовательностями позволяет наложения естественный или синтетический текст, текстуры, изображения и видео. Примером может служить наложение текста на движущийся видео объект, когда текст движется синфазно с объектом.

Масштабируемость текстур изображений и видео
Масштабируемость сложности в кодировщике позволяет кодировщикам различной сложности генерировать корректный и осмысленный поток данных для данной текстуры, изображения или видео.
Масштабируемость сложности в декодере позволяет декодировать потоки текстур, изображений или виде декодерами различного уровня сложности. Достигаемое качество, вообще говоря, зависит от сложности используемого декодера. Это может подразумевать, что простые декодеры обрабатывают лишь часть информационного потока.
Пространственная масштабируемость позволяет декодерам обрабатывать некоторую часть общего потока, сформированного кодировщиком, при реконструкции и отображении текстур, изображений или видео-объектов при пониженном пространственном разрешении. Для текстур и статических изображений будет поддерживаться не более 11 уровней масштабируемости. Для видео последовательностей поддерживается не более трех уровней.
Временная масштабируемость позволяет декодерам обрабатывать некоторую часть общего потока, сформированного кодировщиком, при реконструкции и отображении видео при пониженном временном разрешении. Поддерживается не более трех уровней.
Масштабируемость качества позволяет разбить поток данных на несколько составляющих различной мощности так, чтобы комбинация этих составляющих могла при декодировании давать осмысленный сигнал. Разложение потока данных на составляющие может происходить при передаче или в декодере. Полученное качество, вообще говоря, зависит от числа компонент, используемых при реконструкции.

Кодирование формы и Alpha-представление
Кодирование формы будет поддерживаться, чтобы помочь описанию и композиции изображений и видео, а также видео-объектов произвольной формы. Приложения, которые используют двоичные побитовые карты изображения, служат для презентаций баз данных изображений, интерактивных игр, наблюдения, и анимации. Предлагаются эффективные методы кодирования двоичных форм. Двоичная альфа-маска определяет, принадлежит или нет пиксель объекту. Она может быть включена (on’) или выключена (off’).
Серая шкала’ или alpha’ кодирование формы
Alpha-плоскость определяет прозрачность объекта, которая не обязательно является однородной. Многоуровневые alpha-карты часто используются для затенения различных слоев последовательности изображений. Другими приложениями, которые используют при работе с изображениями ассоциированные двоичные alpha-маски, являются презентации баз данных изображений, интерактивные игры, наблюдения, и анимация. Предлагаются методики, которые позволяют эффективно кодировать двоичные и альфа-плоскости с серой шкалой изображения. Двоичная альфа-маска определяет, принадлежит ли пиксель данному объекту. Маска с серой шкалой предоставляет возможность точно определить прозрачность каждого пикселя.





Надежность в средах, подверженных ошибкам
Устойчивость к ошибкам будет поддерживаться, чтобы обеспечить доступ к изображениям и видео через широкий спектр систем памяти и передающих сред. Это включает в себя операции алгоритмов сжатия данных в среде, подверженной сбоям при низких скоростях передачи (т.e., меньше чем 64 Кбит/с).


Анимация лица
Часть стандарта, связанная с анимацией лица’, позволяет посылать параметры, которые помогают специфицировать и анимировать синтезированные лица. Эти модели не являются сами частью стандарта MPEG-4, стандартизированы только параметры.
Определение и кодирование анимационных параметров лица (модельно независимое): Позиции характерных деталей и их ориентация для определения сеток при анимации лица. Визуальные конфигурации губ, соответствующие фонемам речи. Определение и кодирование параметров описания лица (для калибровки модели): 3-D позиции характерных признаков (деталей) 3-D калибровочные сетки для анимации головы. Текстурная карта лица. Персональные характеристики. Кодирование лицевой текстуры.

Кодирование 2-D сеток с нечетко выраженной структурой
Предсказание, базирующееся на сетке, и трансфигурация анимационных текстур 2-D-формализм с регулярной сеткой и отслеживанием перемещения анимированных объектов Предсказание перемещения и отложенная передача текстуры с динамическими сетками. Геометрическое сжатие для векторов перемещения: 2-D сжатие сетки с неявной структурой и реконструкция в декодере.

4.9.3 Главные функции в MPEG-4 версия 2

Версия 2 была зафиксирована в декабре 1999. Существующие средства и профайлы из версии 1 в версии 2 не заменены; новые возможности будут добавлены в MPEG-4 в форме новых профайлов. Системный слой версии 2 обладает обратной совместимостью с версией 1.


Системы

Версия 2 систем MPEG-4 расширяет версию 1, с тем, чтобы перекрыть такие области, как BIFS-функциональность и поддержка Java (MPEG-J). Версия 2 также специфицирует формат файлов для записи содержимого MPEG-4.


Видео-системы

Натуральное видео
Видео MPEG-4 версия 2 добавляет новые возможности в следующих областях:
увеличенная гибкость объектно-ориентированного масштабируемого кодирования,
улучшенная эффективность кодирования,
улучшенная стабильность временного разрешения при низкой задержке буферизации,
улучшенная устойчивость к ошибкам,
кодирование нескольких изображений: промежуточные или стереоскопические изображения будут поддерживаться на основе эффективного кодирования нескольких изображений или видео последовательностей. Частным примером может служить кодирование стереоскопического изображения или видео путем сокращения избыточности информации за счет малого различия изображений в стереопаре.

Анимация тела
В версии 2 к анимации лица, существовавшей в версии 1, добавлена анимация тела.

Кодирование 3-D полигональных сеток
Версия 2 MPEG-4 предоставляет набор средств для кодирования многогранных 3-D сеток. Многогранные сетки широко используются для представления 3-D объектов.

Звук

MPEG-4 Аудио версия 2 является расширением MPEG-4 Аудио версия 1. В новой версии добавлены новые средства и функции, все прежние возможности и функции сохранены. Версия 2 MPEG-4 Аудио предоставляет следующие возможности:
Улучшенная устойчивость к ошибкам
Кодирование аудио, которое сочетает в себе высокое качество и малые задержки
Масштабируемость зерна изображения (масштабируемость разрешения вплоть до 1 кбит/с на канал)
Параметрическое аудио-кодирование для манипулирования звуком при низких скоростях.
Сжатие пауз в разговоре (CELP) для дальнейшего понижения потока данных при кодировании голоса.
Параметрическое кодирование речи, устойчивое к ошибкам.
Пространственная ориентация – возможность реконструировать звуковое окружение, используя метод моделирования.
Обратный канал, который полезен для настройки кодирования или масштабируемого воспроизведения в реальном времени.
Низкая избыточность транспортного механизма MPEG-4 для звука

DMIF

Основные средства, вводимые DMIF версия 2 предоставляют поддержку (ограниченную) мобильных сетей и мониторирования QoS.

Поддержка мобильных сетей
Спецификация H.245 была расширена (H.245v6), чтобы добавить поддержку систем MPEG-4; спецификация DMIF предоставляет возможность работу с сигналами H.245. Мобильные терминалы могут теперь использоваться системами MPEG-4, такими как BIFS и OD-потоки.

Мониторирование QoS
DMIF V.2 вводит концепцию мониторирования качества обслуживания (QoS). Реализуемого в сети. Интерфейс DMIF-приложения был соответственно расширен. Модель допускает до трех различных режимов мониторирования QoS: непрерывное мониторирование, контроль специфических очередей, и наблюдение за нарушениями QoS

Пользовательские команды с ACK
Модель DMIF позволяет приложениям партнеров обмениваться любыми сообщениями пользователей (поток управляющих сообщений). В DMIF V2 добавлена поддержка сообщений-откликов.

Управление информацией уровня Sync MPEG-4
V.2 улучшает модель DMIF, чтобы позволить приложениям обмениваться прикладными данными со слоем DMIF. Это добавление было введено, чтобы сделать возможным в пределах модели обмен блоками протокольных данных уровня Sync. Это комбинация чисто медийных данных (PDU) и логической информации уровня Sync. Модель подтверждает, что в пределах существующего транспортного стека существуют средства, которые перекрываются с Sync-слоем систем MPEG-4. Это случай RTP и MPEG-2 элементарных потоков пакетов PES (Packetized Elementary Steams), а также MP4-атомов в файловом формате. Во всех таких случаях очевидной реализацией DMIF является преобразование информации уровня Sync, извлеченной из этих структур, а также из SL-PDU, в однородное логическое представление заголовка пакета уровня Sync. Как следствие, введены соответствующие параметры для DAI, с учетом обеспечения их семантической независимости от транспортного стека и приложения.

DAI-синтаксис на языке СИ
DMIF V.2 вводит информативное дополнение, который предоставляет синтаксис C/C++ для прикладного интерфейса DMIF, как это рекомендуется API-синтаксисом.

4.9.4 Расширения MPEG-4 за пределы версии 2

MPEG в настоящее время работает с номером расширения версии 2, в визуальной и системной областях. Никаких работ по расширению MPEG-4 DMIF или Аудио за пределы версии 2 не проводились.

Визуальная область системы

В визуальной области подготавливается добавление следующих методик:
Масштабируемость пространственного разрешения (Fine Grain) находится на фазе голосования, с предложенными Профайлами поточного видео’ (Advanced Simple’ и Fine Grain Scalability’). Масштабируемость пространственного разрешения представляет собой средство, которое допускает небольшие изменения качества путем добавления или удаления слоев дополнительной информации. Это полезно во многих ситуациях, особенно для организации потоков, но также и для динамического (статического’) мультиплексирования предварительно закодированных данных в широковещательной среде.
Средства для использования MPEG-4 в студии. Для этих целей были приняты меры для сохранения некоторой формы совместимости с профайлами MPEG-2. В настоящее время, простой студийный профайл находится на фазе голосования (Simple Studio Profile), это профайл с кодированием только I-кадра при высоких скоростях передачи данных (несколько сот Мбит/с), который использует кодирование формы (shape coding). Ожидается добавление профайла ядра студии (Core Studio Profile) (с I и P кадрами).
Изучаются цифровые камеры. Это приложение потребует truly lossless coding, и not just the visually lossless that MPEG-4 has provided so far. A Preliminary Call for Proposals was issued in October 2000.
4.9.5 Профайлы в MPEG-4

MPEG-4 предоставляет большой и богатый набор средств для кодирования аудио-визуальных объектов. Для того чтобы позволить эффективную реализацию стандарта, специфицированы субнаборы систем MPEG-4, средств видео и аудио, которые могут использоваться для специфических приложений. Эти субнаборы, называемые профайлами’, ограничивают набор средств, которые может применить декодер. Для каждого из этих профайлов, устанавливается один или более уровней, ограничивающих вычислительную сложность. Подход сходен с MPEG-2, где большинство общеизвестных комбинаций профайл/уровень имеют вид главный_профайл @главный_уровень’. Комбинация профайл@уровень позволяет:
конфигуратору кодека реализовать только необходимый ему субнабор стандарта, проверку того, согласуются ли приборы MPEG-4 со стандартом.
Существуют профайлы для различных типов медиа содержимого (аудио, видео, и графика) и для описания сцен. MPEG не предписывает или рекомендует комбинации этих профайлов, но заботится о том, чтобы обеспечить хорошее согласование между различными областями.

Визуальные профайлы

Визуальная часть стандарта предоставляет профайлы для кодирования естественного, синтетического и гибридного типов изображений. Существует пять профайлов для естественного видео-материала:
1. Простой визуальный профайл обеспечивает эффективное, устойчивое к ошибкам кодирование прямоугольных видео объектов, подходящих для приложений мобильных сетей, таких как PCS и IMT2000.
2. Простой масштабируемый визуальный профайл добавляет поддержку кодирования временных и пространственных, масштабируемых объектов в простом визуальном профайле. Он полезен для приложений, которые обеспечивают услуги на более чем одном уровне качества, связанных с ограничениями скорости передачи данных или ресурсами декодера, такими как использование Интернет и программное декодирование.
3. Центральный визуальный профайл добавляет поддержку кодировки время-масштабируемых объектов произвольной формы в простой визуальный профайл. Он полезен для приложений, осуществляющих относительно простую интерактивность (приложения Интернет мультимедиа).
4. Главный визуальный профайл добавляет поддержку кодирования черезстрочных, полупрозрачных, и виртуальных объектов в центральном визуальном профайле. Он полезен для интерактивного широковещательного обмена (с качеством для развлечений) и для DVD-приложений.
5. N-битный визуальный профайл добавляет поддержку кодирования видео объектов, имеющих пиксельную глубину в диапазоне от 4 до 12 бит в главный визуальный профайл. Он удобен для использования в приложениях для наблюдения.
Профайлами для синтетических и синтетико-натуральных гибридных визуальных материалов являются:
6. Простой визуальный профайл для анимации лица (Simple Facial Animation) предоставляет простые средства анимации модели лица, удобные для таких приложений как аудио/видео презентации лиц с ухудшенным слухом.
7. Визуальный масштабируемый профайл для текстур (Scalable Texture Visual) предоставляет пространственное масштабируемое кодирование статических объектов изображений (текстур), полезное для приложений, где нужны уровни масштабируемости, такие как установление соответствия между текстурой и объектами игр, а также работа с цифровыми фотокамерами высокого разрешения.
8. Визуальный профайл базовых анимированных 2-D текстур (Basic Animated 2-D Texture) предоставляет пространственную масштабируемоcть, SNR- масштабируемоcть, и анимацию, базирующуюся на сетках для статических объектов изображений (текстур), а также простую анимацию объектов лица.
9. Гибридный визуальный профайл комбинирует возможность декодировать масштабируемые объекты натурального видео произвольной формы (как в главном визуальном профайле) с возможностью декодировать несколько синтетических и гибридных объектов, включая анимационные статические объекты изображения. Он удобен для различных сложных мультимедиа приложений.
Версия 2 добавляет следующие профайлы для натурального видео:
10. Профайл ARTS (Advanced Real-Time Simple) предоставляет продвинутый метод кодирования прямоугольных видео объектов устойчивый к ошибкам, использующий обратный канал и улучшенную стабильность временного разрешения при минимальной задержке буферизации. Он удобен для кодирования в случае приложений реального времени, таких как видеотелефон, телеконференции и удаленное наблюдение.
11. Центральный масштабируемый профайл добавляет поддержку кодирования объектов произвольной формы с пространственным и временным масштабированием в центральный профайл. Главная особенность этого профайла является SNR, и пространственная и временная масштабируемость для областей и объектов, представляющих интерес. Он полезен для таких приложений как Интернет, мобильные сети и широковещание.
12. Профайл ACE (Advanced Coding Efficiency) улучшает эффективность кодирования для прямоугольных объектов и объектов произвольной формы. Он удобен для таких приложений как мобильный широковещательный прием, и другие приложения, где необходимо высокая эффективность кодирования.
Профайлы версии 2 для искусственного и синтетического/натурального гибридного визуального материала:
13. Продвинутый масштабируемый профайл текстур поддерживает декодирование текстур произвольной формы и статических изображений, включая масштабируемое кодирование формы, мозаичное заполнение и противостояние ошибкам. Он полезен для приложений, требующих быстрого произвольного доступа, а также нескольких уровней масштабируемости и кодирования статических объектов произвольной формы. Примерами таких приложений могут служить просмотр статических изображений в Интернет, а также считывание через Интернет изображений, полученных из цифровых фотоаппаратов с высоким разрешением.
14. Продвинутый центральный профайл комбинирует возможность декодирования видео объектов произвольной формы (как в центральном визуальном профайле) с возможностью декодирования масштабируемых статических объектов произвольной формы (как в продвинутом масштабируемом профайле текстур.) Он удобен для различных мультимедийных приложений, таких как интерактивная передача потоков мультиимедиа через Интернет.
15. Профайл простой анимации лица и тела является супернабором профайла простой анимации лица с добавлением анимации тела.
В последующих версиях будут добавлены следующие профайлы:
16. Продвинутый простой профайл выглядит как простой, здесь он содержит только прямоугольные объекты, но он имеет несколько дополнительных средств, которые делают его более эффективным: B-кадры, компенсация перемещения ј пикселя и компенсация общего перемещения.
17. Масштабируемый профайл тонкой гранулярности допускает большое число масштабных уровней – до 8 – так что качество доставки можно легко адаптировать к условиям передачи и декодирования. Он может использоваться с простым или продвинутым простым в качестве базового уровня.
18. Простой студийный профайл является профайлом с очень высоким качеством для применения в приложениях студийного редактирования. Он работает только с I-кадрами, но он действительно поддерживает произвольные формы и большое число alpha-каналов. Возможная скорость передачи достигает 2 Гбит/c.
19. Центральный студийный профайл добавляет P-кадры к простому студийному варианту (Simple Studio), делая его более эффективным, но требующим более сложной реализации.

Аудио профайлы

Определены четыре аудио-профайла в MPEG-4 V.1:
Разговорный профайл предоставляет HVXC, который является параметрическим кодером голоса, рассчитанным на очень низкие скорости передачи, CELP узкополосным/широкополосным кодером голоса, или интерфейсом текст-голос.
Профайл синтеза предоставляет собой синтез, использующий SAOL, волновые таблицы и интерфейс текст-голос для генерации звука и речи при очень низких скоростях передачи.
Масштабируемый профайл, супер набор профайла речи, удобен для масштабируемого кодирования речи и музыки для таких сетей, как Интернет и NADIB (Narrow band Audio DIgital Broadcasting). Диапазон скоростей передачи лежит в пределах от 6 кбит/с до 24 кбит/с, при ширине полосы 3.5 и 9 кГц.
Главный профайл является расширенным супер набором всех других профайлов, содержащий средства для синтетического и естественного аудио.
Еще четыре профайла добавлено в MPEG-4 V.2:
Профайл высококачественного аудио содержит кодировщик голоса CELP и простой кодировщик AAC, содержащий систему долгосрочного предсказания. Масштабируемое кодирование может быть выполнено с помощью AAC масштабируемого объектного типа. Опционно, может использоваться синтаксис потока, устойчивый к ошибкам (ER).
Профайл аудио с низкой задержкой (Low Delay Audio) содержит HVXC и CELP кодировщики голоса (опционно использующие синтаксис ER), AAC-кодеры с низкой задержкой и интерфейс текст-голос TTSI.
Профайл натурального аудио содержит все средства кодирования натурального аудио, доступные в MPEG-4.
Профайл межсетевого мобильного аудио (Mobile Audio Internetworking) содержит AAC масштабируемые объектные типы с малой задержкой, включая TwinVQ и BSAC. Этот профайл предназначен для расширения телекоммуникационных приложений за счет алгоритмов не-MPEG кодирования речи с возможностями высококачественного аудио кодирования.

Профайлы графики

Профайлы графики определяют, какие графические и текстовые элементы могут использоваться в данной сцене. Эти профайлы определены в системной части стандарта:
Простой 2-D графический профайл предоставляется только для графических элементов средства BIFS, которым необходимо разместить один или более визуальных объектов в сцене.
Полный 2-D графический профайл предоставляет двухмерные графические функции и supports такие возможности как произвольная двухмерная графика и текст, если требуется, в сочетании с визуальными объектами.
Полный графический профайл предоставляет продвинутые графические элементы, такие как сетки и экструзии и позволяет формировать содержимое со сложным освещением. Полный графический профайл делает возможными такие приложения, как сложные виртуальные миры, которые выглядят достаточно реально.
3D аудио графический профайл имеет противоречивое на первый взгляд название, в действительности это не так. Этот профайл не предлагает визуального рэндеринга, а предоставляет графические средства для определения акустических свойств сцены (геометрия, акустическое поглощение, диффузия, прозрачность материала). Этот профайл используется для приложений, которые осуществляют пространственное представление аудио сигналов в среде сцены.

Графические профайлы сцены

Графические профайлы сцены (или профайлы описания сцены), определенные в системной части стандарта, допускают аудио-визуальные сцены только аудио, 2-мерным, 3-мерным или смешанным 2-D/3-D содержимым.
Графический профайл аудио сцены предоставляется для набора графических элементов сцены BIFS для применение исключительно в аудио приложениях. Графический профайл аудио сцены поддерживает приложения типа широковещательного аудио.
Графический профайл простой 2-D сцены предоставляется только для графических элементов BIFS, которым необходимо разместить один или более аудио-визуальных объектов на сцене. Графический профайл простой 2-D сцены допускает презентации аудио-визуального материала, допускающий коррекцию, но без интерактивных возможностей. Графический профайл простой 2-D сцены поддерживает приложения типа широковещательного телевидения.
Графический профайл полной 2-D сцены предоставляется для всех элементов описания 2-D сцены средства BIFS. Он поддерживает такие возможности, как 2-D преобразования и alpha-сглаживание. Графический профайл полной 2-D сцены делает возможными 2-D приложения, которые требуют широкой интерактивности.
Графический профайл полной сцены предоставляет полный набор графических элементов сцены средства BIFS. Графический профайл полной 2-D сцены сделает возможными приложения типа динамического виртуального 3-D мира и игр.
Графический профайл 3D аудио сцены предоставляет средства трехмерного позиционирования звука в отношении с акустическими параметрами сцены или ее атрибутами, характеризующими восприятие. Пользователь может взаимодействовать со сценой путем изменения позиции источника звука, посредством изменения свойств помещения или перемещая место слушателя. Этот профайл предназначен для использования исключительно аудио-приложениями.

Профайлы MPEG-J

Существуют два профайла MPEG-J: персональный и главный:
1. Персональный – небольшой пакет для персональных приборов.
Персональный профайл обращается к ряду приборов, включая мобильные и портативные аппараты. Примерами таких приборов могут быть видео микрофоны, PDA, персональные игровые устройства. Этот профайл включает в себя следующие пакеты MPEG-J API:
a) Сеть b) Сцена c) Ресурс

2. Главный – включает все MPEG-J API.
Главный профайл обращается к ряду приборов, включая средства развлечения. Примерами таких приборов могут служить набор динамиков, компьютерные системы мультимедиа и т.д. Он является супер набором персонального профайла. Помимо пакетов персонального профайла, этот профайл содержит следующие пакеты MPEG-J API:
a) Декодер b) Функции декодера c) Секционный фильтр и сервисная информация

Профайл дескриптора объекта

Профайл описания объекта включает в себя следующие средства:
Средство описания объекта (OD)
Средство слоя Sync (SL)
Средство информационного содержимого объекта (OCI)
Средство управления и защиты интеллектуальной собственности (IPMP)
В настоящее время определен только один профайл, который включает все эти средства. В контексте слоев для этого профайла могут быть определены некоторые ограничения, например, допуск только одной временной шкалы.

4.9.6 Верификационное тестирование: проверка работы MPEG

MPEG выполняет верификационные тесты для проверки того, предоставляет ли стандарт то, что должно быть.

4.9.6.1 Видео

Тесты эффективности кодирования

Низкие и средние скорости передачи бит (версия 1)
При испытаниях для низкой и средней скорости передачи, рассматривались последовательности кадров, которые следуют стандарту MPEG-1. (MPEG-2 будет идентичным для прогрессивных последовательностей за исключением того, что MPEG-1 немного более эффективен, так как имеет несколько меньшую избыточность заголовков). Тест использует типовую тестовую последовательность для разрешений CIF и QCIF, закодированный с идентичными условиями по скорости передачи для MPEG-1 и MPEG-4. Тест был выполнен для низких скоростей от 40 кбит/с до 768 кбит/с.
Тесты эффективности кодирования показывают полное превосходство MPEG-4 перед MPEG-1 как на низкой, так и на средней скорости передачи.

Кодирование, базирующееся на содержимом (версия 1)
Верификационные тесты для кодирования, базирующегося на содержимом, сравнивают визуальное качество кодирования object-based и frame-based. Главным соображением было гарантировать, чтобы object-based кодирование можно было поддерживать без ухудшения визуального качества. Содержимое теста было выбрано так, чтобы перекрыть широкий спектр условий моделирования, включая видео сегменты с различными типами движения и сложностью кодирования. Кроме того, условия теста были выбраны так, чтобы перекрыть низкие скорости передачи в диапазоне от 256 кбит/с до 384 кбит/с, и высокие скорости передачи в диапазоне от 512кбит/с до 1.15 Мбит/с. Результаты тестов ясно продемонстрировали, что объектно-ориентированная функциональность, предоставляемая MPEG-4, не имеет избыточности или потерь визуального качества, по сравнению с кодированием frame-based. Не существует статистически значимого различия между вариантами object-based и frame-based.

Профайл продвинутой эффективности кодирования ACE (Advanced Coding Efficiency) (версия 2)
Формальные верификационные тесты профайла ACE (Advanced Coding Efficiency) были выполнены с целью проверки, улучшают ли эффективность кодирования три новые средства версии 2, включенные в визуальный ACE профайл MPEG-4 версии 2 (компенсация общего перемещения, компенсация перемещения на четверть пикселя и адаптированное к форме преобразование DCT), по сравнению с версией 1. Тесты исследуют поведение ACE профайла и главного визуального профайла MPEG-4 версия 1 в режимах object-based и frame-based при низкой скорости передачи, frame-based при высокой скорости передачи. Полученные результаты показывают преимущество ACE профайла перед главным профайлом. Ниже приведены некоторые детали сопоставления работы этих профайлов:
Для объектно-ориентированного случая, качество, предоставляемое профайлом ACE при 256 кбит/с равно качеству, обеспечиваемому главным профайлом при скорости 384 кбит/с.
Для кадр-ориентированного случая, качество, предоставляемое профайлом ACE при 128 кбит/с и 256 кбит/с равно качеству, обеспечиваемому главным профайлом при скорости 256 кбит/с и 384 кбит/с соответственно.
Для кадр-ориентированного случая при высоких скоростях передачи, качество, предоставляемое профайлом ACE при 768 кбит/с равно качеству, обеспечиваемому главным профайлом при 1024 кбит/с.
При интерпретации этих результатов, нужно заметить, что главный профайл MPEG-4 более эффективен, чем MPEG-1 и MPEG-2.

Тесты устойчивости к ошибкам

Простой профайл (версия 1)
Устойчивость видео к ошибкам в простом профайле MPEG-4 была оценена в ходе тестов, которые симулируют видео MPEG-4, выполненных при скоростях между 32 кбит/с и 384 кбит/с. Испытания произведены при BER < 10-3, и средней длине блока ошибок около 10мс. Тестовая методология базировалась на непрерывной оценке качества в течение 3 минут.
Результаты показывают, что в среднем качество видео, полученное для мобильного канала, является высоким, что воздействие ошибок в видео MPEG-4 остается локальным, и что качество быстро восстанавливается по завершении блока ошибок.

Простой продвинутый профайл реального времени ARTS (Advanced Real-Time Simple) (версия 2)
Устойчивость видео к ошибкам в MPEG-4 профайле ARTS была оценена в ходе тестов, аналогичных описанным выше, при скоростях между 32 кбит/с и 128 кбит/с. В этом случае, остаточный уровень ошибок достигал 10-3, а средняя длительность блока ошибок была около 10 мс или 1 мс.
Результаты испытаний показывают превосходство профайла ARTS над простым профайлом для всех параметров исследования. Профайл ARTS предпочтительнее простого по времени восстановления после прохождения блока ошибок.

Тестирование стабильности временного разрешения

Простой продвинутый профайл реального времени ARTS (Advanced Real-Time Simple) (версия 2)
В данном тесте исследовались характеристики видео кодека, использующего технику преобразования с динамическим разрешением, которая адаптирует разрешение видео материала к обстоятельствам в реальном времени. Материал активной сцены кодировался при скоростях 64 кбит/с, 96 кбит/с и 128 кбит/с. Результаты показывают, что при 64 кбит/с, он превосходит простой профайл, работающий при 96 кбит/с, а при 96 кбит/с, визуальное качество эквивалентно полученному для простого профайла при 128 кбит/с.

Проверки масштабируемости

Простой масштабируемый профайл (версия 1)
Тест масштабируемости для простого масштабируемого профайла был создан для проверки того, что качество, обеспечиваемое средством временной масштабируемости в простом, масштабируемом профайле, сравненное с качеством, предоставляемым одноуровневым кодированием в простом профайле, и с качеством, обеспечиваемым в простом профайле. В этом тесте используются 5 последовательностей с 4 комбинациями скоростей передачи:
a) 24 кбит/с для базового слоя и 40 кбит/с для улучшенного слоя. b) 32 кбит/с для обоих слоев. c) 64 кбит/с для базового слоя и 64 кбит/с для улучшенного слоя. d) 128 кбит/с для обоих слоев.
Формальные верификационные тесты показали, что при всех условиях, кодирование с временной масштабируемостью в простом масштабируемом профайле демонстрирует то же или несколько худшее качество, чем достижимое при использовании однослойного кодирования в простом профайле. Далее, очевидно, что кодирование с временной масштабируемостью в простом масштабируемом профайле обеспечивает лучшее качество, чем симулкастное (одновременная передача по радио и телевидению или передача несколькими потоками с разной скоростью) кодирование в простом профайле для тех же условий.

Центральный профайл (core profile версия 1)
Верификационный тест был создан для оценки характеристик средств временной масштабируемости MPEG-4 видео в центральном профайле (Core Profile).
Тестирование было выполнено с использованием метода "Single Stimulus". Тест создавался с использованием 45 субъектов из двух различных лабораторий. Результаты испытаний показывают, что качество последовательностей, закодированных с привлечением средств временного масштабирования сопоставимы по качеству с вариантом без масштабирования. Очевидно также, что средство временного масштабирования в центральном профайле обеспечивает лучшее качество при равных условиях, чем симулкастное кодирование в центральном профайле.

4.9.6.2 Звук

Аудио-технология MPEG-4 состоит из большого числа средств кодирования. Верификационные тесты выполнялись в основном для небольшого набора средств кодирования, которые имеет сходные области использования, чтобы их можно было сравнивать. Так как сжатие является критическим параметром в MPEG, сравнение производилось при сходных скоростях обмена.

Оценка
Характеристика восприятия

5
Неощутимо

4
Ощутимо, но не раздражающе

3
Слегка раздражающе

2
Раздражающе

1
Весьма плохо


Первоначальной целью тестов является получение субъективного уровня качества средства кодирования, работающего при заданной скорости обмена. Большинство аудио тестов представляют результаты в виде субъективной шкалы оценки качества. Это непрерывная шкала с максимальным значением 5 баллов, как это показано в табличке выше.
Работа различных средств кодирования MPEG-4 представлена в таблице ниже. Для лучшей оценки свойств технологии MPEG-4 в тесты были включены несколько кодировщиков от MPEG-2 и ITU-T и их оценка также включены в таблицу. Результаты из различных тестов не следует сравнивать.

Средство кодирования
#каналов
Общая скорость передачи
[кбит/c]
Типовое значение субъективного качества

AAC
5
320
4.6

1995 обратно совместимый MPEG-2 слой II
5
640
4.6

AAC
2
128
4.8

AAC
2
96
4.4

MPEG-2 слой II
2
192
4.3

MPEG-2 слой III
2
128
4.1

AAC
1
24
4.2

Масштабируемый: CELP база и улучшение AAC
1
6 base, 18 enh.
3.7

Масштабируемый: Twin VQ база и улучшение AAC
1
6 base, 18 enh.
3.6

AAC
1
18
3.2

G.723
1
6.3
2.8

Широкополосный CELP
1
18.2
2.3

BSAC
2
96
4.4

BSAC
2
80
3.7

BSAC
2
64
3.0

AAC – LD (однопроходная задержка 20 мсек)
1
64
4.4

G.722
1
32
4.2

AAC – LD (однопроходная задержка 30 мсек)
1
32
3.4

Узкополосный CELP
1
6
2.5

Twin VQ
1
6
1.8

HILN
1
16
2.8

HILN
1
6
1.8


При кодировании 5-канального материала при 64 кбит/с/канал (320 кбит/с) Продвинутое кодирование аудио AAC (Advanced Audio Coding) главного профайла было оценено как имеющее "неотличимое качество" (относительно оригинала) согласно определению EBU. При кодировании 2- канального материала при 128 кбит/с как AAC главного профайла так и AAC профайла низкой сложности были оценены как имеющие "неотличимое качество" (относительно оригинала) согласно определению EBU.
Два масштабируемых кодировщика, CELP-база с улучшение AAC, и TwinVQ база с улучшением AAC, работают лучше чем AAC "multicast", работающий при скорости передачи уровня улучшения, но не так хороши как кодировщик AAC, работающий при полной скорости передачи.
Широкополосное кодирующее средство CELP демонстрирует прекрасные характеристики только для голоса.
Побитовое арифметическое кодирование (BSAC) предоставляет весьма малые шаги масштабирования. На верху диапазона масштабирования это кодирование не имеет штрафных балов по отношению к AAC, однако в нижней части диапазона оно уступает односкоростной AAC.
Узкополосный CELP, TwinVQ и индивидуальные гармонические линии и шум (HILN) все могут обеспечить очень высокое сжатие сигнала.
Средства противодействия ошибкам (ER) обеспечивают эквивалентно хорошую устойчивость к ошибкам в широком диапазоне условий канальных ошибок, и делают это с достаточно малой избыточностью по скорости передачи.

4.9.7 Промышленный форум MPEG-4

Промышленный форум MPEG-4 является бесприбыльной организацией, имеющей следующую цель: дальнейшее принятие стандарта MPEG-4, путем установления MPEG-4 в качестве принятого и широко используемого стандарта среди разработчиков приложений, сервис провайдеров, создателей материалов и конечных пользователей. Далее следует не исчерпывающая выдержка из устава M4IF о планах работы:
Целью M4IF будет: продвижение MPEG-4, предоставление информации об MPEG-4, предоставление средств MPEG-4 или указание мест, где эти данные можно получить, формирование единого представления об MPEG-4.
Цели реализуются через открытое международное сотрудничество всех заинтересованных участников.
Деятельность M4IF не преследует целей получения финансовой прибыли.
Любая корпорация и частная фирма, государственный орган или интернациональная организация, поддерживающая цели M4IF может являться членом форума.
Члены не обязаны внедрять или использовать специфические технологические стандарты или рекомендации в качестве следствия своего членства в M4IF.
Не существует каких-либо лицензионных требований, налагаемых членством в M4IF, и M4IF не налагает лицензионных ограничений на использование технологии MPEG-4.
Начальный членский взнос равен 2,000 $ в год.
Деятельность M4IF начинается там, где кончается активность MPEG. Сюда входят позиции, с которыми MPEG не может иметь дело, например, из-за правил ISO, таких как патентная чистота.

4.9.8 Детальное техническое описание MPEG-4 DMIF и систем

Рисунок 3 показывает как потоки, приходящие из сети (или запоминающего устройства), как потоки TransMux, демультиплексируются в потоки FlexMux и передаются соответствующим демультиплексорам FlexMux, которые извлекают элементарные потоки. Элементарные потоки (ES) анализируются и передаются соответствующим декодерам. Декодирование преобразует данные в AV объект и выполняет необходимые операции для реконструкции исходного объекта AV, готового для рэндеринга на соответствующем аппарате. Аудио и визуальные объекты представлены в их кодированной форме, которая описана в разделах 10 и 9 соответственно. Реконструированный объект AV делается доступным для слоя композиции при рэндеринга сцены. Декодированные AVO, вместе с данными описания сцены, используются для композиции сцены, как это описано автором. Пользователь может расширить возможности, допущенные автором, взаимодействовать со сценой, которая отображается.

[ Cкачайте файл, чтобы посмотреть картинку ]

Рисунок 4.9.3 – Главные компоненты терминала MPEG-4 (принимающая сторона)




4.9.8.3 Улучшенная модель синхронизации (FlexTime)

Модель FlexTime (Advanced Synchronization Model) расширяет традиционную модель хронирования MPEG-4, чтобы разрешить синхронизацию большого числа потоков и объектов, таких как видео, аудио, текст, графика, или даже программы, которые могут иметь разное происхождение.
Традиционная модель синхронизации MPEG-4 первоначально была сконструирована для широковещательных приложений, где синхронизация между блоками доступа осуществляется через "жесткие" временные метки и эталонные часы. В то время как этот механизм предоставляет точную синхронизацию внутри потока, он терпит неудачу при синхронизации потоков, приходящих из разных источников (и возможно с разными эталонными часами) как это имеет место в случае большинства приложений Интернет и в более сложных широковещательных приложениях.
Модель FlexTime позволяет разработчику материала специфицировать простые временные соотношения для выбранных объектов MPEG-4, таких как "CoStart," "CoEnd," и "Meet." Автор материала может также специфицировать ограничения гибкости для объектов MPEG-4, как если бы объекты были растяжимыми пружинами. Это позволяет синхронизовать большое число объектов согласно специфицированным временным соотношениям.
Наибольшую эффективность внедрение этой техники может дать в случае приложений Интернет, где нужно синхронизовать большое число источников на стороне клиента.

Гибкая длительность

В среде с ненадежной доставкой может так случиться, что доставка определенного элементарного потока или частей потока, может заметно задержаться относительно требуемого времени воспроизведения.
Для того чтобы понизить чувствительность к задержке времени доставки, модель FlexTime основывается на так называемой метафоре "пружины", смотри раздел 4.2.3.
Следуя модели пружины, элементарные потоки, или фрагменты потоков, рассматриваются как пружины, каждый с тремя 3 ограничениями. Оптимальная длина (длительность воспроизведения потока) может рассматриваться как подсказка получателю, когда возможны варианты. Заметим, что при растяжении или сжатии длительности непрерывной среды, такой как видео, подразумевает соответствующее замедление или ускорение воспроизведения, когда элементарный поток состоит из статических картинок. В этом случае растяжение или сжатие предполагает удержание изображения на экране в течение большего или меньшего времени.

Относительное время начала и конца

Два или более элементарных потоков или потоков сегментов могут быть синхронизованы друг относительно друга, путем определения того, что они начинаются ("CoStart") или кончаются ("CoEnd") в одно и то же время или завершение одного совпадает с началом другого ("Meet").
Важно заметить, что существует два класса объектов MPEG-4. Синхронизация и рэндеринг объекта MPEG-4, который использует элементарный поток, такого как видео, не определяется одним потоком, но также соответствующими узлами BIFS и их синхронизацией. В то время как синхронизация и рэндеринг объекта MPEG-4, который не использует поток, такой как текст или прямоугольник, определяется только соответствующими узлами BIFS и их синхронизацией.
Модель FlexTime позволяет автору материала выражать синхронизацию объектов MPEG-4 с потоками или сегментами потоков, путем установления временных соотношений между ними.
Временные соотношения (или относительные временные метки) могут рассматриваться как "функциональные" временные метки, которые используются при воспроизведении. Таким образом, действующее лицо FlexTime может:
Компенсировать различные сетевые задержки с помощью поддержки синхронизованной задержки прибытия потока, прежде чем действующее лицо начнет рэндеринг/воспроизведение ассоциированного с ним узла.
Компенсировать различные сетевые разбросы задержки путем поддержки синхронизованного ожидания прибытия сегмента потока.
Синхронизовать большое число медиа/BIFS-узлов с некоторым медиа потоком неизвестной длины или неуправляемым временем прибытия.
Синхронизовать модификации BIFS (например, модификации полей сцены) при наличии большого числа узлов/потоков, когда некоторые потоки имеют неизвестную длину или неуправляемое время прибытия.
Замедлять или ускорять рэндеринг/воспроизведение частей потоков, чтобы компенсировать ситуации не синхронности, вызванные неизвестной длиной, неуправляемым временем прибытия или его вариацией.

4.9.8.4 Описание синтаксиса

MPEG-4 определяет язык синтаксического описания чтобы характеризовать точный двоичный синтаксис для двоичных потоков, несущих медиа-объекты и для потоков с информацией описания сцены. Это уход от прошлого подхода MPEG, использовавшего язык псевдо C. Новый язык является расширением C++, и используется для интегрированного описания синтаксического представления объектов и классов медиа-объектов и сцен. Это предоставляет удобный и универсальный способ описания синтаксиса. Программные средства могут использоваться для обработки синтаксического описания и генерации необходимого кода для программ, которые выполняют верификацию.

4.9.8.5 Двоичный формат описания сцены BIFS (Binary Format for Scene description)

Кроме обеспечения поддержки кодирования индивидуальных объектов, MPEG-4 предоставляет также возможность создать набор таких объектов в рамках сцены. Необходимая информация композиции образует описание сцены, которая кодируется и передается вместе с медиа-объектами. Начиная с VRML (Virtual reality Modeling Language), MPEG разработал двоичный язык описания сцены, названный BIFS. BIFS расшифровывается как BInary Format for Scenes.
Для того чтобы облегчить авторскую разработку, а также создание средств манипулирования и взаимодействия, описания сцены кодируются независимо от потоков, имеющих отношение в примитивным медиа-объектам. Специальные меры предпринимаются для идентификации параметров, относящихся к описанию сцены. Это делается путем дифференциации параметров, которые используются для улучшения эффективности кодирования объектов (например, векторы перемещения в алгоритмах видео-кодирования), а также те, которые используются в качестве модификаторов объекта (например, положение объекта на сцене). Так как MPEG-4 должен допускать модификацию последнего набора параметров без необходимости декодировать самих примитивных медиа-объектов, эти параметры помещаются в описание сцены, а не в примитивные медиа-объекты. Следующий список предлагает некоторые примеры информации, представленные в описании сцены.
Как объекты группируются. Сцена MPEG-4 следует иерархической структуре, которая может быть представлена как ориентированный граф без циклов. Каждый узел графа является медиа-объектом, как показано на рис. 8. Три структуры не обязательно являются статическими; атрибуты узла (например, позиционирующие параметры) могут быть изменены, в то время как узлы могут добавляться, замещаться, или удаляться.

[ Cкачайте файл, чтобы посмотреть картинку ]

Рисунок 4.9.8 – Возможная логическая структура сцены

Как объекты позиционируются в пространстве и времени. В модели MPEG-4, аудиовизуальные объекты имеют протяженность в пространстве и во времени. Каждый медиа-объект имеет локальную координатную систему. Локальная координатная система объекта является той, в которой объект имеет фиксированное пространственно-временное положение и шкалу. Локальная координатная система служит в качестве указателя для манипулирования медиа-объектом в пространстве и во времени. Медиа-объекты позиционируются на сцене путем спецификации координатного преобразования из локальной координатной системы объекта в глобальную систему.
Выбор значения атрибута. Индивидуальные медиа-объекты и узлы описания сцены демонстрируют набор параметров композиционному слою через который может частично контролироваться их поведение. Среди примеров можно назвать понижение звука (pitch), цвет для синтетических объектов, активация или дезактивация информации улучшения для масштабируемого кодирования и т.д.
Другие преобразования медиа-объектов. Как упомянуто выше, структура описания сцены и семантика узла подвержены сильному влиянию VRML, включая его модель событий. Это предоставляет MPEG-4 очень богатый набор операторов конструирования сцены, включая графические примитивы, которые могут использоваться для построения сложных сцен.

Продвинутый формат BIFS

BIFS версия 2 (продвинутый BIFS) включает в себя следующие новые возможности:
Моделирование продвинутой звуковой среды в интерактивных виртуальных сценах, где в реальном времени вычисляются такие характеристики как рефлексы в комнате, реверберация, допплеровсеие эффекты и перегораживание звука объектами, появляющимися между источником и слушателем. Моделирование направленности источника звука позволяет осуществлять эффективное включение звуковых источников в 3-D сцены.
Анимация тела с использованием на уровне декодера модели тела по умолчанию или загружаемой модели. Анимация тела осуществляется путем посылки анимационных параметров в общем потоке данных.
Применение хроматических ключей, которые служат для формирования формы маски и значения прозрачности для изображения или видео последовательности.
Включение иерархических 3-D сеток в BIFS сцен.
Установление соответствия интерактивных команд и медийных узлов. Команды передаются серверу через обратный канал для соответстующей обработки.
PROTOs и EXTERNPROTOs >

4.9.8.6 Взаимодействие с пользователем

MPEG-4 позволяет пользователю взаимодействие с отображаемым материалом. Это взаимодействие может быть разделено на две главные категории: взаимодействие на стороне клиента и взаимодействие на стороне сервера. Взаимодействие на стороне клиента включает в себя манипуляцию материалом, который обрабатывается локально на терминале конечного пользователя. В частности, модификация атрибута узла описания сцены, например, изменения положение объекта, делание его видимым или невидимым, изменение размера шрифта узла синтетического текста и т.д., может быть выполнено путем трансляции событий пользователя. Событием пользователя может быть нажатие клавиши мыши или команда, введенная с клавиатуры.
Другие формы взаимодействия на стороне клиента требуют поддержки со стороны синтаксиса описания сцены и должны быть специфицированы в стандарте. Использование структуры событий VRML предоставляет богатую модель, на основании которой разработчики могут создать вполне интерактивный материал.
Взаимодействие на стороне сервера включает в себя манипуляцию материалом на стороне отправителя в результате действий пользователя. Это, разумеется, требует наличия обратного канала.

4.9.8.7 IPR идентификация и защита

MPEG-4 предоставляет механизмы для защиты прав интеллектуальной собственности (IPR). Это достигается путем предоставления кодированных медиа-объектов с опционным набором данных идентификационной интеллектуальной собственности IPI (Intellectual Property Identification), несущим информацию о содержимом, типе содержимого и о владельцах прав на данный материал. Набор данных, если он имеется, является частью дескриптора элементарного потока, который описывает поточную информацию, ассоциированную с медиа-объектом. Номер набора данных, который ассоциируется с каждым медиа-объектом достаточно гибок; другие медиа-объекты могут использовать тот же набор. Предоставление наборов данных позволяет внедрить механизм отслеживания, мониторинга, выставления счетов и защиты от копирования.
Каждое широкодиапазонное приложение MPEG-4 имеет набор требований относящихся к защите информации, с которой оно работает. Эти приложения могут иметь разные требования по безопасности. Для некоторых приложений, пользователи обмениваются информацией, которая не имеет собственной ценности, но которая, тем не менее, должна быть защищена, чтобы защитить права собственности. Для других приложений, где управляемая информация для ее создателя или дистрибьютора имеет большую ценность, требуется управление более высокого уровня и более надежные механизмы защиты. Подразумевается, что дизайн структуры IPMP должен учитывать сложность стандарта MPEG-4 и разнообразие его применений. Эта структура IPMP оставляет детали системы IPMP на усмотрение разработчиков. Необходимые уровень и тип управления и защиты зависят от ценности материала, комплексности, и сложности, связанных с этим материалом бизнес моделей.
Данный подход позволяет конструировать и использовать системы IPMP специфичные для доменов (IPMP-S). В то время как MPEG-4 не стандартизует сами системы IPMP, он стандартизует интерфейс IPMP MPEG-4. Этот интерфейс состоит из IPMP-дескрипторов (IPMP-Ds) и элементарных потоков IPMP (IPMP-ES).
IPMP-Ds и IPMP-ESs предоставляют коммуникационный механизм взаимодействия систем IPMP и терминала MPEG-4. Определенные приложения могут требовать нескольких систем IPMP. Когда объекты MPEG-4 требуют управления и защиты, они имеют IPMP-D, ассоциированные с ними. Эти IPMP-Ds указывают на то, какие системы IPMP следует использовать и предоставляют информацию о том, как защищать получаемый материал. (Смотри рис. 9).
Кроме предоставления владельцам интеллектуальной собственности возможности управления и защиты их прав, MPEG-4 предлагает механизм идентификации этих прав с помощью набора данных IPI (Intellectual Property Identification Data Set). Эта информация может использоваться системами IPMP в качестве входного потока процесса управления и защиты.
[ Cкачайте файл, чтобы посмотреть картинку ]

Рисунок 4.9.9 – Интерфейсы IPMP в системе MPEG-4

4.9.8.8 Информация содержимого объекта

MPEG-4 позволяет подсоединять к объектам информацию об их материале. Пользователи стандарта могут использовать этот поток данных OCI’ (Object Content Information) для передачи текстовой информации совместно с материалом MPEG-4.

4.9.8.9 Формат файлов MPEG-4

Формат файла MP4 сконструирован так, чтобы информация MPEG-4 имела легко адаптируемый формат, который облегчает обмены, управление, редактирование и представление медиа-материала. Презентация может быть локальной по отношению к системе осуществляющей этот процесс, или осуществляемой через сеть или другой поточный механизм доставки (TransMux). Формат файлов сконструирован так, чтобы не зависеть от конкретного типа протокола доставки, и в тоже время эффективно поддерживать саму доставку. Конструкция основана формате QuickTime® компании Apple Computer Inc.
Формат файла MP4 сформирован из объектно-ориентированных структур, называемых атомами. Каждый атом идентифицируется тэгом и длиной. Большинство атомов описывают иерархию метаданных, несущих в себе такую информацию как индексные точки, длительности и указатели на медиа данные. Это собрание атомов содержится в атоме, называемом кино атом’. Сами медиа-данные располагаются где-то; они могут быть в файле MP4, содержащемся в одном или более mdat’, в медийных информационных атомах или размещаться вне файла MP4 с доступом через URL.
Мета данные в файле в сочетании с гибкой записью медийных данных в память позволяют формату MP4 поддерживать редактирование, локальное воспроизведение и обмен, и тем самым удовлетворять требованиям интермедиа MPEG4.



Натуральный звук

MPEG-4 стандартизирует кодирование естественного звука при скоростях передачи от 2 кбит/с до 64 кбит/с. Когда допускается переменная скорость кодирования, допускается работа и при низких скоростях вплоть до 1.2 кбит/с. Использование стандарта MPEG-2 AAC в рамках набора средств MPEG-4 гарантирует сжатие аудио данных при любых скоростях вплоть до самых высоких. Для того чтобы достичь высокого качества аудио во всем диапазоне скоростей передачи и в то же время обеспечить дополнительную функциональность, техники кодирования голоса и общего аудио интегрированы в одну систему:
Кодирование голоса при скоростях между 2 и 24 кбит/с поддерживается системой кодирования HVXC (Harmonic Vector eXcitation Coding) для рекомендуемых скоростей 2 - 4 кбит/с, и CELP (Code Excited Linear Predictive) для рабочих скоростей 4 - 24 кбит/с. Кроме того, HVXC может работать при скоростях вплоть до 1.2 кбит/с в режиме с переменной скоростью. При кодировании CELP используются две частоты стробирования, 8 и 16 кГц, чтобы поддержать узкополосную и широкополосную передачу голоса, соответственно. Подвергнуты верификации следующие рабочие режимы: HVXC при 2 и 4 кбит/с, узкополосный CELP при 6, 8.3, и 12 кбит/с, и широкополосный CELP при 18 кбит/с.
Для обычного аудио кодирования при скоростях порядка и выше 6 кбит/с, применены методики преобразующего кодирования, в частности TwinVQ и AAC. Аудио сигналы в этой области обычно стробируются с частотой 8 кГц.
Чтобы оптимально перекрыть весь диапазон скоростей передачи и разрешить м асштабируемость скоростей, разработана специальная система, отображенная на рисунке 14.

[ Cкачайте файл, чтобы посмотреть картинку ]

Рисунок 4.9.14 – Общая блок-схема MPEG-4 аудио
Масштабируемость полосы пропускания является частным случаем масштабируемости скоростей передачи, по этой причине часть потока, соответствующая части спектра полосы пропускания, может быть отброшена при передаче или декодировании.
Масштабируемость сложности кодировщика позволяет кодирующим устройствам различной сложности формировать корректные информационные потоки. Масштабируемость сложности декодера позволяет данному потоку данных быть декодированному приборами с различной сложностью (и ценой). Качество звука, вообще говоря, связано со сложностью используемого кодировщика и декодера Масштабируемость работает в рамках некоторых средств MPEG-4, но может также быть применена к комбинации методик, например, к CELP, как к базовому уровню, и AAC.
Уровень систем MPEG-4 позволяет использовать кодеки, следующие, например, стандартам MPEG-2 AAC. Каждый кодировщик MPEG-4 предназначен для работы в автономном режиме (stand-alone) со своим собственным синтаксисом потока данных. Дополнительная функциональность реализуется за счет возможностей кодировщика и посредством дополнительных средств вне его.



4.9.11 Плюсы и минусы MPEG-4
 
Положительные стороны:
        Технология позволяет снизить требуемую полосу пропускания в диапазоне, обеспечивая при этом доставку видео такого же качества или даже выше.
       Развитие методов сжатия контента и удаления артефактов привело к появлению MPEG-4В течение недавнего времени отрасль вещания видео начала постепенный переход на новый формат MPEG-4 AVC (H.264).
       Кодирование по стандарту AVC обеспечивает существенное снижение скорости потоков и выигрыш в эффективности компрессии 3060% по сравнению с MPEG-2. Это позволяет достичь более высокой производительности в обработке видео, одновременно предоставляя возможность передавать в той же самой полосе частот большее число каналов. Таким образом, сеть на основе нового стандарта кодирования может работать с повышенным числом ТВЧ-каналов и расширенным набором разнообразных услуг.
       Эффективное и оптимальное представление объектов означает не только достижение высокой степени компрессии, но и соответствие другим требованиям, например, помехозащищенность, произвольный доступ, простота редактирования и т. п.
       Данные MPEG-4 могут упаковываться в пакеты транспортного потока MPEG-2, которые передаются в инфраструктуре сетей ТВ-вещания. Данные MPEG-4 могут также инкапсулироваться в пакеты протокола реального времени RTP.
       Существует много различных приложений, в которых целесообразно и выгодно использовать объектно-ориентированные средства MPEG-4. Эти приложения: вещание, дистанционное наблюдение, персональные коммуникации, игры, мобильные мультимедийные системы связи, системы виртуальной реальности и т. п.
       Стандарт позволяет создавать службы, объединяющие три различных модели обслуживания: вещание, оперативное взаимодействие в реальном времени, коммуникации.
       Одна из наиболее действенных форм расширения возможностей телевидения добавление сопутствующей информации в виде текста, таблиц, диаграмм, фотографий, двумерных или трехмерных графических образов, комментариев на разных языках. Сейчас такая информация, если она вводится, является неотъемлемой частью содержания программы. Она сначала включается в изображения, потом суммарное изображение кодируется и передается. Система MPEG-4 позволяет передавать эту информацию отдельно, предоставляя зрителю возможность выбора смотреть или не смотреть, а если смотреть то какую часть сопутствующей информации. Кроме того, дополнительная информация может кодироваться оптимальным образом (для каждого вида информации).
       Зритель программы может приспосабливать воспроизведение дополнительной сопутствующей информации к своим вкусам и желаниям. К некоторым программам, например историческим, научным, или художественным, можно добавлять гораздо больше информации, которая будет появляться по желанию зрителя. Переходить между разными видами информации помогут гиперссылки. Дополнительная информация может передаваться по разным каналам и интегрироваться с основным содержанием программы в приемнике.
       К новым, очень привлекательным возможностям относится выбор точки зрения камеры во время спортивных передач или музыкальных шоу. Можно выбирать каналы звука (например, голос комментатора, шум стадиона, крики игроков во время спортивных программ). В качестве фонового изображения может использоваться дополнительная информация о программе, фильме, субтитры на разных языках, комментарии на выбранном языке. Синтезированная в приемнике «говорящая голова» может обеспечить сурдоперевод для слабослышащих.
       MPEG-4 ориентирован на конвергенцию, которая обусловлена проникновением аудиовизуальной информации во все службы и все типы сетей. Поэтому MPEG-4 это не некоторый замкнутый и неделимый стандарт, а инструментарий, или комплекс инструментальных средств. Выбор наборов средств для конкретных приложений осуществляется в соответствии с выбранным профилем.
       Интерактивность одна из наиболее многообещающих функциональных возможностей MPEG-4. Она поддерживается объектно-ориентированным кодированием, управлением поведением объектов с помощью средств BIFS (Binary Format for Scenes – бинарный формат для сцен), гиперсвязей. Интерактивность обеспечивает трансляцию вещательных видеоигр, интерактивных викторин.
  Отрицательные стороны:
       В силу того, что оборудование MPEG-2 уже установлено по всему миру в огромном количестве, оно продолжает активно использоваться даже в условиях постепенного внедрения новейших схем кодирования AVC. Таким образом, возникает проблема поддержки одновременно нескольких форматов.
       Наращивание выпуска обновленных абонентских приставок также требует кодирования одновременно в форматах MPEG-2 и AVC тем самым, поднимая и так немалую стоимость абонентских приставок, что существенно затрудняет внедрение цифрового ТВ. Однако если учесть темпы развития цифровых технологий и то, что переход на цифровое ТВ будет проходить несколько лет, то этот недостаток нивелируется в течении 2-3 лет.





4.10 Стандарт HDTV

HDTV (ТВЧ - Телевидение Высокой Четкости) - сегодня это самая передовая и высокотехнологичная область цифрового телевидения, сравнимая по своему значению с появлением цветного телевидения в 60-х годах 20 века. В буквальном смысле англоязычных аббревиатур. HDTV (High Definition Television) . это часть DTV (Digital Television).
HDTV поддерживает стандарты 1080i и 720p, обладает широкоэкранным 16:9 изображением, звуком Dolby Digital 5.1. и, соответственно, является наивысшей точкой развития телевизионных технологий.
Посредством HDTV обеспечивается доставка в каждый дом необыкновенно чистого, яркого и четкого изображения, практически совпадающего по качеству с 35-мм кинопленкой, и с многоканальным звуковым сопровождением.
Высокая четкость (HD) означает, что число линий и число пикселей в каждой линии телевизионной картинки существенно увеличены по сравнению с телевидением стандартной четкости (SD). В то время как телевизионное SD-изображение передается с разрешением 720x576 пикселей, HD-изображение имеет разрешение 1920x1080 пикселей. Число элементов изображения, передаваемых за одну секунду, увеличено в 5 раз. Это позволяет существенно увеличить чистоту, четкость и детализацию изображения и объясняет тот восторг, который вызывает просмотр HDTV-картинки на высококачественных плоскопанельных дисплеях или на проекторах в домашних кинотеатрах.
Cтандарты HDTV
Сегодня в мире распространены в основном два стандарта, которые используются для HDTV-вещания . 720p (p - прогрессивная развертка) и 1080i (i - чересстрочная развертка). Стандарт 1080i определен в Рекомендациях ITU-R BT.709-5.
Изображение состоит из 1080 активных линий по 1920 отсчетов в каждой, соотношение сторон - 16:9, использованы квадратные пиксели. Стандарт 720р определен SMPTE как телевизионный стандарт 296M-2001. Этот стандарт обеспечивает 720 линий в кадре и 1280 отсчетов в линии. Соотношение сторон - 16:9, использованы квадратные пиксели.
Традиционное телевидение использует так называемое "чересстрочное" сканирование, при котором каждый кадр отображается на экране в два захода. В первом заходе выводятся нечетные линии за 1/50 секунды, во втором за такое же время - четные линии. Вывод полного кадра происходит 25 раз в секунду. В системах прогрессивного сканирования полный кадр изображения выводится каждую 1/50 секунду.

Достоинства и недостатки стандартов HDTV:
Прогрессивный стандарт является более простым для компрессии и приводит к более низкой скорости передачи данных.
Вывод движущегося изображения лучше осуществлять в формате 720р/50, чересстрочное сканирование приводит к возникновению артефактов при быстром движении изображения в случае, если показ идет на дисплеях с системой прогрессивного сканирования.
720р/50 обеспечивает изображение с меньшим общим количеством артефактов, чем 1080i.
Производство в 1080i в настоящее время является более простым благодаря более доступному оборудованию.
В Таблице перечислены стандарты, которые должны поддерживать европейские HD-дисплеи, чтобы называться HDTV-совместимыми.

Стандарт
Пиксели в линии x линии в кадре
Режим развертки
Частота кадров
Соотношение сторон кадра

720p/50
1280x720
Прогрессивная
50 кадр/с
16:9

720p/60
1280x720
Прогрессивная
59.94/60 кадр/с
16:9

1080i/25
1920x1080
Чересстрочная
50 полей/сек
16:9

1080i/30
1920x1080
Чересстрочная
59.94/60 полей/сек
16:9


Кодирование видео
До настоящего времени все существующие в мире HDTV стандарты (ATSC, DVB, ISDB) были основаны на схеме видеокомпрессии MPEG-2 и использовали в качестве основы транспортный поток (MPEG-2 Systems Transport Layer). В настоящее время стандарт DVB дорабатывается для включения в него более современных инструментов аудио/видеокомпрессии, например, таких как H.264 (MPEG-4 AVC) и, может быть, позднее, SMPTE VC-1.
Факторы, влияющие на развитие HDTV, и перспективы
Согласно аналитическим исследованиям - в 2006 и 2007 годах следующие факторы, способствующие продвижению рынка, приведут к "нашествию" HDTV в Европе:
Значительная степень распространения HD-телевизоров, главным образом, LCD и плазменных.
Внедрение HD DVD.
Увеличение объемов производства HD-контента.
Доступность HDTV-ресиверов на рынке.
Чемпионат Мира по футболу в Германии.
Олимпийские игры в Турине.
С 2008 года развитие HD-рынка будет ускоряться следующими факторами:
Растущая доступность "HD ready" телевизоров.
Достижение ведущими провайдерами платного телевидения критических уровней развития на всех основных рынках.
Увеличение числа телевизионных HD-каналов и HD DVD.
Олимпийские Игры 2008 года и Кубок Мира по футболу 2010 года.
По прогнозам, в 2010 году в Европе будет насчитываться от 60 до 80 спутниковых HD-телеканалов, от 21 до 27 кабельных и от 4 до 14 эфирных HD-каналов. Спорт можно рассматривать в качестве наиболее востребованного контента. Он является главной темой для HD-каналов после кино, а главные спортивные события, такие как Олимпиады, Кубки мира и Чемпионаты по футболу, транслируемые на этих каналах, напрямую влияют на уровень продаж HD-оборудования.

Вопросы:
Что такое классы изображений?
Что такое классы приложений?
Какие требования приложений к алгоритмам компрессии?
Какие используются алгоритмы сжатия изображений?
Что такое вейвлет - преобразования?
Формат сжатия JPEG.
Формат сжатия JPEG 2000.
Что представляет собой стандарт MPEG?
Как происходит преобразование макроблоков I,P.B изображений?
Что представляет собой стандарт MPEG-1?
Стандарт кодирования MPEG-2.
Как используется компенсация движения?
Что представляет собой стандарт MPEG-4?
Детальное техническое описание MPEG-4 DMIF.
Детальное техническое описание MPEG-4 аудио.
Плюсы и минусы стандарта MPEG-4.
Стандарт HDTV.


5.ПРИНЦИПЫ ПОСТРОЕНИЯ И ОСОБЕННОСТИ
ВНЕДРЕНИЯ СИСТЕМ ЦИФРОВОГО ТВ ВЕЩАНИЯ

5.1 Глобальная модель систем цифрового вещания


Происходящий в настоящее время в мире переход на цифровое ТВ вещание находится в своей активной фазе. Известные планы предусматривают переход развитых стран на полностью цифровое вещание в течение 2006-2015 гг.
Обычной практикой при внедрении цифрового наземного ТВ вещания является установление переходного периода на срок примерно 10-15 лет, когда одновременно будет производиться и аналоговое, и цифровое вещание. При этом должны сохраняться существующие частотные планы, т.е. сетка наземных каналов со своими номинальными полосами частот в 6; 7; 8 МГц. Переход от аналогового к цифровому вещанию должен сопровождаться ростом эффективности использования радиоспектра (исключительно дефицитного ресурса), повышением помехоустойчивости доставки информации, снижением помех другим службам радиосвязи и вещания. Каждый канал ТВ вещания, переводимый в режим цифрового вещания, должен кардинально увеличивать число, качество и номенклатуру услуг, предоставляемых пользователю, т. е. канал должен обладать прозрачностью для всех видов данных в составе потока транспортных пакетов. Эти свойства можно кратко определить как многопрограммность и многофункциональность системы цифрового ТВ вещания. Они позволяют рассматривать цифровое ТВ вещание в качестве составной (и важнейшей) части цифрового вещания с интеграцией служб (ЦВИС), которое является перспективным видом доставки мультимедийной информации и основывается на эффективном использовании пропускной способности проводных и радиоканалов системами с множеством служб. Это позволяет объединять на системном уровне в одном стандартном канале ряд цифровых потоков, каждый из которых может включать несколько сигналов изображения различных классов качества, сигналы программ звукового вещания, данные Интернета, другую графическую и текстовую информацию и т.д.
Система цифрового ТВ вещания содержит не только различные службы, но и разнообразные системы доставки информации, поскольку, обладая способностью сопряжения с различными видами цифровых сетей, полностью обеспечивает режим распределения и трансляции вещательных программ и независимых данных, как с открытым, так и с ограниченным доступом. В систему цифрового ТВ вещания легко ввести функцию гибкой интерактивности, позволяя пользователю иметь связь с провайдерами услуг по различным видам каналов, доступных в конкретной ситуации. Практическая реализация систем цифрового ТВ вещания невозможна без скоординированных усилий международных организаций:
международная организация по стандартизации ИСО (International Organization for Standardization - ISO);
международная электротехническая комиссия МЭК (International Electrotechnical Commission - IEC);
международный союз электросвязи МСЭ (International Telecomunication Union - ITU).
Международные исследования в области цифрового вещания основываются на глобальной модели системы цифрового вещания, отражающей новые подходы к массовой многоцелевой интерактивности и передаче мультимедиа, а также принимающей во внимание возможные среды передачи. Глобальный подход к цифровому ТВ вещанию определяет его как систему массового многоцелевого информационного обслуживания, обеспечивающую комплексное решение проблем многопрограммного ТВ вещания (МПТВ), передачи больших объемов цифровых данных, массовой интерактивности, а также ряда задач мультимедиа и других информационных служб (рис. 5.1).
Глобальная модель учитывает необходимость гармонизации и взаимоувязки комплексов производства и распределения программ, технологические особенности основных участков ТВ тракта, методы планирования зон покрытия наземных и спутниковых сетей, соблюдение жестких международных норм электромагнитной совместимости, методологию создания единых мировых ТВ стандартов. Такая модель включает в себя разнообразные ТВ службы, представляющие существенный интерес для широких масс зрителей (макровещание) или для небольших групп по их индивидуальным запросам (микровещание).
Ядром глобальной модели является мультиплекс, т.е. групповой цифровой сигнал, передаваемый по ТВ каналу. Мультиплекс играет роль многоцелевого контейнера, загружаемого цифровыми сигналами нескольких программ ТВ вещания и обеспечивающего множество прямых цифровых каналов интерактивных и других служб.
Глобальная модель цифрового ТВ вещания позволяет выделить все основные составляющие процесса производства и распределения цифровых программ, включая роль провайдеров услуг и сетевых операторов. В отличие от аналогового ТВ вещания, при котором каждый вещатель имел свой частотный канал, при цифровом ТВ вещании возникает новое действующее лицо оператор мультиплекса. Не являясь ни производителем программ, ни вещателем, ни сетевым оператором, оператор мультиплекса может предоставлять провайдерам служб средства цифровой технологии для увеличения числа программ, которые можно передавать в каждом стандартном ТВ канале.


Рисунок 5.1 – Глобальная модель системы интерактивного цифрового вещания

Слияние на базе цифрового вещания методов телекоммуникаций с компьютерными технологиями и введение интерактивности качественно изменяют традиционную роль ТВ вещания как поставщика однонаправленных программ. Цифровой вещатель может предоставлять целую гамму привлекательных интерактивных и мультимедийных услуг вещательного и невещательного вида для макро- и микрогрупп пользователей. Пользователь, в свою очередь, становится участником процесса вещания и потребителем ряда новых услуг, получая, например, возможность выбирать по своему вкусу продолжение просматриваемой программы или даже формировать свою собственную программу из фрагментов различных передаваемых программ. Такие программы вещания становятся нелинейными в отличие от традиционной линейной программы, где телезритель пассивен и может лишь просматривать сменяющие друг друга сцены и сюжеты в последовательности, жестко заданной поставщиком программы (модулем вещания).
Согласно глобальной модели передающая часть системы цифрового ТВ вещания содержит модуль вещательных программ (ТВ программы, звуковые программы, метаданные, совместимые информационные службы) и модуль мультимедийных служб (Интернет-совместимые службы, телематические, образовательные, медиаметрические, телемедицинские и др. службы). Информация этих двух модулей передается в составе мультиплекса по каналу вещания на приемники пользователей.
Содержательная информация, выгружаемая из цифрового контейнера, предоставляется пользователям вещательных, интерактивных, информационных и других служб. Каждый из них по каналам интерактивной сети может осуществлять обмен сообщениями со своими поставщиками программ и интерактивных услуг. Средством интерактивного обмена является абонентская приставка к телевизору с клавиатурой, памятью, декодерами систем ограничения доступа, устройствами сопряжения с интерактивными каналами, модемами и другими узлами.


5.2 Определение и классификация систем доставки

Для того, чтобы учесть все многообразие технических и эксплуатационных проблем, обусловленных переходом на цифровое ТВ вещание, и правильно спланировать практические шаги в этом направлении, большое внимание уделяется разработке эталонных моделей цифровых систем и служб, определению параметров стыковочных точек между комплексами и подсистемами. Такие модели призваны вычленить основные вопросы внедрения цифрового вещания и рассматривать их в тесной увязке со специфическими для каждой страны нормами и правилами вещания, а также с учетом взаимодействия и сопряжения в международном аспекте.
При построении моделей большое внимание уделяется вопросам взаимодействия сетей, комплексов и устройств, образующих систему. При анализе систем и методов цифрового ТВ вещания особое значение имеет модель системы доставки информации пользователям.
Термин "система доставки" имеет в общем случае достаточно широкое значение, и может характеризовать любые средства, служащие для передачи информации от источника до получателя. В более узком смысле это средство доставки информационного содержания услуги от контент-провайдера до провайдера служб и от провайдера служб до конечного пользователя (см. рис. 5.2, на котором: СКП система контент-провайдера, СПС система провайдера служб, СПУ система получателя услуг, А1 – А11 эталонные стыки). Основная функция перенос информации между пользователями системы доставки по любым средам, от лент и дисков до спутниковых широкополосных систем.



Рисунок 5.2 – Структура системы доставки

Структурная схема системы производства и трансляции ТВ программ в цифровой форме показана на рис. 5.3. На схеме представлены основные подсистемы, отражающие процессы сбора, обработки и распределения информации. Контент-провайдеры поставляют содержательную информацию провайдерам услуг, которые компонуют вещательные программы. Для передачи по каналу программы подвергаются сжатию и мультиплексированию в общий поток. Туда же добавляются управляющие сообщения системы ограничения доступа, которая совместно с системой управления (администрирования) абонентами обеспечивает вещание для отдельных пользователей или для микрогрупп пользователей, знающих пароль или ключ для доступа к данным.
На выходе подсистемы транспортного мультиплексирования формируется поток транспортных пакетов, содержащий все компоненты предоставляемых служб. Это своеобразная точка стыка между формирующим и распределяющим комплексами системы. Транспортный поток является тем самым контейнером, который служит для переноса информации пользователям. При этом система доставки в общем случае может иметь различные варианты



Рисунок 5.3 – структурная схема системы производства и трансляции ТВ программ


Классификация систем доставки показана на рис. 5.4, где все системы разделяются на две большие категории сетевые и несетевые. В системах вещания принципиальное значение имеют сетевые системы доставки, которые делятся, в свою очередь, на радиосистемы и кабельные системы, и могут быть одно- и двунаправленными (интерактивными).
Физические средства доставки и хранения характеризуются низкой вероятностью ошибки и не требуют принятия специальных мер по защите транспортных потоков. Напротив, сетевые системы доставки могут работать в условиях повышенных помех и требуют согласования с каналом по нескольким параметрам. Такое согласование обеспечивают подсистемы адаптации к каналу, которые вместе со средой передачи и абонентскими приемниками образуют систему цифрового ТВ вещания.






Рисунок 5.4 – классификация систем доставки

Область применения транспротного потока MPEG-2 – это сети радиовещания и коаксиальные кабельные сети.

5.3 Система цифрового телевизионного вещания DVB

Технологическими лидерами в области цифрового ТВ вещания являются страны Европейского союза, США и Япония. В 1991 г. Была создана European Launching Group (Европейская группа запуска), состоящая из представителей вещательных организаций, предприятий промышленности и органов власти, которая начала заниматься проблемами внедрения цифрового телевидения в Европе. В 1993 году все члены этой группы подписали Меморандум о взаимопонимании цифрового видеовещания (DVB MOU – Digital Video Broadcasting Memorandum of Understanding) и она стала называться DVB Project (проект цифрового видеовещания).
Одним из фундаментальных решений, принятых DVB Project, был выбор алгоритма MPEG-2 для системного уровня, т.е. для кодирования источников аудио и видеоинформации, а также для создания элементарных программных и транспортных потоков.
Стандарты, разрабатываемые в рамках DVB Project, применяются в системах цифрового аудио и видеовещания и передачи данных по спутниковым, кабельным и наземным сетям и определяют соответствующие системные рекомендации для кабельного DVB-C (Cable Transmission), наземного DVB-T (Terrestrial Transmission) и спутникового DVB-S (Sattelit Transmission) телевизионного вещания, а также для микроволнового многоточечного распределения (DVB-MC – системы мм диапазона, работающие на частотах менее 10 ГГц; DVB-MS – системы мм диапазона, работающие на частотах более 10 ГГц). Дальнейшим развитием стандарта DVB-T является система цифрового телевещания для мобильных терминалов DVB-H (Handheld – ручной).
В основе проекта DVB Project – концепция «контейнера», который способен переносить любые данные, защищая их от возможных ошибок.

6.Описание формата DVB-S2
В 2004г. появился стандарт SAT вещания, именуемый DVB-S2, который явился модификацией ранее существовавшего стандарта [ Cкачайте файл, чтобы посмотреть ссылку ], предусматривающего максимально возможную совместимость с системой цифрового спутникового вещания [ Cкачайте файл, чтобы посмотреть ссылку ]. Для придания большей универсальности применения и повышения эффективности при работе по каналам с достаточным энергетическим запасом, в технические нормы на системы первичного распределения добавлены опции режимов передачи, основанные на модуляции типа 8 [ Cкачайте файл, чтобы посмотреть ссылку ] и 16 [ Cкачайте файл, чтобы посмотреть ссылку ].
Новый же стандарт DVB-S2 призван покрыть недостатки как стандарта [ Cкачайте файл, чтобы посмотреть ссылку ] (низкие скорости потоков за счет формата модуляции [ Cкачайте файл, чтобы посмотреть ссылку ]), так и стандарта [ Cкачайте файл, чтобы посмотреть ссылку ] (работа SAT передатчиков при пониженных выходных мощностях в силу требования обеспечения более низких искажений). Необходимость в пересмотре имеющихся стандартов была обусловлена несколькими причинами.
Важнейшим фактором создания нового стандарта DVB-S2 стали планы массового запуска [ Cкачайте файл, чтобы посмотреть ссылку ]. Уже на сегодняшний день начинает наблюдаться дефицит в частотном ресурсе даже при трансляции [ Cкачайте файл, чтобы посмотреть ссылку ]. Если же все SAT программы будут вещаться в [ Cкачайте файл, чтобы посмотреть ссылку ], то имеющегося частотного ресурса окажется недостаточным даже при переходе к более совершенным системам компрессии ТВ сигнала. Таким образом, перспектива появления [ Cкачайте файл, чтобы посмотреть ссылку ] потребовала разработки форматов канального кодирования, более эффективно использующих имеющиеся частотные ресурсы (т.е. DVB-S2).


Рис. 6.1
Вторая причина появления стандарта DVB-S2 обязана неудовлетворительной работе имеющихся приемных систем K a-диапазона. Качество приема в этом диапазоне очень сильно зависит от погодных условий, в первую очередь, от дождя. Поэтому для трансляций в этом диапазоне часто требуется более высокая помехозащищенность, чем в С- и KU-диапазонах.
Третья причина появления стандарта DVB-S2 – появление интерактивных SAT сетей с адресными услугами. Такие сети требуют большого транспортного ресурса и оптимизировать его использование можно, адаптировав параметры каждого адресного потока к условиям приема конкретного адресата. Старые стандарты таких возможностей не предоставляют.
Таким образом, от нового стандарта DVB-S2 требовалось следующее:
повысить эффективность использования транспортного канала, т.е. предоставить возможность в полосе стандартного канала передавать больше бит полезной информации на помехоустойчивость;
допускать дифференцированный подход к выбору транспортных параметров для разных услуг, передаваемых в одном канале.
Кроме того, стандарт DVB-S2 должен был обеспечить совместимость с прежними стандартами и пути плавной миграции от старого оборудования к новому.
Первые два требования удалось выполнить за счет введения в стандарт более разнообразных схем модуляции, использования более эффективных систем защитного кодирования и введения дополнительных коэффициентов скругления, обеспечивающих более крутые фронты модулированного сигнала.
Гибкость формирования канала была достигнута теми же методами, что и эффективность использования спектра методами, а также за счет введения режимов VCM (Variable Coding and Modulation) и АСМ (Adaptive Coding and Modulation). Первый режим допускает разный уровень помехозащищенности услуг, передаваемый в одном канале, а второй - дополнительную возможность адаптации транспортных параметров к текущим условиям приема услуги. Режим АСМ предназначен для сетей с обратным каналом, где приемные системы имеют возможность переправлять на головную станцию информацию об условиях приема.
В результате был создан универсальный стандарт (DVB-S2), на базе которого могут строиться сети для распространения ТВ программ стандартной или высокой четкости, сети для предоставления интерактивных услуг, например, доступа в Интернет, сети для профессиональных приложений, таких как передача цифрового ТВ от студии к студии, сбор новостей и раздача сигнала на эфирные ретрансляторы. Новый стандарт DVB-S2 также удобен для формирования сетей передачи данных и создания IP-магистралей.
Большинство эффективных механизмов, заложенных в DVB-S2, оказались несовместимыми со старыми стандартами. Потому, для выполнения требования совместимости вниз, разработчики ввели в стандарт два режима. Один – совместимый вниз, но менее эффективный, а другой, использующий все новые возможности, но не позволяющий использовать приемники стандарта [ Cкачайте файл, чтобы посмотреть ссылку ].
Первый стандарт DVB-S2 рекомендуется для предоставления традиционных услуг, на период миграции к новому стандарту, а второй – для применения в профессиональных сетях и для передачи новых услуг, которые невозможно принять старыми приемниками.
Новый стандарт DVB-S2 предусматривает четыре возможности схемы модуляции (рис.6.1). Первые две, [ Cкачайте файл, чтобы посмотреть ссылку ] и 8 [ Cкачайте файл, чтобы посмотреть ссылку ], предназначены для использования в вещательных сетях. Передатчики транспондеров работают там в режиме, близкому к насыщению, что не позволяет модулировать несущую по амплитуде. Более скоростные схемы модуляции, 16 [ Cкачайте файл, чтобы посмотреть ссылку ] и 32 [ Cкачайте файл, чтобы посмотреть ссылку ], ориентированы на профессиональные сети, где часто используются более слабые наземные передатчики, не вводящие бортовые ретрансляторы в нелинейный режим работы, а на приемной стороне устанавливаются профессиональные конвертеры (LNВ), позволяющие с высокой точностью оценить фазу принимаемого сигнала. Эти схемы модуляции можно использовать и в системах вещания, но в этом случае каналообразующее оборудование должно поддерживать сложные варианты предыскажений, а на приемной стороне должен быть обеспечен более высокий уровень отношения сигнал/шум. Символы внутри констелляционного поля [ Cкачайте файл, чтобы посмотреть ссылку ] модулированного сигнала размещены по окружностям. Такой вариант является наиболее помехоустойчивым в плане передачи амплитуды символа и позволяет использовать ретрансляторы в режимах, близких к точке насыщения.
Обратим внимание на то, что, по сравнению с [ Cкачайте файл, чтобы посмотреть ссылку ], верхняя схема модуляции, 32 [ Cкачайте файл, чтобы посмотреть ссылку ], позволяет повысить общую скорость потока в 2,5 раза.
Одновременно с введением более высоких уровней модуляции стандарт DVB-S2 предусматривает возможность применения двух дополнительных коэффициентов скругления alpho (
·). К используемому в [ Cкачайте файл, чтобы посмотреть ссылку ]
· = 0,35, в новом стандарте добавлены коэффициенты
· = 0,20 и
· = 0,25. Новые, более низкие значения коэффициентов обеспечивают большую крутизну импульсов, что позволяет использовать спектр более эффективно. С другой стороны, снижение a способствует повышению нелинейных искажений, что особенно сказывается при передаче одной несущей на транспондер. Поэтому конкретное значение коэффициента выбирается с учетом всех параметров передачи.
Для защиты от помех в новом стандарте DVB-S2, как и в прежних, используется перемежение данных и наложение двухуровневого кода для прямой коррекции (Forward Error Correction - FEC). Но системы внешней и внутренней кодозащиты – другие, чем в стандарте DVB-S. В качестве внешней кодозащиты в место [ Cкачайте файл, чтобы посмотреть ссылку ] используется [ Cкачайте файл, чтобы посмотреть ссылку ] (BCH), а в качестве внутренней, вместо сверточного кода, - код с низкой плотностью проверок на четность (Low Density Parity Check Codes – [ Cкачайте файл, чтобы посмотреть ссылку ]).
Для дополнительного снижения частоты ошибки используется внешний уровень кодозащиты [ Cкачайте файл, чтобы посмотреть ссылку ], работающий при малой плотности ошибок. В большинстве режимов код позволяет исправлять до 12 ошибок, но в некоторых – до 8 или до 10 ошибок.
Стандарты [ Cкачайте файл, чтобы посмотреть ссылку ] и [ Cкачайте файл, чтобы посмотреть ссылку ] жестко ориентированы на передачу транспортного потока [ Cкачайте файл, чтобы посмотреть ссылку ] TS. Структура транспортного кадра нового стандарта не привязана к определенному формату. Она позволяет передавать как транспортные пакеты [ Cкачайте файл, чтобы посмотреть ссылку ], так и произвольные потоки с непрерывной или пакетной структурой.
DVB-S2 предусматривает двухуровневое пакетирование потока, введенное для решения проблемы с синхронизацией приемной системы в условиях работы с низким уровнем отношения сигнал/шум.
Режимы с совместимостью вниз в основном предназначены для сетей вещания и более всего – для операторов, предоставляющих субсидии на покупку абонентских приемников. Они могут использовать эти режимы на время смены парка приемников, а затем переключиться на более эффективные, несовместимые режимы.
Стандарт DVB-S2 допускает два таких режима. В первом производится одновременная передача сигналов стандартов [ Cкачайте файл, чтобы посмотреть ссылку ] и DVB-S2, асинхронно комбинируемых в одном частотном канале. Во втором сигнал DVB-S2 накладывается на сигнал [ Cкачайте файл, чтобы посмотреть ссылку ] с помощью иерархической модуляции. То есть поток [ Cкачайте файл, чтобы посмотреть ссылку ] выступает в качестве сигнала верхнего приоритета, а поток DVB-S2 – в качестве сигнала нижнего приоритета (рис.2). Сигнал DVB-S2 передается с помощью модуляции 8 [ Cкачайте файл, чтобы посмотреть ссылку ] с неоднородной структурой констелляционного созвездия. Две точки созвездия, размещенные в каждом квадранте, отображают один символ сигнала с верхним приоритетлм. Наложение сигнала DVB-S2 осуществляется сдвигом символов в констелляционном поле по окружности на угол ±
·. Такой сигнал может передаваться ретранслятором, работающим в режиме, близкому к насыщению.
Совместимые вниз режимы не позволяют полностью использовать потенциал нового стандарта DVB-S2 и довольно сложны в реализации. Поэтому, скорее всего, они не получат широкого распространения.
В зависимости от выбранного режима помехоустойчивого кодирования и схемы модуляции, уровень сигнал/шум, позволяющий принять сигнал на приемной стороне, колеблется от -2,4 dB (при модуляции [ Cкачайте файл, чтобы посмотреть ссылку ] и [ Cкачайте файл, чтобы посмотреть ссылку ] с относительной скоростью 1/4) до +16 dB (32 [ Cкачайте файл, чтобы посмотреть ссылку ] и FEC 9/10). Эти значения справедливы для гауссовского канала и идеального демодулятора. Они были получены методом компьютерного моделирования. При условии допустимости BER на уровне 10Е-7 энергетика сигнала превышает [ Cкачайте файл, чтобы посмотреть ссылку ] всего на 0,7 – 1,2 dB.
По сравнению с [ Cкачайте файл, чтобы посмотреть ссылку ], новый стандарт DVB-S2 обеспечивает повышение скорости передачи полезной информации на 20-35% или при той же эффективности использования спектра дает запас по уровню сигнала в 2-2,5 dB.
На рис. 2 показаны варианты полезной скорости, достигаемые при разных конфигурациях системы, а также полезные скорости сигналов стандартов [ Cкачайте файл, чтобы посмотреть ссылку ] и [ Cкачайте файл, чтобы посмотреть ссылку ].

Рис. 6.2
Выигрыш в эффективности передачи оказывается еще более значительным при использовании режима АСМ, предназначенного для интерактивных адресных приложений, таких как передача IP unicast. Этот режим позволяет исключить запас по энергетике в 4-8 dB, закладываемый в спутниковые сигналы для неблагоприятных условий приема, что дает возможность удвоить или утроить пропускную способность транспондера. Режим АСМ наиболее эффективен применительно к трансляциям К
·-диапазона, а также для тропических зон приема.
На рис. 3 показана схема работы спутниковой системы в этом режиме. Система включает АСМ шлюз, DVB-S2 модулятор с поддержкой АСМ, передающую наземную станцию, спутник и систему приема спутникового сигнала, подключенную к АСМ шлюзу через реверсный канал.
В АСМ режиме формат помехоустойчивого кодирования и схема модуляции могут меняться от кадра к кадру. В условиях повышенного затухания сигнала услуга может поддерживаться за счет снижения скорости передачи полезной информации с одновременным повышением избыточности помехозащитного кода и/или перехода к более помехоустойчивой схеме модуляции. Качество принимаемого сигнала оценивается параметром [ Cкачайте файл, чтобы посмотреть ссылку ] + I.

[ Cкачайте файл, чтобы посмотреть ссылку ]
Рис 6.3
Каждая приемная система измеряет величину этого параметра и по реверсному каналу отправляет результат к АСМ шлюзу.
Следует отметить, что консорциум [ Cкачайте файл, чтобы посмотреть ссылку ] не предполагает, что новый стандарт заменит старые уже в ближайшее время. Сегодня в мире работает множество коммерчески успешных спутниковых сетей стандарта [ Cкачайте файл, чтобы посмотреть ссылку ], и их трансляции принимаются миллионами декодеров, способными прослужить еще не один год. Поэтому наиболее вероятным сценарием внедрения нового стандарта DVB-S2 выглядит его использование для трансляции услуг, которые не могут быть приняты традиционными приемниками. Например, ТВ сигналов, компрессированных в новых форматах и/или передаваемых с высоким разрешением.
Вполне возможно, что новый стандарт DVB-S2 быстро найдет применение и в сетях спутникового сбора новостей. Хотя бы в виду значительных преимуществ, которые предоставляет АСМ режим. Но скорость его массового внедрения, вероятно, будет зависеть от появления новых услуг, несовместимых с имеющейся приемной аппаратурой.


7. Система цифрового наземного ТВ вещания DVB-T

Система цифрового наземного ТВ вещания DVB-T определяется как функциональный блок оборудования, обеспечивающий адаптацию цифрового ТВ сигнала, представленного в основной полосе частот на выходе транспортного мультиплексора MPEG-2, с характеристиками стандартного наземного радиоканала вещания, имеющего ширину полосы частот 8 МГц.
Поскольку система DVB-T, как и любая другая система цифрового наземного ТВ вещания (ЦНТВ), должна использовать существующие частотные планы и в течение достаточно длительного переходного периода обеспечивать вещание наряду с действующими аналоговыми ТВ системами, она должна обладать требуемой помехозащищенностью со стороны аналоговых систем и не должна создавать недопустимых помех для них.
Для обеспечения всех необходимых требований по адаптации потока данных к радиоканалу вещания в составе передающего комплекта системы DVB-T имеются устройства кодирования для канала, мультиплексирования и модуляции.
Выход транспортного мультиплексора является точкой стыка подсистем формирования и передачи транспортных пакетов. Таким образом, входным сигналом тракта адаптации является поток транспортных пакетов фиксированной длины 188 байт, из которых один (первый) байт служит для цикловой синхронизации. Для более равномерного распределения (дисперсии) энергии радиосигнала в полосе канала входной поток подвергается рандомизации (скремблированию). Система DVB-T имеет два идентичных по структуре тракта рандомизации и помехоустойчивого кодирования. Такое построение позволяет использовать иерархические методы независимого кодирования двух потоков данных для организации их приоритетного приема в зонах вещания с различной площадью покрытия. Общая часть тракта подсистемы адаптации служит для преобразования потоков данных в комбинации битов, соответствующих модулированным посылкам, ввода сигналов цикловой синхронизации и управления, формирования защитных временных интервалов, преобразования цифровых сигналов в модулированный групповой спектр COFDM, переноса его в полосу канала вещания, усиления и излучения в эфир.
Построение подсистемы кодовой защиты в системе DVB-T выполнено по традиционному для систем ЦНТВ каскадному принципу. Для защиты от ошибок в демодулируемом сигнале COFDM служит внутренний сверточный кодек с набором различных кодовых скоростей и относящийся к нему блок внутреннего перемежения-деперемежения битов. Для исправления пакетов ошибок и дополнительного снижения вероятности ошибки в декодированном сигнале служит внешний кодек Рида- Соломона и внешний перемежитель-деперемежитель байтов транспортного потока.
При разработке подсистемы кодирования для канала в системе DVB-T были максимально учтены требования близости структуры и параметров к спутниковой (DYB-S) и кабельной (DVB-C) системам. Так, схемы внешнего кодирования и внешнего перемежения являются одинаковыми во всех трех системах DVB. Схемы внутреннего кодирования и рандомизации (скремблирования) соответствуют таковым в спутниковой системе DVB-S.

8. Мультиплексирование в системах цифрового ТВ вещания

Одна из основных трех частей MPEG-2 является спецификация ISO/IEC 13818-1 – описывает объединение одного или более элементарных потоков видео и звука, а также других данных, в единственный или кратные потоки, подходящие для хранения или передачи. Системное кодирование следует синтаксическим и семантическим правилами, наложенным этими техническими требованиями и обеспечивает передачу информации, позволяющей синхронизированное декодирование буферов декодеров в широком диапазоне условий приема или поиска.
8.1 Уровни мультиплексирования
Системы цифрового ТВ вещания, соответствующие различным международным стандартам, отличаются в основном уровнем адаптации к сети. На транспортном уровне механизмы обработки данных в известных системах практически совпадают, поскольку все они основаны на алгоритмах мультиплексирования и передачи служебной информации, описанных в стандарте MPEG-2. Транспортный уровень очень важен, так как создает универсальную многоцелевую систему, и его жесткая регламентация позволяет разрабатывать совместимые абонентские приставки, использовать в различных системах общие алгоритмы восстановления и представления информации. Субсистема мультиплексирования и транспортировки принимает цифровые потоки, представляющие данные, изображения, звуковые данные, дополнительные и служебные данные, формирует их в управляемые пакеты, обеспечивает механизм индикации начала пакета (синхронизация), назначает каждому пакету соответствующий код идентификации (заголовок) и объединяет (мультиплексирует) пакеты в общий транспортный поток данных. Субсистема мультиплексирования и транспортировки является основой цифровой системы связи.
Групповой сигнал в системе цифрового телевидения формируется мультиплексированием потоков битов различных компонентов: видео- и аудиоданных и управления (сервисной информации). Процесс мультиплексирования в системе может быть представлен как комбинация мультиплексирования на двух различных уровнях программном и системном.
Аналоговые сигналы вещательных служб сначала кодируются (как описано в ISO / IEC 13818-2 (колирование видео) и ISO / IEC 13818-3 (кодирование аудио) со сжатием данных в непрерывные, так называемые элементарные потоки битов (Elementary Stream, ES), которые могут иметь фиксированную или переменную скорость передачи данных. В общем случае перед мультиплексированием элементарные потоки ES, представляющие кодированные сигналы или данные из базы, а также поток битов управления преобразуются в промежуточные пакетированные элементарные потоки (Packetized Elementary Stream, PES), или PES-пакеты, т.е. потоки данных в виде больших пакетов переменной длины (достаточно большой длины – до 64 кбайт), они содержат заголовок и полезную нагрузку. В заголовке размещаются данные сервисной информации SI. В полезной нагрузке PES-пакета байты данных элементарного потока ES содержатся в их естественном порядке. Нет никаких требования по согласованию начала полезных данных пакета и начала блоков доступа, поэтому начало блока доступа может быть в любой точке PES-пакета, а несколько малых блоков доступа могут попасть в один PES-пакет. Длина PES-пакетов не фиксируется стандартом, так как данные пакеты не предназначены для использования в качестве самостоятельной единицы. Эту свободу можно использовать по-разному. Например, можно просто установить фиксированную длину всех пакетов, а можно согласовывать начало пакета с началом блока доступа. Формирование PES-потока из элементарного потока ES проиллюстрировано на рисунке 8.1



Рисунок 8.1 – Формирование PES потока

Каждый из индивидуальных потоков битов идентифицируется своим уникальным идентификатором пакета (Packet Identifier, PID). Поток битов управления мультиплексированием содержит таблицу структуры программы (Program Map Table, РМТ), которая включает информацию об идентификаторах пакетов PID транспортных потоков, образующих программу, о приложениях, передаваемых посредством этих потоков, и о соотношениях между потоками PES-пакетов. Данные управления также структурируются в специальный PES-пакет, в полезной нагрузке которого размещается таблица РМТ.
Далее существуют две возможности мультиплексирования: формирование программного потока (Program Stream, PS) с длинными пакетами переменной длины и формирование транспортного потока (Transport Stream, TS) с короткими пакетами фиксированной длины, что на рисунке 8.2 показано для некоторой произвольной комбинации компонентов в виде аудио- и видеоданных. Эти две схемы мультиплексирования порождены различными задачами по обработке и передаче информации. Программные потоки содержат минимальную избыточность, обусловленную вводом данных управления, и предназначены в основном для некоторых видов дополнительной программной обработки и для хранения массивов информации на носителях, для которых характерна весьма низкая вероятность ошибки, например, для записи на CD-ROM. При необходимости поток PS может содержать всего один поток ES, т.е. может быть получен перекодированием без мультиплексирования.



Рисунок 8.2 – Программное и транспортное мультиплексирование
в системах цифрового ТВ

При формировании программного потока образуются блоки из PES-пакетов. Блок содержит заголовок блока, системный заголовок (необязательный), за которым следует некоторое количество PES-пакетов. Длина блока программного потока может быть произвольной, единственное ограничение – заголовки блока должны появляться не реже, чем через 0,7 секунды. Это связано с тем, что в заголовке содержится важная информация – опорное системное время. Системный заголовок содержит информацию о характеристиках программного потока, таких, например, как максимальная скорость передачи данных, число видео и звуковых элементарных потоков. Формирование программного потока проиллюстрировано на рисунке 8.2. Декодер использует эту информацию, например, для того, чтобы решить, может ли он декодировать этот программный поток. Предназначен для использования в условиях окружения, не вносящего ошибки в цифровые данные. Причина этому – сравнительно большие блоки переменной длины. Искажения из-за ошибок одного блока могут означать потерю, например, целого кадра телевизионного изображения. Поскольку длина блока переменная, то декодер не может предсказывать время конца одного блока и начало другого и вынужден полагаться только на информацию о длине, содержащуюся в заголовке. Если соответствующее поле заголовка окажется пораженным ошибками, то декодер выйдет из синхронизма и потеряет, по крайней мере, один блок. К преимуществам, получаемым при использовании программного потока, можно отнести то, что процедура демультиплексирования программного потока относительно проста.


Рисунок 8.3 – Формирование программного потока
Транспортный поток может объединять пакетные элементарные потоки, переносящие данные нескольких программ с независимыми временными базами. Он состоит из коротких пакетов фиксированной длины (188 байтов). Элементарные потоки видео, звука и дополнительный данных (например, телетекст) разбиваются на фрагменты, равные по длине полезной нагрузке транспортного пакета (184 байта) и мультиплексируются в единый поток (рисунок 3.7). Этот процесс подчиняется ряду ограничений:
Первый байт каждого PES-пакета элементарного потока должен быть первым байтом полеезной нагрузки транспортного пакета;
Каждый транспортный пакет может содержать данные лишь одного PES-пакета.






Рисунок 8.4 – Формирование траспортного потока
Размер потока транспортного потока выбран для совместимости с широко применяемым на сетях связи стандартом асинхронной передачи данных АТМ.
Структура транспортного потока оптимизирована для условий передачи данных в каналах связи с шумами. Это проявляется, прежде всего, в небольшой длине пакетов. Типичные примеры защиты от ошибок данных транспортного потока дают системы цифрового телевизионного вещания. В системах DVB к 188 байтам каждого транспортного пакета добавляются 16 проверочных байтов кода Рида-Соломона, что позволяет исправлять в каждом пакете до 8 пораженных шумами байтов.
На втором, системном уровне мультиплексирования из нескольких транспортных потоков TS отдельных программ формируется единый системный поток транспортных пакетов многопрограммной системы цифрового вещания. Полная структурная схема формирования системного потока транспортных пакетов, включая ввод дополнительных данных, а также данных управления системой ограничения доступа (СОД), показана на рисунке 8.5.



Рисунок 8.5 – транспортное мультиплексирование с
формированием системного потока

Такой поток, передаваемый по одному физическому каналу сети вещания, называется мультиплексом. В процессе мультиплексирования в состав транспортных пакетов, имеющих фиксированную длину 188 байт, вводится также поток битов управления (сервисной информации) системного уровня, для которого всегда PID=0. Этот поток в полезной нагрузке содержит таблицу взаимосвязи (ассоциации) программ (Program Association Table, PAT), которая отражает идентичность программ и транспортных потоков программ, идентифицируемых своими PID, содержащимися в таблице РМТ отдельной программы.
На приемной стороне системный транспортный поток образуется на выходе декодера для какого-либо определенного канала, по которому ведется передача (рисунок 8.6). Далее в демультиплексоре из системного транспортного потока выделяется транспортный поток конкретной программы, а из него компрессированные потоки, переносящие видеоданные и аудиоданные. Сжатые видео- и аудиоданные поступают в соответствующие декодеры, на выходе которых образуются восстановленные сигналы изображения и звука.


Рисунок 8.6 – структурная схема транспортного демультиплексирования и
декодирования

В реальных устройствах мультиплексирования и управления не требуется обязательного наличия формирователей PES-пакетов и нескольких транспортных мультиплексоров программного и системного уровней. Их функции могут быть интегрированы в другие устройства, что упрощает принципиальную схему и конструкцию блока мультиплексирования.
Скорость передачи мультиплексированного потока данных задается модемом, выдающим сигнал тактовой синхронизации и запросы на считывание TS-пакетов из транспортного мультиплексора, в составе которого по входам PES-пакетов имеется небольшая буферная память типа FIFO. В случае, если источник данных в данный момент времени недоступен, транспортный мультиплексор в ответ на запрос выдает нулевой пакет (без полезной нагрузки).
Для формирования и приема транспортного потока используется оборудования, которое работает по алгоритму программы. Программы работы кодеров, декодеров, мультиплексоров стандарта MPEG-2 строятся на конструкциях языка «Си». Каждая элементарная группа данных кодированного цифрового потока описывается своим именем, своей длиной в битах и мнемоническим обозначением своего типа и порядка передачи. Порядок следования байтов в многобайтовых словах: сначала старший значащий байт.
Численные значения констант в таблицах, представляющих сервисную информацию, часто приводятся в шестнадцатеричном формате, характерным признаком которого являются символы 0х в начале константы, например: 0x00000001, 0x34, 0x00EF и т.д.
Далее по тексту будут использоваться имена синтаксических конструкций, используемых в программном обеспечении, например, data_element.

8.2 Статистическое мультиплексирование

Важным направлением современного цифрового ТВ вещания является увеличение числа программ, предоставляемых пользователю в составе одного мультиплекса. При сохранении действующих частотных планов реализация этого вида обслуживания приобретает особое значение. Выдвигаются предложения о передаче по одному каналу до 10 ТВ программ различного качества. Решение этой задачи требует, с одной стороны, поиска новых методов сжатия видео- и аудиосигналов и передачи их с помощью спектрально-эффективных методов цифровой модуляции, а с другой применения адаптивного кодирования со сжатием и с расширенным статистическим мультиплексированием нескольких ТВ программ в общий цифровой поток.
При традиционной организации многопрограммного вещания пропускная способность канала делится между несколькими программами некоторым фиксированным образом. Это предполагает использование постоянной скорости передачи битов для каждой программы. Известно, что значение скорости передачи информации, необходимое для достижения желаемого качества изображения, зависит от содержания изображения. Поэтому новые методы кодирования предполагают, что более сложный материал кодируется с большим числом битов, чем менее сложный материал. Это означает, что для эффективного использования пропускной способности канала следует применять устройства сжатия с переменной скоростью битов, обеспечивая в результате заданное качество как для отдельно взятых программ, так и для всего набора программ, передаваемых в одном мультиплексе.
Для управления устройствами сжатия с переменными скоростями битов разработан метод, названный совместным управлением кодированием. Он отличается от обычного метода статистического мультиплексирования, основанного на "законе больших чисел". Последний, при малом числе источников имеет большую вероятность переполнения буфера, и, как следствие, общая скорость передачи превосходит пропускную способность канала, что приводит к потере данных. Метод совместного управления кодированием исключает потерю данных, поскольку общая скорость передачи не выходит за границы пропускной способности канала.
Стандартные кодеры MPEG-2 поддерживают режим кодирования с переменной скоростью выходных данных. Например, для цифрового ТВ сигнала стандартного качества (SDTV) скорость передачи может лежать в пределах от 2 Мбит/с до 15 Мбит/с. При обычном кодировании переменная скорость данных выравнивается специальным буфером, и передача по каналу идет с постоянной скоростью. При кодировании с совместным управлением каждое кодирующее устройство имеет свою собственную переменную скорость битов для каждой программы, выбираемую таким образом, чтобы общая скорость системы была постоянной и в оптимальном случае равной пропускной способности канала.


Рисунок 8.7 – структурная схема системы совместного управления кодированием

Структурная схема метода кодирования с совместным управлением от системного мультиплексора показана на рисунке 8.7. Для реализации этого метода необходимы линии двусторонней передачи данных между кодерами программ и системным мультиплексором. Наличие обратной связи от мультиплексора к индивидуальным программным кодерам позволяет адаптивно изменять коэффициент сжатия и скорость битов в потоках отдельных программ при постоянной скорости мультиплексированного группового потока. Для получения постоянной общей скорости устройство совместного управления подбирает приемлемые параметры кодирования в соответствии с предопределенными заранее условиями. При этом для обеспечения постоянного соответствия между качеством кодирования и скоростью передачи одни и те же параметры кодирования используются для всех программ.
Этот метод гарантирует, что более сложные программы будут производить больше данных и минимизировать изменения качества изображений для программ, передаваемых по одному каналу. Экспериментально полученные результаты свидетельствуют о том, что кодирование и сжатие с переменной (зависящей от исходного качества изображения) тактовой частотой кодерами MPEG-2 приводят к субъективно более высокому качеству и объективно более высокому с/ш кодированных изображений. При этом интегральное качество группы программ выше, чем при обычном кодировании с постоянной скоростью. В то же время существует проблема улучшения качества наиболее сложных программ, которое будет достигаться ценой снижения качества менее сложных программ.

8.3 Структура PES-пакета

Структура PES-пакета показана на рис. 8.8. PES-пакет состоит из заголовка и следующего за ним блока полезной нагрузки (PES_packet_data_bytes) в виде элементарного потока битов одного из возможных источников. Длина заголовка и содержимого пакета в общем случае переменные.
Префикс кода начала пакета (packet_start_code_prefix) кодовая комбинация фиксированной длины в 24 бита 0000 0000 0000 0000 0000 0001 (0x000001). Вместе со следующим за ней идентификатором потока stream_id образует код начала пакета, который служит для опознавания начала нового PES-пакета.
Идентификатор потока (stream_ID) поле длиной 8 бит. В программных потоках поле stream_id определяет тип и номер элементарного потока. В транспортных потоках в поле stream_id может быть установлено любое разрешенное значение, которое правильно описывает тип элементарного потока. В транспортных потоках тип элементарного потока определяется содержанием таблиц сервисной информации. Важые значения поля stream_id:
110ххххх - ISO/IEC 13818-3 звуковой поток номер ххххх;
1110хххх - ISO/IEC 13818-2 видео поток номер хххх;
11111111 - каталог (program stream directory). Содержит прямые ссылки на некоторые PES-пакеты программы для быстрой навигации. Это возможно только для программ, записанных на носители;
10111110 - padding_stream - заполняющий поток. Никакого полезного содержимого не несёт, используется для поддержания среднего битрейта общего мультиплексированного потока в случаях, когда в других потоках становится мало данных;
11110000 и 11110001 - Entitlement Control Messages (ECM) и Entitlement Management Messages (EMM) - зарезервированы для управления доступом, проще говоря - для ограничения возможности просмотра зашифрованных данных. Содержание их стандартом не регламентируется;
10111101 и 10111111 - private_stream_1 и private_stream_2 - приватные потоки 1 и 2, содержимое которых не регламентируется стандартом MPEG2, а оставляется для


Рисунок 8.8 – структура PES-пакета

возможных расширений. Например, в DVD приватный поток 1 используется для субтитров и аудиодорожек в AC3, DTS и LPCM, а 2 - для нацигационных пакетов (для ускоренного воспроизведения);
Длина PES-пакета (PES_packet_length) поле длиной 16 бит, указывающее число байтов содержимого пакета, т.е. байтов остающихся в пакете непосредственно после этого поля. Значение 0 показывает, что длина PES-пакета не определена и не ограничена. Это допускается только для PES-пакетов, в которых полезная нагрузка состоит из байтов элементарного потока видеоданных, содержащегося в пакетах транспортного потока.
Необязательный заголовок PES-пакета имеет переменную длину и содержит произвольное число полей в виде различных байтов управления, индикаторов, флагов и т.п., детально описывающих структуру данных пользователя и возможные режимы работы приемного оборудования. В этом заголовке содержаться селдующие основные флаги, указывающие на наличие или отсутствие в заголовке дополнительных полей, которые не являются обязательными:
управление скремблированием PES-пакета (PES_scrambling_control) поле длиной 2 бита указывает режим скремблирования полезной нагрузки PES-пакета. Если осуществлено скремблирование на уровне PES-пакета, то заголовок PES-пакета, который может содержать необязательные поля, не должен скремблироваться;
приоритет PES-пакета (PES_priority) поле длиной 1 бит, указывающее приоритет полезной нагрузки в данном PES-пакете. Значение 1 указывает на более высокий приоритет полезной нагрузки данного PES-пакета, чем у полезной нагрузки PES-пакета, у которого это поле установлено в 0. Мультиплексор может использовать бит PES_priority, что бы расположить входящие данные в пределах элементарного потока согласно их приоритетам;
флаг авторских прав (copyright) – поле с 1 битом. Установленное в «1» указывает, что материал, содержащийся в полезной нагрузке PES-пакета защищен авторским правом;
оригинал или копия (original_or_copy) поле длиной 1 бит. Если оно установлено в 1, то содержание связанной полезной нагрузки PES-пакета является оригиналом. Если оно установлено в 0, то содержание связанной полезной нагрузки PES-пакета является копией;
флаги PTS, DTS (PTS_DTS_flags) поле длиной 2 бита, указывающее на наличие полей с метками времени представления PST (Presentation Time Stamps) и декодирования DTS (Decoding Time Stamps). Когда поле PTS_DTS_flags установлено в 10, в заголовке PES-пакета должны присутствовать поля метки времени отображения PTS. Когда поле PTS_DTS_flags установлено в 11, в заголовке PES-пакета должны присутствовать и поля PTS, и поля метки времени декодирования DTS. Когда поле PTS_DTS_flags установлено в 00, в заголовке PES-пакета не должны присутствовать поля PTS или поля DTS. Значение поля 01 запрещено. Метки PTS и DTS имеют особую значимость – это механизм, обеспечивающий синхронизацию потоков данных в декодере (метки PTS и DTS будут рассмотрены в 8.5);
флаг «часов» элементарного потока (ESCR_flag) – 1-битный флаг. Установленный в «1» указывает, что поля ESCR присутствуют в заголовке PES-пакета. Значение «0» указывает, что полей ESCR нет. ESCR – это ссылка времени элементарного потока, т.е. метка времени в PES потоке, из которой декодеры PES потоков могут восстановить синхронизацию (ESCR будет рассмотрено в 8.5);
флаг скорости элементарного потока (ES_rate_flag) – 1-битный флаг. Установленный в «1» указывает, что поле ES_rate присутствует в заголовке PES-пакета. Значение «0» указывает, что поле ES_rate отсутствует. ES_rate (скорость элементарного потока) - поле с 22 битами, целое число без знака, определяющее скорость, с которой системный приемный декодер принимает байты PES-пакета в случае PES потока. ES_rate действительно в PES-пакете, в который оно включено, и в последующих PES-пакетах того же самого PES потока, пока не поступит поле ES_rate с другим значением;
DSM_trick_mode_flag - флаг с 1 битом. Установленный в «1» указывает присутствие поля метода «уловки» с 8 битами. Когда установлен в «0» указывает, что это поле отсутствует;
PES_CRC_flag: флаг проверки PES пакета поле длиной 1 бит, которое, будучи установлено в 1, указывает, что поле циклической проверки на четность CRC присутствует в PES-пакете. Если значение поля установлено в 0, то это указывает на то, что поле проверки отсутствует;
PES_extension_flag - флаг с 1 битом. Установленный в «1» показывает, что расширенное поле присутствует в заголовке PES-пакета. Когда установлен в «0», это поле отсутствует;
PES_header_data_length: длина данных заголовка PES пакета поле длиной 8 бит, которое определяет общее число байтов, занятых необязательными полями и любыми байтами стаффинга, содержащимися в заголовке этого PES-пакета. Присутствие необязательных полей индицируется байтом, который предшествует полю PES_header_data_length;
Необязательные поля в расширение PES пакета несут дополнителную информацию по программному потоку и частным данным.
8.4 Структура транспортных пакетов
Транспортный пакет стандарта MPEG-2 имеет постоянную длину, равную 188 байтам, заголовок пакета имеет переменную длину. Как показано на рисунке 8.8, в состав заголовка транспортного пакета входит канальный заголовок, имеющий фиксированную длину 4 байта и поле данных адаптации (выполняет функцию транспортного заголовка).

Рисунок 8.8 – формат транспортного пакета
В общем случае транспортные пакеты могут формироваться различными путями: объединением потоков ES, PES-пакетов и других TS-пакетов. Для многопрограммного вещания транспортные потоки отдельных программ асинхронно объединяются в мультиплекс, подлежащий передаче по каналу.
Транспортный пакет имеет сложную многоуровневую структуру, показанную на рисунке 8.9.
Канальный заголовок имеет следующие поля.
Первый байт заголовка – байт синхронизации (sync_byte) – фиксированное поле длиной 8 бит, имеющее значение 0100 0111 (0x47), легко опознаваемое демультиплексором. Так как заголовки транспортных пакетов следуют с интервалом в 188 байт, то это упрощает определение начала пакета.


Рисунок 8.9 – структура заголовка и поля адаптации транспортного пакета

Индикатор ошибки транспортировки (transport_error_indicator) флаг длиной 1 бит. Будучи установленным в 1, он указывает на то, что в соответствующем пакете транспортного потока имеется, по крайней мере, одна неисправимая ошибка в битах. Этот бит может быть установлен в 1 объектами, внешними по отношению к транспортному уровню. Будучи установленным в 1, этот бит не должен быть сброшен в 0, пока не будут исправлены значения битов, имеющих ошибки;
Индикатор ошибки транспортировки (payload_unit_start_indicator) флаг длиной 1 бит, который имеет нормативное значение для пакетов транспортного потока, переносящих PES-пакеты или данные сервисной информации SI.
Когда полезная нагрузка пакета транспортного потока содержит данные PES-пакета, то payload_unit_start_indicator имеет следующий смысл: 1 указывает на то, что полезная нагрузка этого пакета транспортного потока начнется с первым байтом PES-пакета, а 0 на то, что в этом пакете транспортного потока не может быть начала PES-пакета.
Когда полезная нагрузка пакета транспортного потока содержит данные сервисной информации SI, payload_unit_start_indicator имеет следующий смысл: если пакет транспортного потока содержит первый байт секции SI, то значение payload_unit_start_indicator должно быть 1, указывая на то, что первый байт полезной нагрузки этого пакета транспортного потока содержит поле указателя pointer_field. Если пакет транспортного потока не содержит первого байта секции SI, то значение payload_unit_start_indicator должно быть 0, указывая на то, что в полезной нагрузке нет поля указателя pointer_field.
Для пустых пакетов payload_unit_start_indicator должен быть установлен в 0.
Значение этого бита для пакетов транспортного потока, переносящих только частные данные в стандарте MPEG-2, не определено.
Приоритет транспортировки (transport_priority) индикатор длиной 1 бит. Будучи установленным в 1 он указывает на то, что связанный с ним пакет имеет больший приоритет, чем другие пакеты, имеющие тот же самый индикатор PID, но в которых этот бит не установлен в 1. Транспортный механизм может использовать этот индикатор для расположения по приоритетам всех данных в пределах элементарного потока. В зависимости от применения поле transport_priority может быть кодировано независимо от PID или только для одного PID. Это поле может быть изменено кодерами или декодерами для специфических каналов.
PID: идентификатор пакета поле длиной 13 бит, указывающее тип данных, содержащихся в полезной нагрузке пакета. PID служит основным признаком, по которому демультиплексор сортирует приходящие PES-пакеты на приемной стороне. Из общего числа 8192 возможных значений PID 16 выделены на общесистемные цели, номер 8191 закреплен за стаффингом байтами, остальные могут назначаться пользователем произвольно для отдельных компанент своихпрограмм. Значение PID 0x0000 зарезервировано для таблицы взаимосвязи программ PAT. Значение PID 0x0001 зарезервировано для таблицы ограниченного доступа CAT. Значения идентификатора PID от 0x0002 до 0x000F являются зарезервированными. Значение PID 0xlFFF сохранено для пустых пакетов. Значения идентификатора PID приведены в таблице 8.1.

Таблица 8.1 – значения PID
Значение
Описание

0х0000
Таблица взаимосвязи программ PAT

0х0001
Таблица условного доступа CAT

0х0002 0х000F
Зарезервированы

0х00100x1FFE
Может быть присвоено сетевому идентификатору networkPID, идентификатору структуры программы Program_map_PID. идентификатору элементарного потока elementary_PID или для других целей

0х1FFF
Нулевой пакет

Примечание: транспортные пакеты с PID 0х0000, 0х0001 и 0х00100х1FFE предназначены для переноса PCR



transport_scrairibling_control поле длиной 2 бита указывает режим скремблирования полезной нагрузки пакета транспортного потока. Заголовок пакета транспортного потока и поле адаптации, когда таковое присутствует, не должны скремблироваться. В случае пустого пакета значение поля transportscrambling control должно быть установлено в 00 (таблица 8.2).

Таблица 8.2 – Значения поля управления скремблироваеия

Значение
Описание

00
Без скремблирования

01
Определяется пользователем

10
Определяется пользователем

11
Определяется пользователем


adaptation_field_control: управление полем адаптации поле длиной 2 бита указывает, следует ли поле адаптации и/или полезная нагрузка за этим заголовком пакета транспортного потока (таблица 8.3).


Таблица 8.3 – Значения поля адаптации

Значение
Описание

00
Зарезервирован для будущего использования ISO/IEC

01
Поле адаптации отсутствует, только полезная нагрузка

10
Только поле адаптации, полезная нагрузка отсутствует

11
Поле адаптации расположено за полезной нагрузкой


Декодеры, определенные в Стандарте ISO/IEC 13818-1, должны отказаться от декодирования пакетов транспортного потока с полем adaptation_field_control, установленным в 00. В случае пустого пакета значение поля adaptation_field_control должно быть установлено в 01.
continuity_counter: счетчик непрерывности поле длиной 4 бита. Четырехбитовый счетчик непрерывности PES-пакетов увеличивает свое значение на единицу при поступлении каждого следующего PES-пакета с данными PID и обнуляется после каждого 15-20 пакета. Он позволяет декодеру обнаруживать потерю PES-пакета и принимать меры по его замене или маскированию ошибок, которые могут возникнуть из-за его потери.
Поле адаптации занимает часть области полезных данных и служи для ввода управляющих и вспомогательных сигналов, передаваемых не в каждом транспортном пакете. Поле адаптации может также использоваться для передачи данных пользователя, в этом случае оно разбивается на секции.
Поле адаптации, содержит следующие основные поля:
adaptation_field_lenght – длина поля адаптации, поле с 8 битами, определяющее количество байтов в области поля адаптации, следующей сразу за adaptation_field_lenght . Для пакетов Транспортного потока, несущих PES-пакеты, наполнение необходимо, когда PES-пакеты имеют длину, недостаточную для заполнения полезной нагрузки пакета Транспортного потока. Заполнение поля адаптации выполняется таким образом, чтобы суммарная длина его данных и байтов полезной нагрузки, следующих за ним, точно уместились в доступную длину PES-пакета. Дополнительное место в поле адаптации заполняется байтами наполнения. Для пакетов Транспортного потока, несущих PSI, метод заполнения будет рассмотрен в разделе 8.6.
Неоднородность синхронизации системы обозначена при помощи индикатора discontinuity_indicator в пакетах Транспортного потока с PID, определенным как PCR_PID . Когда состояние неоднородности истинно для пакета Транспортного потока с PID, обозначенным как PCR_PID, следующая PCR в пакете Транспортного потока с тем же самым PID представляет отсчет новой синхронизации системы для данной программы. Когда discontinuity_indicator установлен в «0, состояние неоднородности ложно.
elementary_stream_priority_indicator - индикатор приоритета элементарного потока является полем с 1 битом. Оно указывает приоритет данных элементарных потоков среди пакетов с одинаковым PID, которые расположены в пределах полезной нагрузки данного пакета Транспортного потока. «1» указывает, что полезная нагрузка имеет более высокий приоритет, чем полезные нагрузки других пакетов. В случае видео, это поле может быть установлено только в «1», если полезная нагрузка содержит один или более байтов I-кодированного слоя.
Затем идут пять флагов укзывающие на присутствие или отсутствие тех или иных необязательных полей в поле адаптации.
PCR_flag - флаг с 1 битом. Значение «1» указывает, что область адаптации содержит поле PCR из двух частей. Значение «0» указывает, что поле адаптации не содержит поля PCR. program_clock_reference (PCR) - поле с 42 битами. PCR - отсчеты программного времени, являются средством синхронизации программы (PCR будет рассмотрено в 3.4);
OPCR_flag – 1-битный флаг. Значение «1» указывает, что область адаптации содержит поле OPCR, которое кодируется в двух частях. Значение «0» указывает, что поле адаптации не содержит поля OPCR. original_program_clock_reference_base – необязательная ссылка оригинала программы (OPCR) - поле с 42 битами. Поля OPCR разрешены в однопрограммных и многопрограммных Транспортных потоках. OPCR помогает отличить однопрограммный Транспортный поток от других Транспортных потоков. При восстановлении первоначального однопрограммного Транспортного потока, OPCR может быть скопирован в поле PCR. Окончательное значение PCR имеет силу, если первоначальный однопрограммный Транспортный поток восстановлен точно во всей полноте. Он должен включать по крайней мере любую PSI и пакеты частных данных, которые присутствовали в первоначальном Транспортном потоке; возможно, потребуются и другие меры. Это также означает, что OPCR должен быть копией связанного с ним PCR в первоначальном однопрограммном Транспортном потоке;
transport_private_data_flag – 1-битный флаг. Значение «1» указывает, что поле адаптации содержит один или большее количество байтов private_data. Значение «0» указывает, что поле адаптации не содержит байтов с частным данными. transport_private_data_length - поле с 8 битами, определяющее количество байтов private_data, следующих непосредственно за полем private_data_length. Количество байтов не должно быть таким, чтобы частные данные простирались за пределы поля адаптации;
adaptation_field_extension_flag – 1-битное поле, которое указывает присутствие расширения поля адаптации при значении «1». Значение «0» указывает, что расширения поля адаптации нет в данном поле адаптации. adaptation_field_extension_length - поле с 8 битами. Указывает количество байтов расширенных данных поля адаптации, следующих непосредственно за этим полем, включая зарезервированные байты, если они есть. В расширенные данные поля адаптации вводится доплнительная информация, используемая декодером при декодировании.
8.5 Передача сервисной информации в системах цифрового ТВ вещания
8.5.1 Место сервисной информации
Технология цифрового ТВ вещания это использование структуры транспортных пакетов MPEG-2 в качестве, так называемых, контейнеров данных. Каждый контейнер является оболочкой, в которую упакованы данные различных источников. Транспортный поток системы цифрового ТВ вещания обычно объединяет в себе несколько ТВ программ и других дополнительных или вспомогательных служб, т.е выполняет роль контейнера на физическом уровне. На приеме транспортный поток должен быть адекватно разделен на свои составляющие для выдачи абоненту или для дополнительной обработки. При этом требуется достаточно высокий уровень автоматизации декодера, поддерживающий работу по предварительно введенной программе без непосредственного вмешательства абонента. Для осуществления всех необходимых операций по декодированию и выделению информации, а также для информирования абонента о текущем режиме работы или о выборе интересующих его служб используется передача специальной служебной информации, образующей канал управления системой вешания. Эта специальная служебная информация играет роль заголовка контейнера данных.
В стандарте MPEG-2 ISO/IEC 13818-1 для целей управления зарезервированы специальные служебные данные, называемые специфической информацией о программах (PSI). При разработке образцов реальных систем цифрового ТВ вещания данные PSI были расширены применительно к конкретно решаемым задачам. Сочетание данных PSI и дополнительных служебных данных получило название сервисной информации (SI).
Система сервисной информации SI может использоваться декодером и пользователем для навигации по таблице предоставляемых услуг. Ключевые данные, необходимые для автоматической самоконфигурации декодера, предоставляются MPEG-2 PSI. SI добавляет информацию, позволяющую декодеру автоматически настраиваться на конкретные службы и осуществлять группировку служб по категориям, исходя из информации в расписании. Поскольку зритель в буду- щем будет принимать на свой приемник-декодер сотни каналов, то ему для навигации между новыми службами потребуется помощь в виде злектронного путеводителя по программам EPG. В SI приведены технические атрибуты каждой службы, предоставляемой индивидуальным вещателем, а также информация о времени начала передачи, имени провайдера службы и классификации событий (спорт, новости и др.).
8.5.2 Таблицы сервисной информации
Данные служебной информации PSI и SI организованы в виде ряда таблиц. Каждая таблица содержит данные, относящиеся к определенной функции, которая может потребоваться в приемнике для решения поставленной задачи. Некоторые таблицы очень малы по объему, другие, напротив, могут иметь объем от нескольких килобайт до 2-3 Мбайт.
Специфическая информация о программах PSI предоставляет информацию, требуемую для автоматического конфигурирования приемника, декодирующего и демультиплексирующего различные потоки программ в мультиплексе; она состоит из четырех таблиц:
РМТ (Program Map Table): таблица структуры программы содержит идентификаторы программ (PID) всех компонентов конкретной программы: видео, аудио, ДИ. Таблица РМТ идентифицирует и указывает местоположение потоков, которые составляют каждую службу, и местоположение полей эталонных меток времени программы конкретной службы;
PAT (Program Association Table): таблица взаимосвязи (ассоциации) программ содержит идентификаторы программ (PID) таблиц РМТ для всех программ, передаваемых в данном транспортном потоке. Для каждой службы в мультиплексе таблица PAT указывает местонахождение соответствующей таблицы РМТ (значения PID пакетов транспортного потока). Она также указывает местонахождение таблицы сетевой информации (NIT).
CAT (Conditional Access Table): таблица ограниченного доступа - содержит PID всех сообщений ограниченного доступа (EMM) для платных программ. Таблица CAT предоставляет информацию о системах ограниченного доступа (СОД), используемых в мультиплексе. Информация частная (т.е. не определенная в существующем стандарте [6]) и зависящая от СОД, но включающая местоположение потока EMM, когда таковой существует.
NIT (Network Information Table): таблица сетевой информации – служит для предаставления иформации о физической сети (параметрах системы передачи данных): идентификаторе сети, частоте, орбитальной позиции и пр. Группирует вместе службы, относящиеся к специфическому поставщику сети. Содержит всю информацию, которая может потребоваться для настройки IRD, используется для сигнализации об изменениях в настроечной информации.
Дополнительная сервисная информации SI служит для описания технических атрибутов каждой из доступных служб, предоставляемых индивидуальными вещателями. Она необходима для того, чтобы пользователь мог идентифицировать службы и события, переносимые различными мультиплексами по различным сетям. Данные SI структурированы в десять таблиц: SDT (таблица описания службы - содержит перечень названий служб, провайдеров услуг и других параметров), EIT (таблица информации о событиях содержит сведения обо всех событиях или программах в мультиплексе MPEG-2), TDT (таблица дат и времени используется для передачи информации точного времени, включая текущее время и дату, служит для подстройки внутреннего синхрогенера-тора приемника-декодера IRD), ВАТ (таблица группы служб), RST (таблица текущего статуса), ТОТ (таблица смещения времени несет информацию, относящуюся к текущему времени и дате и к смещению местного времени), ST (таблица байтов стаффинга), SIT (таблица выбираемой информации), DIT (таблица неоднородности информации), TSDT (таблица описания транспортного потока).
8.5.3 Использование таблиц сервисной информации
Для того чтобы интерпретировать содержание транспортного потока, приемник-декодер должен, в первую очередь, декодировать данные SI, содержащиеся в пакетах с особым идентификатором PID.
Использование различных таблиц сервисной информации SI удобно продемонстрировать на примере одного из возможных методов доступа к потоку данных и его декодирования в приемнике, показанному на рисунке 3.13. Прием программы основывается на анализе следующих четырех таблиц PSI:
РМТ передает соотношения между элементарными потоками, образующими программу, сведения об их атрибутах, а также идентификатор пакета PID, в котором посылается информация;
NIT передает сведения о канале, по которому посылается информация;


Рисунок 3.14 – Структурная схема обработки данных в приемнике-декодере

PAT указывает идентификаторы PID, используемые для передачи таблиц РМТ или NIT;
CAT обеспечивает ограничение доступа к информации.
Декодер таблицы ассоциации программ PAT идентифицирует идентификаторы пакетов PID, содержащие сетевую информацию, и различные таблицы структуры программы РМТ.
Таблица РМТ конкретной программы идентифицирует PID, относящиеся к пакетам сигналов изображения, звука и данных, опрашивая их в соответствии со схемой последовательности операций, показанной на рисунке 3.14. В этом примере приведена схема объединения программ, устанавливающая взаимосвязь различных компонентов, используя базовый номер программы и офсеты его значений для отдельных компанентов.

8.5.4 Передача таблиц сервисной информации

При передаче сигналов цифрового телевидения сервисная информация SI встраивается в каждый транспортный поток вещаемого мультиплекса в качестве независимого сигнала.
Определенные в ISO/IEC 13818-1 таблицы PSI должны быть сегментированы в одну или большее количество секций, которые содержатся в пределах транспортных пакетов. Секция - синтаксическая структура, которая должна использоваться для определения карты каждой определенной таблицы PSI в пакетах Транспортного потока. Секции могут быть переменной длины. Начало секции обозначено pointer_field в полезной нагрузке пакета Транспортного потока.
Между секциями и пакетами транспортного потока должно быть устанавлено четкое соответствие. Секции могут начинаться в начале полезной нагрузки пакета транспортного потока, но это не является обязательным требованием, потому что начало первой секции в полезной нагрузке транспортного пакета указывается в поле pointer_field. В транспортном пакете никогда не может быть более одного поля pointer_field, так как начало любой другой секции может быть идентифицировано подсчетом длины первой и любых последующих секций, поскольку используемый синтаксис не допускает никаких промежутков между секциями в пределах пакета транспортного потока.
В пределах пакетов транспортного потока с любым единственным значением PID одна секция заканчивается прежде, чем может быть разрешен старт следующей, иначе было бы невозможно определить, к какому заголовку секции относятся данные. Если секция заканчивается ранее конца транспортного пакета, но начинать другую секцию неудобно, то для заполнения пространства полезной нагрузки можно использовать механизм стаффинга.
Стаффинг осуществляется заполнением каждого остающегося байта транспортного пакета значением 0xFF. Следовательно, значение 0xFF нельзя использовать табличным идентификатором tableid. Если байт, следующий непосредственно за последним байтом секции, принимает значение 0xFF, то вся оставшаяся часть транспортного пакета должна быть заполнена байтами 0xFF. Эти байты могут игнорироваться декодером. Стаффинг может также быть выполнен с использованием механизма поля адаптации.
Чтобы правильно декодировать таблицы сервисной информации SI, для них зарезервированы значения PID.
В таблице 3.4 перечислены значения идентификатора программы PID, которые должны использоваться для пакетов транспортного потока, переносящих секции сервисной информации SI

Таблица 3.4 – значения идентификаторов PID для таблиц SI
Таблица SI
Значение PID

PAT
0x0000

CAT
0x0001

TSDT
0x0002

Зарезервировано
0x0003 - 0x000F

NIT, ST
0x0010

SDT, BAT, ST
0x0011

EIT, ST
0x0012

RST, ST
0x0013

TDT, TOT, ST
0x0014

Синхронизация сети
0x0015

Зарезервировано для использования в будущем
0x0016-0x001D

DIT
0x001Е

SIT
0x001F



8.6 Синхронизация в системах цифрового ТВ вещания

8.6.1 Принцип постоянной задержки
Кадры телевизионного изображения поступают на вход кодера MPEG-2 с постоянной частотой, точно с такой же частотой должны воспроизводиться кадры телевизионного изображения на выходе декодера. Это означает, что общая задержка в системе, представляющая собой сумму задержек в отдельных элемента схемы, должна быть постоянной (рисунок 3.15). Объем данных, необходимый для представления кодированных изображений, не является постоянной величиной. Он зависит от детальности изображения, от наличия быстро перемещающихся объектов, от способа кодирования (I, P и B изображения характеризуются разными объемами данных). Энтропийное кодирование формирует слова с переменной длиной. А для равномерной загрузки канала связи данные должны следовать с постоянной скоростью. Проблема решается за счет использования буфера кодера (данные поступаю в буфер с переменной скоростью, а выходят – с постоянной).



Рисунок 3.15 – Принцип компрессии с постоянной задержки

Кодированные изображения (блоки доступа) в силу отмеченных особенностей кодирования поступают в декодер с переменной частотой, но воспроизводиться декодированные изображения должны с постоянной частотой, равной частоте кадров. И в декодере проблема решается за счет буфера. Компенсация одной переменной задержки другой – вот принцип реализации постоянной задержки во всей системе.

8.6.2 Метки времени
Механизм, обеспечивающий компенсацию задержек и синхронизацию – метки времени, которые ставятся в соответствие каждому блоку доступа (рисунок 8.10) и которые сообщают декодеру точное время, когда блок доступа должен быть извлечен из буфера декодера и декодирован. Для того, чтобы придавать блокам доступа метки времени, кодер должен знать текущее системное время, обеспечиваемое генератором опорного времени. Но метки времени блоков доступа не являются копиями текущего времени. Надо помнить, что метка времени указывает время, когда декодер будет декодировать данный блок доступа, что должно произойти в будущем. Поэтому должен быть некоторый сдвиг между текущим временем и меткой. Насколько велик должен этот сдвиг, зависит от многих факторов, среди которых размер буферов кодера и декодера, скорость, с которой элементарный поток поступает в мультиплексор. Сдвиг должен быть достаточно большим, чтобы блок доступа прошел через буфер кодера, мультиплексор и был полностью записан в буфер декодера. При расчете сдвига надо также предотвратить возможное переполнения или полное опустошения буфера декодера, ведь и в том, и в другом случае возникает сбой в непрерывном воспроизведении декодированных изображений. Для этого в кодере используется гипотетический декодер, который подключен к выходу кодера. Конечно, это не настоящий декодер, а вычислительная модель, сопровождаемая определителем степени заполнения буфера декодера. Назначение моделей – наложить ограничения на процесс кодирования с целью обеспечения отсутствия переполнения или полного освобождения емкости буфера декодера. Данные о степени заполнения буфера сообщаются реальному декодеру, чтобы он мог сопоставить вычисленные значения с текущими значениями аналогичных параметров в процессе настоящего декодирования.



Рисунок 8.10 – Использование меток времени при формировании транспортного потока

8.6.3 Подстройка системных часов
Для правильной интерпретации меток времени декодер должен иметь свое собственное системное время, причем должна быть обеспечена подстройка «часов» декодера под время «часов» кодера. Для этого текущее время кодера регулярно передается декодеру. Системное время каждой программы отсчитывается в единицах периода колебаний с частотой 27МГц. Отсчеты этого времени передаются в программном потоке в одном из полей заголовка блока (они называются SCR – System Clock Reference) не реже, чем через 0,7 секунды. В транспортном потоке могут переноситься данные нескольких телевизионных программ, каждая из которых может иметь свое независимое время, называемое программным. Отсчеты программного времени PCR (Program Clock Reference) переносятся в поле адаптации транспортного пакета с соответствующим идентификатором PID (обычно он совпадает с идентификатором элементарного потока видеоданных). Метки PCR должны появляться не реже, чем раз в 0,1 секунды. Несмотря на разницу в названиях, основные функции PCR и SCR совпадают. Принцип синхронизации декодера с кодером путем использования отсчетов программного времени иллюстрирует рисунок 8.11.


Рисунок 8.11 – Синхронизация декодера с кодером
8.6.4 Метки декодирования и предъявления
Метки времени, ассоциируемые с блоками доступа, выражаются в единицах времени периода колебаний с частотой 90кГц, полученных путем деления частоты 27МГц. Эти метки бывают двух типов: метки времени представления PTS и метки времени декодирования DTS. Метки PTS определяют момент времени, в который декодированный блок доступа (кодированное изображение или фрагмент звукового сопровождения) должен быть предъявлен зрителю. Для всех элементарных потоков, кроме видео, PTS – это единственные метки, которые необходимы. Для потока видеоданных необходимы метки времени декодирования DTS, определяющие моменты времени, в которые блоки доступа извлекаются из буфера и декодируются, но не предъявляются зрителю. Декодированные изображения временно хранятся и предъявляются в боле позднее время, назначаемое метками PTS. Метки DTS необходимы изображениям типа I и P, которые должны декодироваться раньше, чем B-изображения, для кодирования которых I и P изображения использовались в качестве опорных. Метки DTS не появляются в одиночку, а должны сопровождаться метками PTS.
Метки не должны сопровождать каждый блок доступа. Ограничение, определяемое стандартом MPEG-2, заключается в том, чтобы в элементарных потоках видео и звука метки должны появляться не реже, чем раз в 0,7 секунды. Метки переносятся в заголовках PES-пакетов. Если метка сопровождает блок доступа, то она появляется в заголовке PES-пакета, в котором этот блок доступа начинается.
8.7 Коммутация транспортных потоков MPEG-2

При производстве аналоговых ТВ программ результирующая последовательность кадров комбинируется из сигналов многих источников изображения и звука. Это выполняется с помощью звуковых и видеокоммутаторов или микшеров. В системе доставки программ коммутация источников требуется повсюду, начиная с редактирования содержания, получаемого от различных источников в виде камер и средств записи в процессе доставки программы в конечный пункт передачи. В этом пункте следует предусматривать необходимость введения программ местного содержания (например, сигналов опознавания станции, коммерческих программ, местных программ новостей и т.п.) в поток данных для сети или ведомственного источника программ.
В последние 20 лет высокого уровня развития достигли технология и технические средства, требуемые для обеспечения безразрывного переключения источников изображения и звука с использованием традиционных форматов аналогового и несжатого цифрового сигналов. Появление технологии цифрового сжатия обусловило новые задачи, решение которых необходимо, если при производстве программы требуется безразрывное переключение.
Система MPEG-2 первоначально была задумана как средство сжатия объема информации при видеозаписи. Предполагалось, что результирующий несжатый, но полностью отредактированный поток сигналов изображения и звука будет подаваться в кодер и записываться соответствующей аппаратурой. В связи с применением синтаксиса MPEG-2 в наземных и спутниковых системах распределения стала очевидной необходимость дополнения пакетов данных содержанием местных программ.
В стандарт MPEG-2 была введена возможность осуществления коммутирующей функции. Коммутация в терминалах MPEG называется склеиванием. Возможны два вида склеивания: безразрывное и с прерыванием.
Безразрывное склеивание не вызывает нарушений непрерывности декодирования. Это означает, что время декодирования первого доступного фрагмента (кодированное изображение или кадр кодированной звуковой информации) нового потока будет определяться тем же временным кодом, как и следующий доступный фрагмент старого потока, как если бы не было склеивания. Как и при любой операции по редактированию, для получения приемлемых результатов необходимо решить задачи временной синхронизации и относительного времени задержки звука и изображения. Несмотря на то, что синтаксис стандарта MPEG-2 обеспечивает возможность склеивания потоков, его весьма общий характер не гарантирует сопряжения потоков или взаимного обмена данными между ними. Поэтому традиционные задачи коммутации следует дополнить управлением буферной памятью данных, идентификацией точек склеивания и другими практическими стандартами, которые необходимо разработать в будущем.
Переключения с прерываниями вызывают нарушения непрерывности процесса декодирования. Это означает, что время декодирования фрагмента, введенного в новый поток данных, не равно времени, которое было бы в случае безразрывного декодирования. Другим источником возможного нарушения непрерывности процесса является набор идентификаторов PID, соответствующий различным цифровым потокам данных. Известно, что таблица структуры программы РМТ для программного транспортного потока обеспечивает информацию PID, описывающую, какой поток видеоданных и соответствующий поток звуковых данных запрашивается для включения в состав программы. Цифровые потоки, поступающие из какой-либо аппаратуры видеозаписи, программных сетей, коммерческих и местных студий и других источников, будут, вероятно, иметь свои индивидуальные PID. Коммутация (склеивание) этих различных источников при монтаже общей программы вещания может привести к изменениям PID, вызывающим прерывание работы декодера в связи с поиском PID, соответствующих данной таблице РМТ, или приемом новой таблицы РМТ. На практике цифровой поток каждой программы вещания должен соответствовать PID до и после склеивания, чтобы гарантировать непрерывное опознавание пакетов.

8.7.1 Обобщенная модель коммутатора цифровых потоков

На рисунке 3.18 показана обобщенная модель устройства с коммутацией двух транспортных потоков данных стандарта MPEG-2. В приведенном примере коммутатор формирует поток выходных данных путем перехода в заранее определенной точке от входного потока А (который может соответствовать отдельной программе или входу отдельной камеры) к входному потоку В (который может соответствовать другой программе, средствам записи или входу другой камеры).
Интервал наложения представляет собой переменный интервал времени, в течение которого звуковые пакеты входного потока А могут оставаться активными, а звуковые пакеты входного потока В еще не стали годными для декодирования.
Коммутация аналоговых сигналов и несжатых цифровых видеопотоков основана на использовании сигнала кадрового гасящего интервала, не содержащего информации об изображении. Точки редактирования существуют в заранее известных периодических интервалах времени, обратных по величине частоте полей или кадров. Однако, такие детерминированные интервалы времени, естественно, отсутствуют в сжатом потоке данных, поскольку число битов, требуемое для представления каждого кадра последовательности изображений, меняется в соответствии с содержимым кадра.



Рисунок 3.18 – обобщенная модель коммутатора

Тот факт, что потоки данных, содержащие пакеты видео-, звуковых и информационных данных, вставлены все в один и тот же поток, является еще одним отличием в наборе ограничений по коммутации. Звук и изображение нельзя коммутировать в точности в один и тот же момент времени. Это отражает интервал наложения, показанный на рисунке 3.18.
Так же, как и в традиционной видеоаппаратуре, необходимо синхронизировать точки склеивания двух или более потоков цифровых пакетов. Кроме того, точки склеивания звука во входных потоках должны запаздывать относительно точек склеивания изображений. Звуковые пакеты PES должны появляться в потоке пакетов позже, чем пакеты PES изображения с соответствующими метками времени отображения (Presentation Time-Stamp, PTS).
Как и в традиционной видеоаппаратуре, процесс коммутации начинается с команды на переключение, указывающей момент времени выполнения коммутации. Эта команда может назначаться заранее и вводиться вручную. Переключение выполняется в том случае, если соответствующие точки склеивания изображений в обоих потоках совпадают с точкой коммутации. Как показано на рисунке 3.18, вначале выполняется склеивание изображения, а после него склеивание звука. Таким образом, существует короткий интервал времени (интервал наложения), в котором выходной поток содержит видеоданные нового источника и звуковые данные старого источника.
При коммутации двух сигналов изображения без сжатия точка редактирования по отношению к существующему на входе А сигналу изображения называется точкой вывода. Соответствующая точка редактирования относительно замещающего сигнала изображения на входе В называется точкой ввода. Эти термины являются эквивалентными с точки зрения коммутации или склеивания потоков цифровых пакетированных данных.
Одним из последних дополнений синтаксиса MPEG-2 является поле splice_countdown. Это однобантовое поле указывает число цифровых пакетов в битовом потоке с тем же PID. что и у данного пакета, от этого пакета до пакета с точкой переключения. Пакет с точкой переключения определяется как пакет, содержащий точку в элементарном битовом потоке, в которой можно удалить данные и заменить их другим потоком битов. Пакет с точкой переключения указывает место в транспортном потоке, которое может быть подходящим для коммутации потоков. Это не означает, что переключение должно обязательно произойти.
Точка переключения должна использоваться при других конкретных ограничениях. Хорошие результаты могут быть, если ограничить моменты времени переключения граничными участками последовательности изображений так, чтобы данные sequence_end_code совпадали с точкой склеивания. Полезно также формировать видеоинформацию в окрестностях точки переключения с использованием приблизительного предсказания, I-кадры обеспечивают правильное положение точки склеивания, так как они зависят от информации в других кадрах.
Таким образом, точка вывода как точка безразрывного склеивания потоков MPEG является окончанием пакета транспортного потока, в котором:
имеется флаг splice_point_flag;
поле splicecountdownflag со значением 0.
Важность получения видеоинформации в окрестностях точки переключения с помощью приблизительного предсказания станет очевидной, если посмотреть, что происходит, когда первым кадром после точки переключения является В-кадр. В-кадр предсказывается на основе кадров до и после момента точки переключения и на основе изменении между соответствующими кадрами. При коммутации в точке переключения один из этих кадров изменяется и на восстановленном изображении будут появляться искажения.
В поле адаптации транспортного заголовка содержатся следующие важные элементы синтаксиса, используемые при переключении:
discontinuity_indicator;
splicing_point_flag;
splice_countdown;
Seamless_splice+flag;
DTS_next;
AU.

8.7.2 Работа буфера декодера

Спецификация MPEG-2 определяет вычислительную модель буфера VBV (Video Buffering Verifier), позволяющую оценить степень заполнения буфера декодера в процессе кодирования. Рисунок 3.19 иллюстрирует работу модели при декодировании группы изображений из 12 кадров. Блоки доступа поступают в буфер непрерывно, причем скорость заполнения буфера пропорциональна скорости кодированного потока. Блоки доступа загружаются в буфер за разное время, поскольку кодированные изображения имеют разный объем данных. Выгружаются данные из буфера через одинаковые интервалы, равные частоте кадров воспроизводимого изображения, причем выгружаются целиком и моментально (это ведь модель, точные параметры этого процесса зависят от конкретной реализации буфера и декодера, поэтому детали процесса выгрузки данных из буфера декодер должен «продумать» самостоятельно).



Рисунок 3.19 – заполнение буфера декодера
Требуется некоторое время (стартовая задержка), чтобы декодер смог декодировать и воспроизвести первое изображение, а после этого допустить выгрузку из буфера первого блока доступа. Спустя некоторое время после загрузки последнего блок доступа декодер сможет воспроизвести последнее декодированное изображение (финишная задержка). В этот момент буфер полностью опустошается.
Желательно, чтобы линия, показывающая заполнение буфера, колебалась вокруг значения в 50% и не подходила к предельным значениям 0 и 100%. Есть и другие соображения, которые надо учитывать при склейке. Если, например, стартовая задержка нового потока значительно больше финишной задержки старого, то после того, как будет воспроизведено и выгружено из буфера последнее изображение старого потока, то придется долго ждать декодирования и воспроизведения первого изображения нового потока (рисунок 3.20).



Рисунок 3.20 – Склейка транспортных потоков с заменым переходом (стартовая задержка нового потока значительно больше финишной задержки старого потока)

Это приведет, например, к замораживанию последнего изображения старого потока и заметной склейке. Если, например, скорость нового потока значительно больше скорости старого, то склейка будет еще более заметной (рисунок 3.21), поскольку при этом буфер переполняется и часть данных теряется.



Рисунок 3.21 – Склейка транспортных потоков с заметным переходом (скорость нового потока больше скорости старого потока)

Очевидно, при переключении надо тщательно следить, чтобы коммутируемые потоки данных не вызывали недостаточное или избыточное заполнение буфера.
При безразрывном переключении недостаточное заполнение буфера будет, вероятно, более приемлемо, чем его переполнение. В последнем случае при возможном отсутствии данных в формирователе, будет иметь место лишь задержка в их доставке.














9. Организация многочастотных и одночастотных цифровых радиовещательных сетей

Рассмотрим изменение медианного значения напряженности пола от расстояния
13 EMBED PowerPoint.Slide.8 1415



Рис. 4.3 Зависимость медианного значения напряжённости поля от расстояния. Суша, равнинно-холмистая местность (100 МГц, 50% мест, 10% времени,

13 EMBED PowerPoint.Slide.8 1415

9.1Типы сетей наземного цифрового вещания
Возможны два типа сетей наземного цифрового вещания:
- сети, в которых в совмещённых каналах возможно передавать различные программы с помощью отдельных территориально разнесенных на координационное расстояние передатчиков, как это делается в аналоговом радиовещании. Частотное планирование в такой многочастотной сети – МЧС осуществляется на основе традиционных принципов;
- одночастотные сети - ОЧС с распределенным излучением, в которых требуемая зона вещания обеспечивается путем использования нескольких передатчиков, работающих в соседних зонах обслуживания на одной и той же частоте и передающих одни и те же программы.
Многочастотные сети
Многочастотные сети давно используются в аналоговом телевизионном и звуковом наземном радиовещании. Для покрытия участка территории, который не может быть обслужен с помощью одной станции, строится сеть из нескольких передающих станций. Для предотвращения появления помех между ними для разных станций приходится задействовать различные частотные каналы, при этом строится многочастотная сеть, в которой эффективность использования частотного ресурса не высока [4, 6, 10].
Преимущество использования МЧС состоит в том, что большая часть инфраструктуры существующей аналоговой сети может быть использована без существенной доработки. Прежде всего, это касается низких требований к первичной сети доставки программ до передающих станций, отсутствия необходимости в создании центров мультиплексирования программ и синхронизации передающих станций.
Одночастотные сети
Системы наземного цифрового вещания, в которых используется модуляция COFDM и введен защитный интервал между последовательно передаваемыми символами, обладают возможностью приема наряду с основным (полезным сигналом) также запаздывающих (например, отраженных от препятствий на местности) сигналов в том случае, если величина запаздывания не превышает величину защитного интервала. При достаточно большой величине защитного интервала это позволяет осуществлять также прием сигналов других полезных станций, работающих в том же частотном канале. При этом все принятые на ненаправленную антенну полезные сигналы складываются в приемнике, что позволяет значительно улучшить качество приема. Эффект от суммирования сигналов от разных передатчиков получил название усиление сети. Сеть передающих станций, синхронно работающих на одной частоте и передающих одну и ту же программу, называется одночастотной сетью.


Рисунок 3.30 Шкала оценок качества применительно к цифровой системе
9.2 Модели канала
Для оценки наземных телевизионных систем необходимо определить несколько моделей канала, которые могут использоваться при моделировании.
При разработке критериев планирования передающих сетей и оценки зоны охвата DVB-T используются три математические модели канала:
Канал Гаусса, где прямой полученный сигнал испытывает воздействие только одной помехи - в виде белого шума;
Канал Райса, где прямой сигнал испытывает воздействие большого числа отраженных сигналов с изменяющимся уровнем и фазой;
Канал Рэлея, где есть только отраженные сигналы, но нет приема прямого сигнала от передающей станции.
Канал Гаусса и более близкий к реальным условиям канал Райса наиболее характерны для  случая приема на стационарную приемную антенну, расположенную на крыше здания, в то время как канал Рэлея характеризует приём на портативное оборудование.
Минимально необходимая напряженность поля, используемая при планировании мобильного приема цифрового вещания DVB-T для соотношения сигнал/шум = 20 дБ в III – V диапазонах, с учетом приведенных выше поправочных коэффициентов, приведена в таблицах 3.8 – 3.10.
Таблица 3.8 – Стационарный прием
Диапазон
III
IV
V

Полоса, МГц
162-230
470-582
582-690

Eмин, дБ мкВ/м 75% мест
42
47
51

Eмин, дБ мкВ/м 95% мест
48
53
57


Таблица 3.9 – Портативный наружный прием (класс A)
Диапазон
III
IV
V

Полоса, МГц
162-230
470-582
582-690

Eмин, дБ мкВ/м 75% мест
59
66
70

Eмин, дБ мкВ/м 95% мест
65
72
76

Таблица 3.10 – Портативный прием внутри зданий (класс B):
Диапазон
III
IV
V

Полоса, МГц
162-230
470-582
582-690

Eмин, дБ мкВ/м 75% мест
67
74
78

Eмин, дБ мкВ/м 95% мест
74
84
88


Для полос IV и V Eмин вычисляется по формуле:
Eмин( f ) = 65 + 20 log ( f / 500) дБВт мкВ/м
Таблица 3.12 – Режимы модуляции DVB-T и требуемое отношение сигнал/шум

Требуемое C/N для BER=2. 10-4 после Витерби
Скорость циф. Потока (Мбит/с)

Вариант системы
Модуляция
Скорость кода
Канал Гаусса
Канал Райса
Канал Рэлея
D/TU =1/4

D/TU =1/8

D/TU =1/16
D/TU =1/32


A1
4-ФМ
1/2
3.1
3.6
5.4
4.98
5.53
5.85
6.03

A2
4-ФМ
2/3
4.9
5.7
8.4
6.64
7.37
7.81
8.04

A3
4-ФМ
3/4
5.9
6.8
10.7
7.46
8.29
8.78
9.05

A5
4-ФМ
5/6
6.9
8.0
13.1
8.29
9.22
9.76
10.05

A7
4-ФМ
7/8
7.7
8.7
16.3
8.71
9.68
10.25
10.56

B1
16-КАМ
1/2
8.8
9.6
11.2
9.95
11.06
11.71
12.06

B2
16- КАМ
2/3
11.1
11.6
14.2
13.27
14.75
15.61
16.09

B3
16- КАМ
3/4
12.5
13.0
16.7
14.93
16.59
17.56
18.10

B5
16- КАМ
5/6
13.5
14.4
19.3
16.59
18.43
19.52
20.11

B7
16- КАМ
7/8
13.9
15.0
22.8
17.42
19.35
20.49
21.11

C1
64- КАМ
1/2
14.4
14.7
16.0
14.93
16.59
17.56
18.10

C2
64- КАМ
2/3
16.5
17.1
19.3
19.91
22.12
23.42
24.13

C3
64- КАМ
3/4
18.0
18.6
21.7
22.39
24.88
26.35
27.14

C5
64- КАМ
5/6
19.3
20.0
25.3
24.88
27.65
29.27
30.16

C7
64- КАМ
7/8
20.1
21.0
27.9
26.13
29.03
30.74
31.67




Таблица 3.14 – Защитные отношения в совмещенном канале (дБ) для фиксированного приема (ФП), портативного внутреннего и наружного приема (ПВ, ПН) и мобильного приема (МП).
Модуляция
Совмещенный
канал

Тип модуляции
Скорость
кода
ФП
ПВ, ПН


4-ФМ
1/2
6
8
11

16-КАМ
1/2
11
13
16

64-КАМ
2/3
20
23
26



Рисунок 3.34 Сравнение потребности в радиочастотном спектре для частотных планов многочастотной и одночастотной сети.



Литература:

1. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. - М.: Мир, 1978. - 848 с.
2. Ю.Б. Зубарев, М.И. Кривошеев, И.Н.Красносельский. Цифровое телевизионное вещание. М. 2001г.548 с.
3. Антонью А. Цифровые фильтры: анализ и проектирование. - М.: Радио и связь, 1983. - 320 с.
4. Оппенгейм А.В., Шафер Р.В. Цифровая обработка сигналов: Пер. с англ. - М.: Связь, 1979. - 416 с.
5. Локшин Б.А. Цифровое вещание от студии к телезрителю. Москва 2001г. 444с.
6 Mathcad 6.0 PLUS. Перевод с английского. М. “Филинь”, 1996г. 695с.
7 Мамаев Н.С., Мамаев Ю.Н., Теряев Б.Г. Цифровое телевидение Издательство «Горячая линия – телеком» 2001г.
8 Зубарев Ю.Б., Дворкович Цифровая обработка телевизионных и компьютерных изображений.
9. Сергиенко А.Б. Цифровая обработка сигналов. Питнр Москва. 2002г.
10. Журнал BROADCFSTING.
11 Журнал «625».
13 Журнал Телеспутник.
14 Журнал Мультимедиа.
15 Ян Ричардсон. Видеокодирование. Н.264 и MPEG-4 -стандарты нового поколения. Техносфера Москва 2005











13 PAGE \* MERGEFORMAT 1425415



13 EMBED Visio.Drawing.6 1415



Root EntryEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeoEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeРисунок 96Рисунок 98Рисунок 100Рисунок 101Рисунок 102Рисунок 117Рисунок 118Equation NativeРисунок 113Рисунок 255Рисунок 259Рисунок 260Рисунок 261Рисунок 263Рисунок 265Рисунок 268Рисунок 270Рисунок 9Рисунок 4Рисунок 3Рисунок 55Рисунок 17

Приложенные файлы

  • doc 1461217
    Размер файла: 8 MB Загрузок: 2

Добавить комментарий