Методы сжатия


К примеру, очевидный способ сжатия числовой информации, представленной в коде ASCII, заключается в использовании сокращенного кода с четырьмя битами на символ вместо восьми, так как передается набор, включающий только 10 цифр, символы "точка", "запятая" и "пробел".

Одну из групп методов сжатия данных при аналого-цифровом преобразовании составляют методы разностного кодирования. В этих методах передаются разности чисел, представляющих соседние отсчеты (значения амплитуд). Сжатие обусловлено тем, что разности амплитуд представляются меньшим числом разрядов, чем сами амплитуды. Разностное кодирование реализовано в методах дельта-модуляции и ее разновидностях.

В случае дельта-модуляции передаваемые разности амплитуд представляются однобитовыми кодами, изображающими знаки "плюс" и "минус", причем "плюс" означает увеличение, а "минус" — уменьшение амплитуды по сравнению с предыдущим значением на величину, соответствующую одному уровню дискретизации. Очевидно, что частота дискретизации при дельта-модуляции должна соответствовать скорости изменения кодируемой величины, так как при недостаточной частоте потребуется кодирование более чем одним разрядом.

Предсказывающие (предиктивные) методы основаны на экстраполяции значений амплитуд отсчетов, и если выполнено условие

то отсчет должен быть передан, иначе он является избыточным; здесь и — амплитуды реального и предсказанного отсчетов, — допустимая погрешность.

Здесь точками показаны предсказываемые значения сигнала. Если точка выходит за пределы "коридора" (допуска), показанного пунктирными линиями, то происходит передача отсчета. На рисунке передаваемые отсчеты отмечены темными кружками в моменты времени . Если передачи отсчета нет, то на приемном конце принимается экстраполированное значение.

Для сжатия текстовой информации часто применяют метод Хаффмена, относящийся к статистическим методам сжатия. Идея метода — часто повторяющиеся символы нужно кодировать более короткими цепочками битов, чем цепочки редких символов. Строится двоичное дерево, листья соответствуют кодируемым символам, код символа представляется последовательностью значений ребер (эти значения в двоичном дереве суть 1 и 0), ведущих от корня к листу. Листья символов с высокой вероятностью появления находятся ближе к корню, чем листья маловероятных символов.

Методы сжатия графической информации.

В методе RLE(Run Length Encoding) вместо передачи цепочки из одинаковых символов передаются символ и значение длины цепочки. Метод эффективен при передаче растровых изображений, но малополезен при передаче текста. На основе этого метода созданы графические форматы TIFF, BMP, PCX.

В LZW-методах (алгоритмах Лемпеля-Зива-Уэлча), называемых также LZ-алгоритмами, используется следующая идея: если в тексте сообщения появляется последовательность из двух ранее уже встречавшихся символов, то эта последовательность объявляется новым символом, для нее назначается код, который при определенных условиях может быть значительно короче исходной последовательности. В дальнейшем в сжатом сообщении вместо исходной последовательности записывается назначенный код. При декодировании повторяются аналогичные действия и потому становятся известными последовательности символов для каждого кода. Разновидности методов LZW нашли применение в ряде форматов, например GIF, ZIP, TIFF.

Методы JPEG, используемые в одноименном формате JPEG, основаны на исключении из видеоданных малосущественной информации, что не приводит к сколько-нибудь заметному ухудшению качества изображений, поскольку не различимые для глаза оттенки кодируются одинаково.

Существует множество форматов для различных данных, каждый из них характеризуется своими особенностями и методами кодировки и сжатия. Этому вопросу будет посвящена часть курса Системы обработки графической информации.

 

Общая идея заключается в том, что мы можем ограничиться каким-то конкретным классом данных, но за счет этого использовать свойства этого класса для более эффективного кодирования и сжатия без потерь. Если брать принципиально любые данные, то эффективность кодирования и сжатия будет жестко ограничена теоретически.

На данный момент существует множество алгоритмов сжатия для различных типов данных, при этом разрабатываются еще и новые, более эффективные алгоритмы. Подробное рассмотрение всех алгоритмов не входит в данную дисциплину.

Доклад:

Определение самых передовых и перспективных разработок в области алгоритмов кодирования и сжатия оставляется студентам для доклада. Кодирование информации следует рассматривать ближе к области вычислительной техники.

 

Методы хранения информации

(Одна из дисциплин должна достаточно подробно касаться этого вопроса, 5курс интерфейсы)

Основные типы ЗУ и принципы записи на них информации должны быть известны.

Во первых ЗУ делятся на:

энергонезависимая память

энергозависимая память

Соответственно основные направления:

Оперативная память(DDR SDRAM)

Устройства хранения информации(HDD Flash DVD)

Доклад

Каким именно образом биты хранятся на носителе. Все идеи по физическим принципам хранения данных. Элементная база ЗУ.

Доклад

Каким образом эффективно организовать запись, хранение и доступ. Эти вопросы решаются конкретно для какого-то физического принципа хранения данных.

Для распространенных физических принципов организации памяти уже существуют эффективные принципы организации данных.

Для новых перспективных физических принципов хранения, очевидно, сначала стоит исследовать все уже существующие подходы по организации данных. А далее уже делать выводы по конкретной проблеме. Возможно, будет требоваться некоторая доработка существующих подходов, а может даже потребоваться разработка нового подхода.

 

Организация систем хранения данных.

Резервирование данных

Массивы ЗУ. RAID массивы. Можно выделить базовые принципы организации взаимодействия нескольких ЗУ.

 

Сложные системы хранения данных и Сети хранения данных.

Данные системы являются сложными программно-аппаратными комплексами, иногда еще и территориально распределенными.

http://citforum.ru/hardware/data/db/

http://ru.wikipedia.org/wiki/ Сеть_хранения_данных

Эту тему можно частично отнести к разделу сложных систем, а частично к разделу сети.