Хеш-функция, понятия и основы
Понятие ХЭШ функции. Стандарты хеширования и цифровой подписи. Цифровая подпись на базе Эль Гамаля.
Хеширование (иногда хэширование, англ. hashing) — преобразование входного массива данных произвольной длины в выходную битовую строку фиксированной длины. Такие преобразования также называются хеш-функциями или функциями свёртки, а их результаты называют хешем, хеш-кодом или дайджестом сообщения (англ. message digest).
Хеширование применяется для сравнения данных: если у двух массивов хеш-коды разные, массивы гарантированно различаются; если одинаковые — массивы, скорее всего, одинаковы. В общем случае однозначного соответствия между исходными данными и хеш-кодом нет в силу того, что количество значений хеш-функций меньше, чем вариантов входного массива; существует множество массивов, дающих одинаковые хеш-коды — так называемые коллизии. Вероятность возникновения коллизий играет немаловажную роль в оценке качества хеш-функций.
Хеш-функцией называется односторонняя функция, предназначенная для получения дайджеста или "отпечатков пальцев" файла, сообщения или некоторого блока данных.
История развития функций хеширования начинается с работ Картера, Вегмана, Симонсона, Биербрауера. Изначально функции хеширования использовались как функции создания уникального образа информационных последовательностей произвольной длины, с целью идентификации и определения их подлинности. Сам образ должен быть небольшим блоком фиксированной длины, как правило, 30, 60, 64, 128, 256, или 512 бит. Поэтому операции поиска сортировки и другие с большими массивами или базами данных существенно упрощаются, т.е. занимают гораздо меньшее время. Для обеспечения требуемой вероятности ошибки необходимо обеспечивать ряд требований к функции хеширования.
Хеш-функция должна удовлетворять целому ряду условий:
- хеш-функция должна быть чувствительна к всевозможным изменениям в тексте M, таким как вставки, выбросы, перестановки и т.п.;
- хеш-функция должна обладать свойством необратимости, то есть задача подбора документа M', который обладал бы требуемым значением хеш-функции, должна быть вычислительно неразрешима;
- вероятность того, что значения хеш-функций двух различных документов (вне зависимости от их длин) совпадут, должна быть ничтожно мала.
Обеспечить эти требования могут большое количество существующих математических функций. Если данные функции используются для сортировки, поиска и т.д. Однако позднее, опираясь на работы Симонсона по теории аутентификации, стало явным целесообразность использования методов хеширования в схемах аутентификации сообщений в каналах связи и телекоммуникационных системах. В связи с чем, открылся ряд направлений в исследованиях в области криптографии, которые связаны с разработкой новых и усовершенствованием существующих хеш-функций.
Основная идея использования хеширующих функций является получение на их основе однонаправленных функций, которые являются основным продуктом для разработки современных криптографических механизмов и методов аутентификации.
Рассмотрим основные понятия касающиеся однонаправленных функций хеширования.
Большинство хеш-функций строится на основе однонаправленной функции f(•), которая образует выходное значение длиной n при задании двух входных значений длиной n. Этими входами являются блок исходного текста Mi и хеш-значение Hi–1 предыдущего блока текста (рис.1):
Hi = f (Mi, Hi–1).
Хеш-значение, вычисляемое при вводе последнего блока текста, становится хеш-значением всего сообщения M.
Рис.1. Схема однонаправленной хэш-функции
В результате однонаправленная хеш-функция всегда формирует выход фиксированной длины n (независимо от длины входного текста). Алгоритм хеширования является итерационным, поэтому функции хеширования еще называют итерационными алгоритмами. Сущность алгоритма хеширования заключается в его односторонности, т.е. функция должна работать в одну сторону – сжимать, перемешивать и рассеивать, но никогда не восстанавливать. Подобные схемы позволяют отслеживать изменения исходных текстов, что является обеспечением целостности данных, а в алгоритмах цифровой подписи еще обеспечивать аутентичность данных. Однако в чистой форме аутентичность эти функции не позволяют подтвердить.