Пример того, как используется теория нечётких множеств

Сегодня, с развитием информационных технологий, визуальная информация стала занимать не меньшую долю в общем количестве доступной информации, чем текстовая.

На сегодняшний день существует два основных подхода к поиску изображений: поиск на основе текстового запроса и поиск на основе визуального образца. Каждый из этих подходов имеет свои преимущества и недостатки и направлен на решение своих задач. Главным применением поиска по визуальному образцу являются те области, где сходство важнее, чем семантика: поиск в медицинских коллекциях, например, среди рентгеновских снимков; поиск в дизайнерских коллекциях, когда дизайнер ищет некоторое подходящее по цветовой гамме и текстуре изображение; поиск в архивах правоохранительных органов интересующих криминалистов лиц или объектов. Основной проблемой, затрудняющей эффективное и однозначное решение проблемы поиска в коллекции изображений, является так называемая проблема «семантического разрыва» — отсутствия однозначной связи между низкоуровневыми характеристиками и семантикой изображения. Одним людям для признания изображений визуально похожими достаточно наличия у них общей цветовой гаммы, другим требуются более жесткие условия, например, наличие похожих по форме объектов.

Ещѐ одной трудностью, связанной с созданием баз изображений, является отсутствие общих, универсальных методов, подходящих для любых коллекций изображений. Разные коллекции и разные задачи требуют своих методов обработки и поиска. Так, например, коллекции рентгеновских снимков имеют свои специфичные особенности и не позволяют использовать методы, подходящие для поиска любительских фотографий.

Другой задачей, также анализируемой в данной статье, является поиск нечетких дубликатов изображений. Большие коллекции изображений, например изображения Интернет, как правило, содержат достаточно большое количество таких изображений. Кластеризация нечетких дубликатов изображений на группы позволяет исключить из просмотра практически идентичные изображения, не представляющие интереса для пользователя, или удалять такие изображения из базы для экономии места. Существуют также и другие приложения поиска нечетких дубликатов, например, определение случаев нарушения авторских прав или детекция спама. В зависимости от области применения понятие нечетких дубликатов изображений может различаться, и для нахождения таких изображений могут использоваться различные методы. Так, в качестве нечетких дубликатов могут пониматься изображения, отличающиеся разрешением или наличием шума, подвергшиеся небольшим фотометрическим преобразованиям, снимки одной и той же сцены, выполненные с небольшими изменениями ракурса камеры. Другим случаем определения нечетких дубликатов является поиск изображений, подвергшихся сильным искажениям, изображений, содержащих отдельные одинаковые сегменты или снимков одного объекта со значительно различающихся позиций.