Представление информационных объектов и процессов нечеткими множествами и отношениями релевантности.
Релевантность- в широком смысле - мера соответствия получаемого результата желаемому результату.
Релевантность - в поисковых системах - мера соответствия результатов поиска задаче поставленной в запросе.
«Поисковые системы»
В простейшем случае, релевантность текста определенному запросу — это процент вхождения запроса к общему объему текста. Для поисковых систем высокорелевантным текстом считается такой, где вхождение запроса в текст примерно равно 4-7% — меньшего может не хватить, большее чревато тем, что система сочтет текст за поисковый спам и наложит на страницу некий понижающий фильтр или может вообще убрать страницу из результатов выдачи по искомому запросу.
Конечно, каждая поисковая система использует гораздо более сложные способы вычисления релевантности документов запросу пользователя. Тем не менее, несмотря на то, что алгоритмы у всех поисковых машин разные, они построены на общих принципах — основные отличия результатов выдачи заключаются не в алгоритмах определения релевантности, а в конкретных способах реализации этих алгоритмов.
Мерой релевантности (или "качества" объявления) является показатель качества ключевого слова. Система AdWords работает таким образом, что показанные пользователям объявления максимально соответствовали их потребностям. Это способствует тому, что пользователи остаются довольны работой с AdWords и чаще нажимают на объявления, а рекламодатели получают большую отдачу от вложенных средств.
По методу определения, различают формальную и содержательную релевантности. Формальная релевантность – соответствие, определяемое алгоритмическим путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе критерия выдачи.
Содержательная релевантность — соответствие документа информационному запросу, определяемое неформальным путем.
Поисковые системы выводят список найденных документов по информационному запросу в порядке убывания степени релевантности. Оценка степени релевантности основана на алгоритмах поиска конкретной информационно-поисковой машины. Как в интернет-поисковиках, так и в справочных системах, для оценки степени релевантности документов за основу берется TF*IDF–метод (TF, англ. term frequency – частота ключевого слова в найденном документе, IDF, англ. inverse document frequency – обратная частота ключевого слова во всей коллекции документов). Кроме того, для оценки степени релевантности документа поисковому запросу в поисковой системе Яндекс используется "индекс цитирования", в Google используется система PageRank.
С точки зрения эвентологии, рассматривая соответствие документа поисковому запросу как событие, можно оценить степень их релевантности, введя соответствующую меру релевантности для таких событий. Мера релевантности, как степень совпадения документа и поискового запроса (в виде двух нечетких множеств элементарных событий-слов): если документ и поисковый запрос совпадают (в теоретико-множественном смысле), значение меры релевантности должно быть максимальным, если их пересечение равно нулю, – минимальным.
Таким образом, если говорить о мере из теории меры, с точки зрения эвентологии здесь можно выделить несколько уровней:
· «релевантность», как соответствие – событие;
· «мера релевантности» – функция, величина (определённая на алгебре событий);
· «значение меры релевантности» – числовое значение функции, величины;
· «единица измерения значения меры релевантности» – некая числовая единица, эталон.
Мера релевантности - в поисковых системах – количественный показатель (выражаемый обычно в процентах) соответствия документа заданным критериям поиска; чем больше значение, тем выше вероятность, что документ действительно релевантен.
Связь двух или более нечётких объектов, устанавливаемая на основе их семантической (родственной) близости.
В отношении поисковых машин слово релевантность - чуть ли не главный термин. Релевантная выдача, релевантные результаты, у поисковика Х релевантность выше, чем у поисковика Y, - такие выражения можно слышать постоянно. А что они означают?
Как уже говорилось выше, релевантный - значит относящийся к делу. Релевантность результатов поиска поисковой машины означает, что эти результаты содержат страницы, относящиеся к делу, то есть к смыслу поискового запроса.
Это определение релевантности выглядит очень просто. Казалось бы, из него следует, что если мы введём поисковой запрос и если среди первых результато поиска окажется только релевантные сайты, то выдача поисковой машины будет релевантна. Однако это не совсем так. Давайте разберёмся с этим вопросом подробнее.
Не существует релевантности вообще, в вакууме. Ведь кто-то должен определить, действительно ли сайты соответствуют тому, что предлологалось в запросе. Кто? Очевидно, лучше всего это может сделать сам автор запроса, который ввёл его в поисковую машину.
И вот здесь возникает несколько проблем. Ведь не очень интересно обсуждать запросы выдуманные, введённые для эксперимента. В Яндексе, Рамблере, Гугле есть десятки миллионов популярных, реальных запросов, которые ежедневно вводят реальные пользователи. А с ними далеко не всё так ясно.
Во-первых, большинство запросов - однословные или двухсловные, то есть очень лаконичные. Ясно, что далеко не всегда они полностью задают смысл искомой страницы. Значит, какие-то условия поиска всегда остаются недосказанными, в уме пользователя.
Во-вторых, ни поисковик, ни мы с вами не можем знать, что происходит в уме реального пользователя, вводящего конкретный запрос. Что он на самом деле имел в виду?
В-третьих, у популярных запросов очень много "соавторов" - их вводят совершенно разные люди. Всегда ли они имею в виду одно и то же - неизвестно. Скорее всего, нет.
Например, что такое запрос дизайн? Что имел в виду автор - веб-дизайн, дизайн квартир, ландшафтный дизайн или промышленный? А что делать, если разные авторы этого запроса имели в виду разное?
Итак, можно сформулировать следующее утверждение: сам по себе поисковой запрос принципиально неполон. Почти для каждого запроса существует не высказанное пользователем явно, но важное для него условие релевантности запроса.
Условия релевантности - это не входящее в запрос предположение пользователя о том, какие страницы будут релевантным ответом на запрос. Фактически - это скрытая постановка задачи поиска в уме пользователя.
Например, если пользователь вводит запрос "ногу свело", то в большинстве случаев таким условием релевантности является имеющееся в уме пользователя дополнительное ограничение на поиск - музыкальная группа.
Значит, большинство пользователей поисковика, задавшие запрос "ногу свело", имеют в виду музыкальную группу и будут довольны, если поисковая машина по запросу "ногу свело" выведет их прямиком на сайт группы "Ногу свело", на её последний диск или ещё на что-то, связанное с этой музыкальной группой. Заметим, что пользователь, как правило, держит это условие релевантности в уме, не сообщая его поисковику!
А тот редкий несчастный пользователь, у котого в самом деле свело ногу и который хочет узнать в интернете, что делать в таком случае, скорее всего, вообще не получит никакой информации на первых страницах выдачи. Выдача будет забита ссылками на разные аспекты деятельности группы "Ногу свело", и ему придётся как-то дополнительно уточнять свой "медецинский" запрос.
Условие релевантности в уме пользователя прямо зависит от его намерений, от цели запроса, от того, что вообще хочет сделать пользователь с найденными по запросу сайтами.