Автоматический поиск ключевых слов

Что дают нам законы Зипфа? Как с их помощью извлечь слова, отражающие смысл текста?

В понимании смысла текста помочь могут ключевые слова, являющиеся своеобразными смысловыми «маяками». Однако далеко не во всех учебных текстах они выделены в явной форме. Если учебный текст недостаточно тщательно структурирован, то для его понимания, читателю приходится «вручную» выполнять объемную и непростую работу по «вычленению» смысла текста.

Кроме того, даже если ключевые слова выделены автором текста, в целом ряде случаев их отбор носит субъективный характер. Автор отбирает ключевые слова, основываясь на имплицитном (подразумеваемом, не выраженном в текстах в явной форме) смысле. В этом случае отобранные автором ключевые слова могут не подчиняться законам Зипфа. Это не значит, что законы Зипфа не действуют. Это значит, что фактически воспринимаемый большинством читателей смысл текста отличается от того смысла, который задумал передать в тексте автор. По существу часть текста, необходимая для передачи авторского смысла, в документе отсутствует (она «осталась в голове» автора). В результате читатель, в общем случае не принимающий во внимание имплицитного авторского смысла (он и понятия о нем может не иметь), не в состоянии правильно понять предполагаемый автором смысл. Возможно, в этом во многом кроется причина «непонятных» текстов.

Таким образом, корректный, основанный на объективных закономерностях построения (и понимания!) текста, поиск ключевых слов может помочь:

1) читателю для понимания текста, в котором ключевые слова не выделены в явной форме;

2) автору для проверки «понимаемости» созданного им текста.

Объективный автоматизированный поиск ключевых слов основан на законах Зипфа.

Воспользуемся первым законом Зипфа и построим график зависимости ранга от частоты.

Зависимость, представленная графически на рис. 1, может успешно использоваться на практике для выделения значащих слов в тексте. На основании второго закона Зипфа можно предполагать, что все значащие слова для данного текста размещаются в области средних значений ранга (область выделена на рис. 1 штриховкой). Действительно, самые часто встречающиеся слова обычно относятся к вспомогательным (в русском языке - это предлоги, местоимения, в английском языке еще и артикли), а самые редко встречающиеся обычно также не имеют решающего смыслового значения для данного текста. От того, как будет задан диапазон значимых слов, зависит многое. Если сделать его слишком широким - нужные термины потонут в море вспомогательных слов, установив чрезмерно узкий диапазон мы рискуем потерять смысловые термины.

Изложенный метод автоматизированного поиска ключевых слов может использоваться при формировании поисковых запросов в сети Интернет при поиске документов, семантически близких исходному тексту. Этот методика изложена в сетевой публикации А. Попова «Поиск в Интернете - внутри и снаружи. Эффективная методика поиска информации в сети Интернет» http://citforum.novgorod.ru/pp/search_03.shtml . В качестве готового примера программного средства для автоматизированного поиска ключевых слов можно порекомендовать расположенный по адресу www.shipbottle.ru/ir/ апплет, созданный А. Поповым.