Пошук по полях
Пошук по фрагментах тексту (строгим словосполученням)
Багато систем здатні реалізовувати контекстний пошук, укладеної в лапках фрази (наприклад, AltaVista, Lycos, InfoSeek і т. ін.). Така здатність — це реалізація неявно зазначених за допомогою лапок операторів контекстної близькості.
3. Використання логічних операторів
Для введення запитів зі складною логікою, як правило, потрібне використання булевих і контекстних операторів, дужок, і т. ін. Для більшості випадків (до 75% як було вже сказано) цього не потрібно. Тому в деякіх інформаційно-пошукових системах створено по два пошукових інтерфейси — простий (за замовчуванням) і розширений (який називається у різних системах детальним, могутнім або професійним). Цим шляхом пішли, наприклад, AltaVista, Lycos, InfoSeek, Rambler. В усіх розглянутих системах реалізовані булеві операції AND, OR і NOT, а також робота з дужками. Однак у двох з них — AlLaVista і Excite — оператор-NOT записується у вигляді „AND NOT”, у такий спосіб підкреслюється його бінарність (у математичній логіці оператор NOT у чистому вигляді унарний та не може відноситися до двох операндів).
4. Використання операторів контекстної близькості
Більшість професійних пошукових систем забезпечує виконання операцій контекстної близькості. Наприклад, у системі Lycos функції контекстної близькості одержали найбільший розвиток і реалізовані за допомогою чотирьох операторів: ADJ, NEAR, FAR, BEFORE.
ADJ забезпечує близькість двох слів у тексті в будь-якому порядку.
NEAR дозволяє знаходити документи, у яких слова-операнди віддалені не більше ніж на 25 слів.
FAR — оператор, протилежний за змістом операторові NEAR, він виключає близькість термінів запиту в межах 25 слів тексту документа.
BEFORE — схожий на оператор ADJ, тільки з урахуванням порядку розташування термінів у тексті.
Наприклад, оригінальне вирішене питання контекстної близькості в інформаційно-пошуковій системі Rambler. За бажання мінімізувати відстань між пошуковими термінами, використовується службове слово „$пеаг:”, за яким розташовані два операнда — значення самих слів. У системі „Апорт” інтелектуальній обробці піддаються словосполучення в лапках. Наприклад, запит „яблука на снігу” еквівалентний запитам „яблука і сніг”, „яблука під снігом”, „яблуко-сніг”.
Окремого розгляду заслуговує можливість пошуку по полях, що найчастіше дозволяє обмежувати діапазон пошуку значеннями URL, датами, заголовками і т. ін.
Наприклад, у системі AltaVista забезпечується пошук по датах за допомогою операторів „From:” і „То:”. Цей режим названий „Веб-археологією”. Система InfoSeek забезпечує пошук по посиланням у HTML-документах („link:”), у межах сайтів („site:”), no URL („url:”), по заголовкам документів („title:”) і міткам, приписуваним зображенням („alt:”). Система Rambler реалізує пошук, як по всьому документі („$ALL”), так і по URL („$URL”), заголовкам („$Title”), адресам („$Address”) і т. ін. Hndex дозволяє шукати в двох зонах — заголовках („Title”) і посиланнях. Апорт забезпечує пошук по URL, датам, заголовкам, ключовим словам, міткам до зображень, посиланням, коментарям, текстам.
6. Пошук схожих документів
Одна з можливостей, яка властива багатьом сучасним системам, є здатність пошуку документів, схожих на вже знайдені документи. Вона називається „позитивним зворотним зв’язком”. Що означає „схожий документ”, за якими критеріями це визначається, найчастіше залишається загадкою для користувача. Один з підходів до її вирішення може бути таким: кожне значиме, на думку системи, слово «зважується» за якимось критерієм, з найбільш вагомих слів автоматично формується запит, що розглядається як деякий ранговий критерій пошуку. Такий режим реалізований, наприклад, в інформаційно-пошукових системах Excite („More Like This”) і Япсіех („Найти похожие документы”). Цей режим реалізований у системах, що використовують „вагові” критерії релевантності.
3.25. Основні пошукові системи та їх функціональні можливості
Існує кілька інформаційно-пошукових систем, що охоплюють велику частину російськомовного ресурсу. Щоб ефективно використовувати можливості мережевих інформаційно-пошукових систем, корисно довідатися, як вони працюють „зсередини”, ознайомитися з їх принципами пошуку і з’ясувати які вони використовують структури баз даних.
Найчастіше інформація в бази даних інформаційно-пошукових систем попадає автоматично в результаті роботи програм, названих „роботами” або „павуками”, які сканують Веб-простір. Веб-роботи — це такі програми, що безперервно „обходять” Веб ресурси, переходячи з однієї сторінки на іншу, з метою збору інформації для формування бази даних з індексами змісту Веб-серверів.
Деякі адміністратори Веб-серверів не бажають, щоб визначені ресурси попадали в пошукові системи. Такими документами можуть бути сторінки, що формуються динамічно, тимчасові файли або файли, не призначені для широкої аудиторії. Крім того, деякі Веб-сервери можуть просто не витримати інтенсивного автоматичного опитування. Тому існує угода, неофіційний стандарт — Standart for Robot Exclusion (SRE), який дотримують практично усі розробники Веб-роботів промислових систем. Ця угода описує протокол, що дозволяє адміністраторам вузлів заборонити роботам доступ до зазначених областей їх Веб-серверів. Для забезпечення інтерактивного доступу користувачів до інформації, зібраної роботами, використовуються пошукові механізми — основні складові інформаційно-пошукових систем. Ефективність і швидкодія пошукових механізмів багато в чому визначається структурою баз даних, використовуваних у певній інформаційно-пошуковій системі.
Про технологічні рішення багатьох інформаційно-пошукових систем можна лише догадуватися, виходячи з пошукових можливостей. Ці рішення є інтелектуальною власністю власників відповідних пошукових служб. Для розуміння принципів реалізації інформаційно-пошукових систем цілком достатньо з ними ознайомитися.
Lycos (http://www.lycos.com) — це вичерпний каталог ресурсів мережі Інтернет. Lycos знаходить у лічені секунди будь-яку інформацію, що цікавить, включаючи текст, графіку, звук і відео. Недавно журнал PC magazine визнав Lycos найкращим інструментом пошуку інформації в мережі Інтернет серед 11 пошукових інструментів. Оцінка здійснювалась як з погляду якості знайденої інформації за запитом користувача, так і з погляду релеватності (відповідності) знайденої інформації.
Magellan (http://www.mckinley.com) забезпечує огляд і класифікацію інформації, що знаходиться на WWW, FTP серверах, а також Usenet форумах (newsgroups) для швидкого пошуку. Користувачі можуть переглядати інформацію з розділів або ж робити пошук за ключовими словами або словосполученнями.
Excite (http://www.excite.com) знаходить інформацію не тільки за ключовими словами, але і за загальними ознаками. Поновлюється щотижня. Вважається, що база даних Excite нараховує більш 1,5 мільйонів Веб сторінок і оглядає 50 000 Веб-сторінок, написаних журналістами, Usenet новини за останні два тижня і класифікатори. Excite також включає новини агенства Рейтер.
Alta Vista (http://altavista.digital.com) — це розробка Digital Equipment Corporation. Alta Vista здійснює пошук у 8 мільярдах слів з 16 мільйонів Веб сторінок. Ця інформаційно-пошукова система забезпечує повнотекстовий індекс більш ніж 13000 форумів (newsgroups).
Yahoo! (http://www.yahoo.com) — одна з найбільш популярних інформаційно-пошукових систем. Вся інформація розділена на 14 основних категорій: мистецтво, комп'ютери, здоров'я, відпочинок, останні новини України та світу, наука і т. п. Вибравши розділ, який цікавить, зробивши щиглик мишею, поглиблюємось у відкритий підкаталог все глибше і глибше, поки не знайдемо відповідь на питання.
Who Where? (http://www.whowhere.com) — Цей пошуковий інструмент працює дуже швидко і, що дуже важливо, простий у використанні. Who Where дозволяє знаходить адреси організацій і конкретних користувачів у мережі. Інтуїтивно виправляє помилки написання, забезпечує пошук за ініціалами.
Shareware (http://www.shareware.com) — дозволяє знаходити необхідне програмне забезпечення. Більш ніж 170 000 файлів доступні для швидкого пошуку, перегляду і завантаження з корпоративних архівів в Інтернеті.
The Electric Library (http://www.elibrary.com/id/2525) — ця інформаційно-пошукова система має величезну базу даних, що містить більше тисячі повних текстів газет, періодичних видань, академічних журналів, малюнків, літературу, твори мистецтва.
3.26. Інформаційно-пошукова система МЕТА
МЕТА дозволяє шукати інформацію в українському сегменті Інтернету, а також відповідно до реєстру українських сайтів.
3.27. Пошук у повнотекстовій базі даних
Повнотекстовий пошук йде з урахуванням російської та української морфології. Це означає, що, незалежно від граматичної форми ключових слів, будуть отримані документи, що містять відповідні слова у всіх формах. Наприклад, відповідно до запиту „правові бази по законодавству”, будуть знайдені документи, що містять слова „правова база” і „законодавство”, відповідно до запиту „рушник вишиваний” — документи, що містять слова „вишиваному рушникові” і т. ін.
Звернемо увагу на таку особливість: у багатослівних запитах система не ігнорує так звані „стоп-слова”, до яких відносять прийменники, частки, союзи і т. ін. Більшість пошукових систем при пошуку їх ігнорують, тобто, при запиті „крем від засмаги” прийменник „від” буе проігнорований і ряд результатів будуть документи зі словосполученням „крем для засмаги”. МЕТА видасть документи, що точно збігаються з запитом.
Можна використовувати ряд службових операторів, що дозволяють уточнити запит.
Логічні оператори
Визначення відстані між словами запиту
Оператор | Опис |
+ | Логічне І. Даний оператор діє першим, тобто запит "правові бази по законодавству" рівносильний запиту правові бази + законодавство |
- | Логічне НЕМАЄ дозволяє вилучити зі списку результатів документи, у яких міститься слово, що йде після оператора. Наприклад, згідно запиту "правові бази - законодавство", будуть знайдені тільки ті документи, у яких є слова "правові бази", але немає слова "законодавство". |
Логічне ЧИ/ АБО дозволяє знайти документи, що містять хоча б одне слово в запиті. Наприклад, згідно запиту: козаки | казаки будуть знайдені документи, що містять або слово козаки, або слово казаки. |
Подвійні лапки дозволяють знаходити точнее словосполучення, зазначене в них. При цьому фіксується граматична форма слів, тобто, згідно з запитом „правова
база”, будуть знайдені документи, у яких міститься точно таке ж словосполучення - правова база.
Фігурні дужки дозволяють знаходити словосполучення, близьке до зазначеного в них, тобто, на відміну відпопереднього оператора, згідно з запитом {правова база} будуть знайдені документи, що містять такі словосполучення: „правова база”, „правові база”, „правової база”, тобто граматична форма слів у даному випадку не фіксується.
Цей оператор використовується в тому випадку, якщо необхідно обмежити відстань між словами запиту. Наприклад, згідно з запитом [5, мобільний телефон], будуть знайдені лише ті документи, у яких слова мобільний і телефон розташовані у фрагменті тексту, що не перевищує 5 слів.
Порядок дії логічних операторів можна задавати круглими дужками (). Наприклад, згідно з запитом правова | фінансова база будуть одержані документи, що містять або слово правова, або одночасно слова фінансова база, оскільки мається на увазі оператор +, якій діє першим. Якщо ж необхідно знайти документи, у яких зустрічаються слова правова база чи фінансова база, запит має бути таким: (правова | фінансова) база.
Оператори, що дозволяють обмежити область пошуку
Оператор Title | Опис |
Даний оператор дозволяє шукати тільки за назвою документа. Наприклад, згідно з запитом: ІШе(закон) будуть знайдені ті документи, у заголовку яких міститься закон, згідно з запитом title(" документи Кабінету міністрів") будуть знайдені документи, що містять у заголовку словосполучення "документи Кабінету міністрів" | |
Heading | Даний оператор дозволяє проводити пошук по назвах розділів документів. Наприклад, за запитом: пеа(Нп§(бізнес-план) будуть знайдені документи, що |
Інформаційно-пошукова система МЕТА надає цілий ряд сервісних можливостей, які дозволяють вести більш прицільний пошук. Однак, інформаційно-пошукова система — тільки інструмент, і головний внесок у швидке одержання точних результатів робить користувач, коли формулює свій запит.
Поради з ефективної організації пошуку з використанням серверу МЕТА
Скільки слів використовувати в запиті
Згідно статистики, користувачі закордонних пошукових систем використовують у середньому 1,5 слова в запиті. Наші користувачі більш „багатослівні” — 2,5 слова на один запит. У тому випадку, якщо потрібна загальна інформація, що має хоч якесь відношення до теми, достатньо одного слова. Напевно, серед декількох сотень документів, що видасть МЕТА буде документ, що відповідає темі пошуку. Однак, де буде цей документ — в першій десятці результатів чи десятій десятці — важко сказати.
Щоб одержати добірку результатів, що буде більш точно відповідати темі запиту, і попутно заощадити час на перегляд відповідей пошукової системи краще шукати відразу згідно декількох слів, що характеризує запит більш детально.
Які слова використовувати в запиті
Основне змістове навантаження в мові несуть іменники. Значно рідше використовуються прикметники і зовсім рідко дієслова, прислівники, прийменники, сполучники. Прикметники в запиті — просто незамінні, якщо потрібно знайти в Інтернеті саме «правову базу», з «нормативними документами «з»охорони природного середовища».
Дуже ефективний засіб для швидкого одержання точних посилань — це використання рідких слів. До таких слів можна віднести спеціальні терміни, назви місцевості, організації, імена людей і інше. Наприклад, полівінілхлорид, Пномпень, Лорак і т. п. Використання точних слів відразу «заглиблює» користувача у потрібну тематику.
Багатомовні запити
За статистикою МЕТИ, велика частина запитів надходить російською мовою. При цьому пошукова база МЕТИ містить документи російською, українською і англійською мовами. Подібна багатомовність задає свої особливості пошуку на МЕТІ. Наприклад, для того, щоб одержати повний список сторінок, що мають відношення до освіти, необхідно крім слова «освіта» задіяти також слова „образование” і „education”. Якщо користувача цікавить повнота пошуку, то це найбільш короткий шлях, щоб одержати посилання на весь масив документів, які цікавлять.