Пошук інформації

В Internetі розміщено мільйони сайтів, причому багато застарілих ресурсів. Актуальну інформацію іноді знайти дуже важко, бо кожен може розмістити власний ресурс і висловити свою думку.

Знаходити інформацію в Internetі було б дуже важко, якщо б не було створено потужні пошукові інструменти: пошукові машини (пошу­качі), каталоги (рубрикатори), рейтинги, автономні пошукові агенти і тема­тичні списки посилань, онлайнові енциклопедії та довідники [51].

Існують різні інструменти пошуку, які слід обрати для кожного типу інформації [51]:

- індексовані каталоги. Каталог являє собою дані, структуровані за темами у вигляді ієрархічних структур. Тематичні розділи першого рівня визначають найбільш популярні, максимально широкі теми, такі як "спорт", "відпочинок", "наука", "магазини" і т. п. У кожному такому розділі є підрозділи. Таким чином, користувач може шукати область, яка його ці­ка­вить, подорожуючи по дереву каталогу й поступово звужуючи область пошуку. Дійшовши до потрібного підкаталогу, користувач знаходить у ньо­­му набір посилань.

Зазвичай в каталозі всі посилання є профільними, оскільки скла­дан­ням каталогів займаються не програми, а люди. Якщо ведеться пошук загальної інформації за широкою темою, то доцільно звернутися до ката­логу. Якщо ж необхідно знайти конкретний документ, то каталог виявить­ся малоефективним пошуковим засобом.

Існує дуже багато каталогів. Один із найбільш популярних каталогів в Україні знаходиться за адресою http://www.catalogue.biz.ua/ (рис. 3.8).

Крім каталогів загального профілю, в Internet досить багато спеціа­лі­зованих каталогів. Наприклад, за адресою www.kinder.ru можна знайти ка­талог, присвячений дитячим ресурсам. У випадку, якщо всередині окремої теми каталогу знаходиться величезна кількість ресурсів, виникає проблема вибору. У деяких каталогах є сортування за популяр­ністю, наприклад, в каталозі Яндекса сортування йде за індексом цитування – кількості по­си­-

 

Рисунок 3.8 – Український каталог загального профілю

 

лань на сайт з інших сайтів;

- рейтинги. Одним із найбільш популярних рейтингів є Rambler’s Top 100 (http://top100.rambler.ru/top100/). На рис. 3.9 показано рейтинг ре­сур­сів за темою Internet, зв’язок. Популярність ресурсу оцінюється за низкою параметрів, у т. ч. за кількістю унікальних відвідувачів та від­ві­ду­вань сайта в одиницю часу;

 

 

Рисунок 3.9 – Приклад рейтингу Rambler Top 100

 

- тематичні колекції посилань – це списки, складені групою профе­сіоналів або навіть колекціонерами-одинаками. Дуже часто вузькоспе­ціалізована тема може бути розкрита одним фахівцем краще, ніж групою співробітників великого каталогу. Існує численна кількість тематичних колекцій в Internet;

- підбір доменного імені. Якщо користувачеві необхідний сайт, при­свячений погоді в світі, його логічно шукати на сервері www.weather.com. У більшості випадків пошук сайта з ключовим словом у назві ефек­тив­ніше, ніж пошук документа, в тексті якого це слово використовується. Якщо західна комерційна компанія (або проект) має односкладову назву і реалізовує в Internet свій сервер, то її ім’я з високою ймовірністю вкладається у форматwww.name.com, де name – ім’я компанії або проекту. Однак, якщо підібрати шукане ім’я не вдається, доведеться звернутися до пошукової машини;

- пошукові машини. У відповідь на запит користувач зазвичай отримує довгий список документів, багато з яких не мають ніякого відно­шення до того, про що він питав. Такі документи називаються нерелевант­ними (від англ. relevant – підходящий, такий, що стосується справи). Таким чином, релевантний документ – це документ, що містить потрібну інфор­мацію. Очевидно, що від уміння грамотно видавати запит залежить від­соток одержуваних релевантних документів. Частка релевантних доку­мен­тів у списку всіх знайдених пошуковою машиною документів називається точністю пошуку. Нерелевантні документи називають шумовими. Якщо всі знайдені документи релевантні (шумових немає), то точність пошуку складає 100%. Якщо знайдені всі релевантні документи, то повнота по­шуку – 100%.

Пошукова машина має дві функції: створення та постійне оновлення даних в базі і пошук інформації в базі за запитом клієнта. Пошукова машина складається з двох частин: робота (мережевого агента, павука, черв’яка), який обходить сервери Internet та формує базу даних пошу­кового механізму. База робота в основному формується ним самим (робот сам знаходить посилання на нові ресурси). Також існує програма, яка визначає рейтинг знайдених посилань.

Принцип роботи пошукової машини зводиться до того, що вона запитує свій внутрішній каталог (базу даних) за ключовими словами, які користувач указує в полі запиту, і видає список посилань, ранжований за релевантністю.

Незважаючи на те що база даних пошукової машини постійно оновлюється, пошукова машина не може проіндексувати всі Web-документи: їх число дуже велике. Тому завжди існує ймовірність, що шуканий ресурс просто невідомий конкретній пошуковій системи.

Пошук за індексом полягає в тому, що користувач формує запит і передає його пошуковій машині. У разі, коли у користувача є кілька ключових слів, дуже корисним є використання булевих операторів або мови запитів. Синтаксис мови запитів у різних пошукових системах може відрізнятися, зазвичай в довідкових даних на пошуковому сервері наво­диться інформація про синтаксис запитів.

Багато пошукових систем мають режим "розширений пошук". Наприклад, у найбільш популярній на сьогодні пошуковій системі Google (www.google.com) цей режим дає можливість шукати документи певною мовою, змінені в певний час або подані у певному форматі, наприклад Word-документ або презентацію Power Point.

Після того, як користувач передав запит пошуковій системі, вона обробляє синтаксис запиту і порівнює ключові слова зі словами в індексі. Після цього складається список сайтів, що відповідають запиту, вони ранжуються за релевантністю і формується результат пошуку, який і видається користувачу.

Internet розвивається стрімкими темпами – кожного дня з’являються сотні тисяч нових Web-сторінок. Існують додатки, що дозволяють пере­давати запит користувача відразу в декілька пошукових систем – так звані автономні пошукові агенти;

- метапошукова система має ті ж переваги перед пошуковою системою, що й пошук в кількох довідниках перед пошуком в одному. Однак це не означає, що метапошуком слід користуватися у всіх випадках. Якщо документів з теми багато, то метапошук не потрібний і, можливо, навіть шкідливий, оскільки змішує різні логіки ранжування.

Приклади метапошукових систем: ez2www, Query Server, Infonetware, Мetabot, Metaseek, IBoogie, InfoGrid та ін.;

- онлайнові енциклопедії. Більшість словників із даної категорії є ан­гло­мовними. Вельми популярним і об’ємним є англомовний FOLDOC (Free On-line Dictionary Of Computing –http://wombat.doc.ic.ac.uk/foldoc/index. html) – понад 13 тис. термінів. А також онлайнові словники: Webopedia і WhatIs.com [51].

Навіть якщо документи містять шукані ключові слова, цінність їх може бути різною, оскільки в Internetі текст може бути надрукований без належного контролю та коректури. Тому важливо оцінити, якою мірою документ містить рекламу і наскільки можна довіряти компетентності автора. Наприклад, енциклопедію Wikipedia (www.wikipedia.com) може редагувати кожен бажаючий. Wikipedia пропонує кожному дописати у величезний довідник ту частину, в якій він вважає себе фахівцем [51].

Розглянемо практичні рекомендації з пошуку [51].

- пошук в каталозі дає уявлення про структуру запитання, пошукова система дозволяє знайти конкретний документ, підбір доменного імені допомагає відшукати сервер фірми, навіть якщо вона не індексована жодною пошуковою системою;

- здійснюючи пошук за допомогою пошукової машини, слід уникати загальних слів;

- чим унікальніше ключове слово, за яким здійснюється пошук, тим більше шансів знайти саме те, що потрібно;

- необхідно шукати більше, ніж за одним словом;

- скоротити обсяг посилань можна, визначивши кілька ключових слів. Слід використовувати синоніми;

- не бажано писати великими літерами;

- необхідно уникати написання ключового слова з великої літери. У ряді пошукових систем великі букви дозволяють шукати власні імена, наприклад "телепередача Здоров’я";

- слід використовувати функцію Найти похожие документы;

- якщо один із знайдених документів є ближчим шуканій темі, ніж інші, необхідно натиснути посилання Найти похожие документы;

-необхідно користуватися мовою запитів;

- за допомогою мови запитів можна зробити запит більш точним;

- необхідно користуватися розширеним запитом;

- у багатьох пошукових системах є форма розширеного запиту, в якій можна використовувати основні механізми звуження пошуку (не запам’я­товуючи семантики мови запитів);

- слід користуватися метапошуковою системою, якщо з теми знайдено мало документів [51].