Пошук інформації

В Internetі розміщено мільйони сайтів, причому багато застарілих ресурсів. Актуальну інформацію іноді знайти дуже важко, бо кожен може розмістити власний ресурс і висловити свою думку.

Знаходити інформацію в Internetі було б дуже важко, якщо б не було створено потужні пошукові інструменти: пошукові машини (пошукачі), каталоги (рубрикатори), рейтинги, автономні пошукові агенти і тематичні списки посилань, онлайнові енциклопедії та довідники [51].

Існують різні інструменти пошуку, які слід обрати для кожного типу інформації [51]:

- індексовані каталоги. Каталог являє собою дані, структуровані за темами у вигляді ієрархічних структур. Тематичні розділи першого рівня визначають найбільш популярні, максимально широкі теми, такі як "спорт", "відпочинок", "наука", "магазини" і т. п. У кожному такому розділі є підрозділи. Таким чином, користувач може шукати область, яка його цікавить, подорожуючи по дереву каталогу й поступово звужуючи область пошуку. Дійшовши до потрібного підкаталогу, користувач знаходить у ньому набір посилань.

Зазвичай в каталозі всі посилання є профільними, оскільки складанням каталогів займаються не програми, а люди. Якщо ведеться пошук загальної інформації за широкою темою, то доцільно звернутися до каталогу. Якщо ж необхідно знайти конкретний документ, то каталог виявиться малоефективним пошуковим засобом.

Існує дуже багато каталогів. Один із найбільш популярних каталогів в Україні знаходиться за адресою http://www.catalogue.biz.ua/ (рис. 3.8).

Крім каталогів загального профілю, в Internet досить багато спеціалізованих каталогів. Наприклад, за адресою www.kinder.ru можна знайти каталог, присвячений дитячим ресурсам. У випадку, якщо всередині окремої теми каталогу знаходиться величезна кількість ресурсів, виникає проблема вибору. У деяких каталогах є сортування за популярністю, наприклад, в каталозі Яндекса сортування йде за індексом цитування – кількості поси-

Рисунок 3.8 – Український каталог загального профілю

лань на сайт з інших сайтів;

- рейтинги. Одним із найбільш популярних рейтингів є Rambler’s Top 100 (http://top100.rambler.ru/top100/). На рис. 3.9 показано рейтинг ресурсів за темою Internet, зв’язок. Популярність ресурсу оцінюється за низкою параметрів, у т. ч. за кількістю унікальних відвідувачів та відвідувань сайта в одиницю часу;

Рисунок 3.9 – Приклад рейтингу Rambler Top 100

- тематичні колекції посилань – це списки, складені групою професіоналів або навіть колекціонерами-одинаками. Дуже часто вузькоспеціалізована тема може бути розкрита одним фахівцем краще, ніж групою співробітників великого каталогу. Існує численна кількість тематичних колекцій в Internet;

- підбір доменного імені. Якщо користувачеві необхідний сайт, присвячений погоді в світі, його логічно шукати на сервері www.weather.com. У більшості випадків пошук сайта з ключовим словом у назві ефективніше, ніж пошук документа, в тексті якого це слово використовується. Якщо західна комерційна компанія (або проект) має односкладову назву і реалізовує в Internet свій сервер, то її ім’я з високою ймовірністю вкладається у форматwww.name.com, де name – ім’я компанії або проекту. Однак, якщо підібрати шукане ім’я не вдається, доведеться звернутися до пошукової машини;

- пошукові машини. У відповідь на запит користувач зазвичай отримує довгий список документів, багато з яких не мають ніякого відношення до того, про що він питав. Такі документи називаються нерелевантними (від англ. relevant – підходящий, такий, що стосується справи). Таким чином, релевантний документ – це документ, що містить потрібну інформацію. Очевидно, що від уміння грамотно видавати запит залежить відсоток одержуваних релевантних документів. Частка релевантних документів у списку всіх знайдених пошуковою машиною документів називається точністю пошуку. Нерелевантні документи називають шумовими. Якщо всі знайдені документи релевантні (шумових немає), то точність пошуку складає 100%. Якщо знайдені всі релевантні документи, то повнота пошуку – 100%.

Пошукова машина має дві функції: створення та постійне оновлення даних в базі і пошук інформації в базі за запитом клієнта. Пошукова машина складається з двох частин: робота (мережевого агента, павука, черв’яка), який обходить сервери Internet та формує базу даних пошукового механізму. База робота в основному формується ним самим (робот сам знаходить посилання на нові ресурси). Також існує програма, яка визначає рейтинг знайдених посилань.

Принцип роботи пошукової машини зводиться до того, що вона запитує свій внутрішній каталог (базу даних) за ключовими словами, які користувач указує в полі запиту, і видає список посилань, ранжований за релевантністю.

Незважаючи на те що база даних пошукової машини постійно оновлюється, пошукова машина не може проіндексувати всі Web-документи: їх число дуже велике. Тому завжди існує ймовірність, що шуканий ресурс просто невідомий конкретній пошуковій системи.

Пошук за індексом полягає в тому, що користувач формує запит і передає його пошуковій машині. У разі, коли у користувача є кілька ключових слів, дуже корисним є використання булевих операторів або мови запитів. Синтаксис мови запитів у різних пошукових системах може відрізнятися, зазвичай в довідкових даних на пошуковому сервері наводиться інформація про синтаксис запитів.

Багато пошукових систем мають режим "розширений пошук". Наприклад, у найбільш популярній на сьогодні пошуковій системі Google (www.google.com) цей режим дає можливість шукати документи певною мовою, змінені в певний час або подані у певному форматі, наприклад Word-документ або презентацію Power Point.

Після того, як користувач передав запит пошуковій системі, вона обробляє синтаксис запиту і порівнює ключові слова зі словами в індексі. Після цього складається список сайтів, що відповідають запиту, вони ранжуються за релевантністю і формується результат пошуку, який і видається користувачу.

Internet розвивається стрімкими темпами – кожного дня з’являються сотні тисяч нових Web-сторінок. Існують додатки, що дозволяють передавати запит користувача відразу в декілька пошукових систем – так звані автономні пошукові агенти;

- метапошукова система має ті ж переваги перед пошуковою системою, що й пошук в кількох довідниках перед пошуком в одному. Однак це не означає, що метапошуком слід користуватися у всіх випадках. Якщо документів з теми багато, то метапошук не потрібний і, можливо, навіть шкідливий, оскільки змішує різні логіки ранжування.

Приклади метапошукових систем: ez2www, Query Server, Infonetware, Мetabot, Metaseek, IBoogie, InfoGrid та ін.;

- онлайнові енциклопедії. Більшість словників із даної категорії є англомовними. Вельми популярним і об’ємним є англомовний FOLDOC (Free On-line Dictionary Of Computing –http://wombat.doc.ic.ac.uk/foldoc/index. html) – понад 13 тис. термінів. А також онлайнові словники: Webopedia і WhatIs.com [51].

Навіть якщо документи містять шукані ключові слова, цінність їх може бути різною, оскільки в Internetі текст може бути надрукований без належного контролю та коректури. Тому важливо оцінити, якою мірою документ містить рекламу і наскільки можна довіряти компетентності автора. Наприклад, енциклопедію Wikipedia (www.wikipedia.com) може редагувати кожен бажаючий. Wikipedia пропонує кожному дописати у величезний довідник ту частину, в якій він вважає себе фахівцем [51].

Розглянемо практичні рекомендації з пошуку [51].

- пошук в каталозі дає уявлення про структуру запитання, пошукова система дозволяє знайти конкретний документ, підбір доменного імені допомагає відшукати сервер фірми, навіть якщо вона не індексована жодною пошуковою системою;

- здійснюючи пошук за допомогою пошукової машини, слід уникати загальних слів;

- чим унікальніше ключове слово, за яким здійснюється пошук, тим більше шансів знайти саме те, що потрібно;

- необхідно шукати більше, ніж за одним словом;

- скоротити обсяг посилань можна, визначивши кілька ключових слів. Слід використовувати синоніми;

- не бажано писати великими літерами;

- необхідно уникати написання ключового слова з великої літери. У ряді пошукових систем великі букви дозволяють шукати власні імена, наприклад "телепередача Здоров’я";

- слід використовувати функцію Найти похожие документы;

- якщо один із знайдених документів є ближчим шуканій темі, ніж інші, необхідно натиснути посилання Найти похожие документы;

-необхідно користуватися мовою запитів;

- за допомогою мови запитів можна зробити запит більш точним;

- необхідно користуватися розширеним запитом;

- у багатьох пошукових системах є форма розширеного запиту, в якій можна використовувати основні механізми звуження пошуку (не запам’ятовуючи семантики мови запитів);

- слід користуватися метапошуковою системою, якщо з теми знайдено мало документів [51].

5rik.ru

Материалы для учебы и работы

Пошук інформації