Каталоги

Каталоги є довідниками, що містять списки адрес Інтернет, згруповані по визначених ознаках. Як правило, вони поєднуються по тематиці (наука, мистецтво, новини і т.д.), де кожна тема розгалужується на трохи підрівнів.

Особливість цих засобів пошуку інформації полягає в тому, що створення структури, бази даних і їхнє постійне відновлення здійснюється "вручну", колективом редакторів і програмістів, і сам процес пошуку вимагає особистої участі користувача, що самостійно переходить від посилання до посилання.

3.2 Пошукові машини

Дія пошукових машин полягає в постійному і послідовному дослідженні усіх вузлів Інтернет, доступних даній системі пошуку, із усіма їхніми зв'язками і відгалуженнями. У зв'язку з постійним відновленням інформації машина пошуку регулярно повертається через визначений термін (порядку місяця) до уже вивчених вузлів, щоб знайти і зареєструвати зміни. Уся прочитана інформація індексується, тобто створюється спеціалізована база даних, у якій закодовані всі досліджені системою сторінки Інтернет.

При надходженні запиту від користувача машина пошуку розглядає всю індексовану інформацію і видає список документів, що відповідають задачі пошуку. Знайдені документи ранжуються в залежності від місця розташування ключових слів (у заголовку, на початку тексту, у перших параграфах) і частоти їхньої появи в тексті.

Незважаючи на схожий принцип роботи, машини пошуку розрізняються по:

· мовах запиту,

· зонам пошуку,

· глибині пошуку усередині документа,

· методам ранжирування і пріоритетів,

тому застосування різних пошукових машин дає різні результати.

3.3 Метапошукові системи

Метапошукова система може бути реалізована як у самій Мережі, наприклад, на Telnet- чи Web-доступному вузлі, так і у виді локальної клієнтської програми. Не володіючи власною індексною базою даних, метапошуквоа система виступає як шлюз, що передає через свій інтерфейс запити на автономні ІПС і повертає результати пошуку.

Одне з призначень метапошукового сервісу при пошуку - тестування Мережі на предмет інформації, релевантної запиту. Метасистеми дозволяють також оцінити результативність застосування окремих ІПС для рішення конкретної пошукової задачі. На жаль, для предметного і тонкого пошуку метаситсеми поки ще погано застосовні. Проблема полягає в тім, що мова запитів позначки-шлюзу має у своєму розпорядженні лише самими загальними для більшості ІПС, і тому вкрай скромними можливостями. Поява проекту стандарту пошукових систем SESP у цьому відношенні відкриває нові перспективи в розвитку метасистем, оскільки стандартизація ІПС істотно розширить можливості шлюзування.

Відзначимо, що метасистема допускає передачу запитів не тільки на автоматичні індекси, але й у ті каталоги, що супроводжуються локальною пошуковою машиною.

Серед досить легковагих продуктів цілого сімейства локальних клієнтів матапошуку, виділяється програма, відома під ім'ям Inforia Quest (мал.2).

Рис.2 Локальний метапошуковий клієнт Inforia Quest 98.

Спробний варіант її останньої версії можна знайти на вузлі www.inforia.com/quest. За підсумками минулого року вона була визнана однієї з кращих у своєму класі і претендує на роль професійного пошукового інструмента. Швидкий погляд на можливості цієї програми дозволяє позначити риси метапошукових клієнтів самого останнього покоління. Насамперед, програма інтегрує в собі не тільки пошукові сервіси Web-простору, але й інші поля інформаційного сектора Мережі, а саме: файлові архіви FTP і систему телеконференцій. При обробці пошукового запиту допускається з'єднання більш ніж з 100 пошуковими системами, включаючи і спеціалізовані. Звітна інформація про знайдені ресурси відображається в робочій області програми. Посилання, що дублюють уже знайдені, системою виключаються. Отримані адреси негайно перевіряються на приступність. Їсти можливість вибрати набір необхідних пошукових систем з повного списку, установити час проведення пошуку й обмеження на число посилань, отриманих від кожного пошукового сервера. Сам перелік ІПС, з якими взаємодіє програма обновляється автоматично із сервера розроблювача при роботі в Мережі. Великим завоюванням програми є те, що вона підтримує деяку подобу пошукової мови: працюють два логічних оператори і пошук по фразах. Однак усякий раз, коли мова метасистемы не в змозі забезпечити точна побудова пошукового запиту, приходиться прибігати до автономних сервисам Мережі, у першу чергу до пошукових машин WWW.


3. Методи інформаційного пошуку

 

3.1 Типологія методів пошуку

 

Більш-менш серйозний підхід до будь-якої задачі починається з аналізу можливих методів її рішення. Пошук інформації в Інтернету може бути зроблений по декількох методах, що значно розрізняється як по ефективності і якості пошуку, так і по типі інформації, що витягається. У ряді випадків приходиться використовувати дуже трудомісткі методи - результат того коштує.

Можна виділити наступні основні методи пошуку інформації в Інтернету, що, у залежності від цілей і задач шукаючого, використовуються по окремості чи в комбінації один з одним:

Безпосередній пошук з використанням гіпертекстових посилань. Оскільки всі сайти в просторі WWW фактично виявляються зв'язаними між собою, пошук інформації може бути зроблений шляхом послідовного перегляду зв'язаних сторінок за допомогою броузера.

Хоча цей цілком ручний метод пошуку виглядає повним анахронізмом у Мережі, що містить більш 60 млн. вузлів, "ручний" перегляд Web-сторінок часто виявляється єдино можливим на заключних етапах інформаційного пошуку, коли механічне "копання" поступається місцем більш глибокому аналізу. Використання каталогів, класифікованих і тематичних списків і всіляких невеликих довідників також відноситься до цього виду пошуку.

Використання пошукових машин. Сьогодні цей метод є одним з основних і фактично єдиним при проведенні попереднього пошуку. Результатом останнього може бути список ресурсів Мережі, що підлягають детальному розгляду.

Як правило, застосування пошукових машин засновано на використанні ключових слів, що передаються пошуковим серверам як аргументи пошуку: що шукати. Якщо робити всі правильно, то формування списку ключових слів вимагає попередньої роботи по складанню тезауруса.
Пошук із застосуванням спеціальних засобів. Цей цілком автоматизований метод може виявитися дуже ефективним для проведення первинного пошуку.

Одна з технологій цього методу заснована на застосуванні спеціалізованих програм - спайдерів, що в автоматичному режимі переглядають Web-сторінки, відшукуючи на них шукану інформацію. Фактично це автоматизований варіант перегляду за допомогою гіпертекстових посилань, описаний вище (пошукові машини для побудови своїх індексних таблиць використовують схожі методи). Немає потреби говорити, що результати автоматичного пошуку обов'язково вимагають наступної обробки.

Застосування даного методу доцільно, якщо використання пошукових машин не може дати необхідних результатів (наприклад, у силу нестандартності запиту, що не може бути адекватно заданий існуючими засобами пошукових машин). У ряді випадків цей метод може бути дуже ефективний.

Вибір між використанням спайдера чи пошукових серверів виявляє собою варіант класичного вибору між застосуванням універсальних чи спеціалізованих засобів.

Аналіз нових ресурсів. Пошук по новостворених ресурсах може виявитися необхідним при проведенні повторних циклів пошуку, пошуку найбільш свіжої чи інформації для аналізу тенденцій розвитку об'єкта дослідження в динаміку.

Іншою можливою причиною може з'явитися те, що більшість пошукових машин обновляє свої індекси зі значною затримкою, викликаної гігантськими обсягами оброблюваних даних, і ця затримка звичайно тим більше, ніж менш популярна цікавляча вас тема. Це розуміння може виявитися дуже істотним при проведенні пошуку у вузькоспеціальній предметній області.

 

4.2 Технологія пошуку з використанням пошукових машин

 

Визначення географічних регіонів пошуку. Оскільки проведення інформаційного пошуку переслідує практичні цілі - маркетингові, виробничі, сугубо утилітарні і тому подібні, - практична цінність інформаційного ресурсу може залежати і від географічного розташування відповідного джерела.

Складання тезауруса. Для ефективного використання пошукових серверів необхідний список ключових слів, організований з урахуванням семантичних відносин між ними, тобто тезаурус. При складанні тезауруса необхідно передбачити обробку синонімів, омонімів і морфологічних варіацій ключових слів.

Використання законів Зипфа

Число, що показує, скільки разів зустрічається слово в тексті, називається частотою входження слова. Якщо розташувати частоти в міру убування і пронумерувати, то порядковий номер частоти називається ранг частоти. Імовірність виявлення слова в тексті = частота входження слова / число слів у тексті. Зипф знайшов, що якщо помножити імовірність виявлення слова в тексті на ранг частоти, те величина, що вийшла, приблизно постійна для всіх текстів на одній мові:

З = (частота входження слів * ранг частоти) / число слів

Це значить, що графік залежності рангу від частоти - рівностороння гіпербола.

Зипф також установив, що залежність кількості слів з даною частотою від частоти - також гіпербола і постійна для всіх текстів у межах однієї мови.

Що можна витягти з цих законів? Дослідження вищевказаних залежностей для різних текстів показали, що найбільш значимі слова тексту лежать у середній частині діаграми, тому що слова з максимальною частотою як правило є приводами, частками, займенниками, в англійській мові - артиклями (так називані "стоп-слова"), а рідко зустрічаються слова в більшості випадків не мають вирішального значення. Ґрунтуючись на цій закономірності, можна запропонувати наступну методику.

Складання списку ключових слів

Правильний набір ключових слів має визначальне значення для оптимального пошуку інформації. Приміром, задавши пошуковій машині як ключове слово "МАРП", ми одержимо список документів, у яких зустрічається ця абревіатура (Московське Агентство по Розвитку Підприємництва). Але якщо нас цікавлять документи по більш широкій темі, наприклад: розвиток підприємництва, і ми сформуємо простий запит з цих двох слів, те пошукова машина видасть нам список із сотень тисяч найменувань, орієнтуватися в який буде дуже непросто.

Тому для складання оптимального набору ключових слів використовують процедуру, засновану на застосуванні законів Зипфа, що полягає в наступному: беруть будь-як текст-джерело, близьке до теми дослідження, тобто "зразок", і аналізують його, виділяючи значимі слова. Як текст-джерело може служити книга, стаття, Web-сторінка, будь-який інший документ. Аналіз тексту виробляється в такий спосіб:

  • Видалення з тексту стоп-слів.
  • Обчислення частоти входження кожного слова і складання списку, у якому слова розташовані в порядку убування їхньої частоти.
  • Вибір діапазону частот, що лежить у середині списку, і добір з цього діапазону слів, що найбільше повно відповідають змісту тексту.
  • Складання запиту до пошукової машини у формі перерахування відібраних у такий спосіб ключових слів, зв'язаних логічним оператором "ИЛИ" (OR). Запит у такому виді дозволяє знайти тексти, у яких зустрічається хоча б одне з перерахованих слів.

Число документів, отриманих у результаті пошуку по цьому запиті, може бути величезне. Однак, завдяки ранжируванню документів (розташуванню їх у порядку убування частоти входження слів запиту в документ), застосовуваному в більшості пошукових машин, на перших сторінках списку практично всі документи виявляться релевантними, причому документ-джерело може знаходитися далеко від початку.

Більш адекватної представляється структура тезауруса у виді так званих семантичних зрізів, де для кожного основного терміна окремо будується таблиця супутніх слів і слів шумових (які не повинні зустрічатися в джерелі), - деякі пошукові машини (AltaVista) дозволяють це використовувати. Таким чином, замість єдиної ієрархічної структури термінів ми одержуємо пакет таблиць, що можуть розширюватися і модифікуватися окремо.

 

Вібір пошукових машин.

Установлюється послідовність використання пошукових машин відповідно до убування очікуваної ефективності пошуку з застосуванням кожної машини.

Усього відомо близько 180 пошукових серверів, що розрізняються по регіонах охоплення, принципам проведення пошуку (а отже, по вхідній мові і характеру сприйманих запитів), обсягу індексної бази, швидкості відновлення інформації, здатності шукати "нестандартну" інформацію тощо. Основними критеріями вибору пошукових серверів є обсяг індексної бази сервера і ступінь розвиненості самої пошукової машини, тобто рівень складності сприйманих нею запитів.

4.3 Складання і виконання запитів до пошукових машин

Це найбільш складний і трудомісткий етап, зв'язаний з обробкою великої кількості інформації (в основному шумовий). На основі тезауруса формуються запити до обраних пошукових серверів, після чого можливе уточнення запиту з метою відсікання очевидно нерелевантної інформації. Потім виробляється добір ресурсів, починаючи з найбільш цікавих, з погляду цілей пошуку. Дані з ресурсів, визнаних релевантними, збираються для наступного аналізу.

Формування запитів. Як формат, так і семантика запитів варіюються в залежності від застосовуваної пошукової машини і конкретної предметної області. Запити складаються так, щоб область пошуку була максимально конкретизована і звужена.

Перевага віддається використанню декількох вузьких запитів у порівнянні з одним розширеним. У загальному випадку для кожного основного поняття з тезауруса готується окремий пакет запитів. Так само виробляється спробна реалізація запитів - як для уточнення і поповнення тезауруса, так і з метою відсікання "шумової" інформації.

Мови запиту різних машин пошуку в основному є сполученням наступних функцій:

1. Оператори булевій алгебри AND, OR, NOT:

· AND (И) - здійснюється пошук документів, що містять усі терміни, з'єднані даним оператором;

· OR (или) - шуканий текст повинний містити хоча б один з термінів, з'єднаних даним оператором;

· NOT (НЕ) - пошук документів, у тексті яких відсутні терміни, що випливають за даним оператором.

2. Оператори відстані - обмежують порядок проходження і відстані між словами, наприклад:

· NEAR - другий термін повинний знаходитися на відстані від першого, не перевищуючому визначеного числа слів;

· FOLLOWED BY - терміни випливають у заданому порядку;

· ADJ - терміни, з'єднані оператором, є суміжними.

3. Можливість усікання термінів - використання символу " * " замість закінчення терміна дозволяє включити до шуканого списку всі слова, похідні від його початкової частини (шаблона).

4. Облік морфології мови - машина автоматично враховує усі форми даного терміна, можливі в мові, на якому ведеться пошук.

5. Можливість пошуку по словосполученню, фразі.

6. Обмеження пошуку елементом документа (слова запиту повинні знаходитися саме в заголовку, першому абзаці, посиланнях і т.д.).

7. Обмеження по даті опублікування документа.

8. Обмеження на кількість збігів термінів.

9. Можливість пошуку графічних зображень.

10. Чутливість до рядкових і прописних букв.

Результат запиту (список посилань) обробляється в два етапи. На першому етапі виробляється відсікання очевидне нерелевантних джерел, що потрапили у вибірку в силу недосконалості пошукової машини чи недостатньої "інтелектуальності" запиту. Паралельно проводиться семантичний аналіз, що має метою уточнення тезауруса для модифікації наступних запитів. Подальша обробка виробляється шляхом послідовного звертання на кожний зі знайдених ресурсів і аналізу інформації, що там знаходиться.

Аналіз ресурсів і збір інформації. Первинний аналіз ресурсів ґрунтується на анотаціях - у випадку їхньої наявності, і в необхідних випадках - на ознайомленні з інформаційним наповненням ресурсу. Інформація з відібраних джерел витягається з використанням відповідних конкретному джерелу методів, що може зажадати значних комунікаційних, обчислювальних і дискових ресурсів.

Коротко можна виділити наступні типи інформаційних Web-ресурсів:

  • комерційні сайти компаній;
  • вторинні інформаційні сайти;
  • джерела аналітичної інформації;
  • регіональні інформаційні ресурси.

У українськомовній та російськомовній частині Інтернету в даний час доступний ряд ресурсів, що надають вторинну інформацію, як правило, у формі таблиць. Надання інформації для публікації в подібних джерелах є більш дешевим варіантом для компаній, що не мають власного представництва в Інтернет

 

5. Висновки. Проблеми, що виникають у процесі пошуку

Одна з проблем є чисто методологічної. Для проведення ефективного пошуку ми зацікавлені в одночасному рішенні двох протилежних задач:

  • збільшення охоплення з метою витягу максимальної кількості значимої інформації;
  • зменшення охоплення з метою мінімізації шумової інформації.

Неважко бачити, що одночасно здійснити це досить складно, хоча найчастіше все-таки можливо. Один з методів, якщо пошукова машина дозволяє, - це введення явних обмежень (заборонених слів). Інший шлях складається в правильному формуванні запитів, зокрема, у перевазі декількох конкретизованих запитів одному загальному. На жаль, дуже обмежена вхідна мова більшості пошукових машин не залишає особливого простору для творчості в цьому напрямку.

Інша проблема - багатоваріантність людської мови. Якщо в англійській мові деякі слова мають безліч різних значень, то російська й українська мови відрізняються багатством морфологічних варіацій слів, а для повноти пошуку необхідно враховувати ще і синоніми.

Часто в області російського та українського Інтернет виникають чисто технічні труднощі через різні кодування інформації. Російські та українські пошукові машини розпізнають кодування користувача із знайденого сайту, але сполучити їх удається не завжди.

Ще одна особливість українськомовної та російськомовної частин мережі - її нестабільність. Постійно змінюються адреси і структура сайтів, вони з'являються і зникають, і пошукові машини не встигають обновляти свої бази індексованих даних, тому значна частина списку документів, виданого вам машиною, може виявитися недоступною. Поява у вересні 1997 р. системи Яndех (yandex.ru, ya.ru), що обновляє свої дані раз у тиждень, позначило якісний стрибок вперед у рішенні цієї проблеми.

 

Висновки.

Які висновки можна зробити після розглянутих у лекції питань?

· По-перше, про те, що пошук інформації в мережі Інтернет це одночасно наука і мистецтво.

· По-друге слід зазначити важливість попередньої підготовки до пошуку.

· У третіх, необхідно знати методи пошуку, володіти відповідним програмним забезпеченням.

· У четвертих, необхідно опит пошуку інформації, який можна пробрести тільки на практиці. Тоді з'явиться необхідна інтуїція и приїде успіх.

 

ЛІТЕРАТУРА

Нормативна література

1. Закон України “Про наукову і науково-технічну діяльність”. Відомості Верховної Ради України, 1992 р, № 12, ст..165

2. Закон України “Про Національну програму інформатизації” Відомості Верховної Ради України, 1998 р., № 27 – 28, ст. 181

3. Кабінет Міністрів України. Постанова від 1 березня 1999р. №309 Київ. – “Про затвердження Положення про підготовку наукових кадрів”.

4. Кабінет Міністрів України. Постанова від 28 червня 1997р. №644 Київ. - Про затвердження Порядку присудження наукових ступенів і присвоєння вчених звань.

Навчальна література

1. Орлов П.І. Інформація та інформатизація: Нормативне-правове забезпечення: Науково-практичний посібник. – Харків: Видавництво університету внутрішніх. справ, 2000.-576 с.

2. Онищенко О. Каталоги – інформаційне ядро бібліотек (роль і значення в період комп’ютеризації) – Бібліотечний вісник – 1997.-№6. - с.6-7.

3. Кузнєцов И.Н. Учебник по информационно-аналитической работе. – М.: ООО Изд.- во Яуза, 2001. – 320 с.

4. Орлов П.И. и др. UNILIB – университетская библиотечная система (Руководство пользователя) справочник. Харьков: Изд-во Нац. ун-та вн. дел. 2001.-84с.

5. Дудихин В.В., Дудихина О.В. Конкурентная разведка в Internet. Советы аналитика. – М.: ДМК Пресс, 2002. – 192 с.

6. Филиппова Л.Я. Информационно-библиотечные ресурсы Интернет / Под ред. В.П. Щетинина. – Харьков: «К-Центр», 1998. – 80 с.

7. Як підготувати і захистити дисертацію на здобуття наукового ступеня. Методичні поради / Автор-упорядник Л.А. Пономаренко, д.т.н., проф. - К.: Редакція "Бюлетеня ВАК України", вид-во "Толока", 2001. - 80 с.

8. Здобувачу наукового ступеня: Метод. рекомендації / Упоряд. С.В. Сьомін. - К.: МАУП, 2002. - 184 с.

9. Гусев В.С. Поиск в Internet. Самоучитель.: М.: Изд. дом "Вильямс", 2004. – 336 с. ил.