Поисковые системы
Всемирная информационная паутина WWW (Wold Wide Web)
Цифровая и доменная системы имен
В Интернете происходит передача данных по адресам. Адрес должен иметь формат, позволяющий вести его обработку автоматически и должен нести некоторую информацию о своем владельце. С этой целью для каждого компьютера устанавливаются два адреса: цифровой IP-адрес и доменный адрес. Оба этих адреса могут применяться равноценно. Цифровой адрес удобен для компьютера, а доменный адрес – для пользователя.
1) Цифровой адрес имеет длину 32 бита. Он разделяется точкой на четыре блока по 8 бит, которые можно записать в десятичном виде. Адрес включает в себя 3 компонента: адрес сети, адрес подсети, адрес компьютера в подсети. Например, 192.45.9.200: адрес сети – 192.45, адрес подсети – 9, адрес компьютера в подсети – 200.
2) Доменная система имен (Domain Naming System).
Доменное имя – это уникальное имя, состоящее из символических идентификаторов. Оно назначается провайдером. Доменный адрес определяет область, представляющую ряд хост-компьютеров. В отличие от цифрового адреса он читается в обратном порядке.
Например, win.smtp.dol.ru – это полное доменное имя. Оно состоит из 4-х простых доменов, разделенных точками. Их число в полном имени может быть произвольным. Доменное имя рассматривается справа налево. Домены в имени вложены друг в друга: любой домен (кроме последнего) представляет собой поддомен следующего за ним справа.
ru – домен страны;
dol – домен провайдера (компьютеры локальной сети фирмы);
smtp – домен группы серверов Demos;
win – имя конкретного компьютера.
Особое значение имеют имена доменов самого верхнего уровня, стоящие в полном имени справа. Они зафиксированы международной организацией InterNIC (Internet Network Information Center).
Существуют:
1) домены, представленные географическими регионами (например, Франция – fr, США – us; России – ru, ca – Канада, jp – Япония, uk - Великобритания);
2) домены, разделенные по тематическим признакам (например:
оссии - Ро
com - коммерческие;
edu - образовательные;
gov - правительственные;
int – международные;
mil – военные организации.
В марте 1989 г. Tim Bernes Lee выступил с проектом телекоммуникационной среды для проведения совместных исследований в области физики высоких энергий. В 1991 г. Европейская лаборатория практической физики объявила на весь мир о создании новой глобальной информационной среды WWW.
WWW построена на технологии, в основу которой положен гипертекст, т.е. текст со ссылками. В настоящее время распространена гипермедийная среда.
Основные особенности:
- гипертекстовая организация Web-страниц;
- возможность включения в Web-страницы современных мультимедийных средств (графики, звука, анимации);
- возможность передачи на сайт владельца Web-страницы различной информации;
- наличие бесплатного и простого программного обеспечения, позволяющего просматривать и создавать Web-страницы;
- наличие хороших поисковых систем;
- возможность быстрого перемещения назад – вперед по уже просмотренным страницам;
- наличие средств обеспечения надежности и конфиденциальности информационного обмена.
Работа с ресурсами WWW обеспечивается специальными программами – браузерами. Браузеры – программы-обозреватели, с помощью которых можно просматривать ресурсы WWW. С помощью браузеров можно просматривать HTML-файлы. Наиболее популярны: Netscape Communicator, MS Internet Explorer 4.0 и 5.0).
Чтобы открыть нужную страницу нужно сообщить браузеру адрес этой страницы. Адрес задается в стандартном формате и записывается в строке запроса. Он называется URL-адресом (универсальный указатель ресурсов).
Формат URL-адреса:
вид_информационного_ресурса://доменное_имя_хост_компьютера/имя_каталога/имя_подкаталога_имя_файла
(адрес сервера: [порт])
URL-адрес состоит из 2-х частей:
· первая определяет вид ресурса, определяется наименованием протокола, используемого системой, например: http – протокол передачи гипертекста.
· вторая указывает доменное имя хост-компьютера, на котором хранится требуемый документ, и через «/» указывается точное местоположение и имя файла.
Пример. URL-адрес: http://home.microsoft.com/intl/ru/www_tour.html.
Элементы адреса:
- http:// -префикс, указывающий тип протокола доступа, обозначающий, что адрес относится к хосту, который является WWW-сервером;
- home.microsoft.com –доменное имя хоста;
- /intl/ru/ -подкаталог (папка) ru корневого каталога (папки) intl хоста;
- www_tour.html – имя файла.
Для поиска информации в WWW имеются англоязычные и русскоязычные поисковые системы и каталоги.
Стандартная поисковая машина состоит из трех частей.
1. Робот. Эта программа непрерывно просматривает сайты, ищет новые, проверяет ранее найденные.
2. Индексная база. Формируется на основе найденных сайтов. В ней хранятся сведения о найденных Интернет-ресурсах (ссылки на сайты).
3. Поисковик. Ищет в индексе ресурсы, удовлетворяющие запросу пользователя. Когда посылается запрос, то поиск осуществляется в заранее подготовленной базе данных. Поэтому поисковая машина работает достаточно быстро.
Крупнейшими на сегодняшний день являются следующие порталы, снабженные каталогами ресурсов Интернета и мощными поисковыми роботами.
Название | Адрес | Примечание |
Англоязычные поисковые системы | ||
Alta Vista | http://www.altavista.digital.com | |
Lycos | http://www.mcn.lycos.com | |
Русскоязычные поисковые системы | ||
rambler | http://www.rambler.ru | Есть возможность поиска «похожих» документов. Поиск в различных кодировках дает одинаковый результат. |
Апорт | http://www.aport.ru | система умеет искать по различным словоформам введенных слов и исправляет в введенных словах ошибки |
Яndex | http://www.yandex.ru | Достоинство: способность находить заданные слова независимо от формы, в которой они употребляются в документах |
Основа поиска: с помощью языка запросов создать запрос (сформулировать требования), после чего поисковая система автоматически просматривает документы на контролируемых ею сайтах и отбирает соответствующие. В результате поиска создается одна или несколько страниц, содержащих ссылки на документы.