Поисковые системы

Всемирная информационная паутина WWW (Wold Wide Web)

Цифровая и доменная системы имен

В Интернете происходит передача данных по адресам. Адрес должен иметь формат, позволяющий вести его обработку автоматически и должен нести некоторую информацию о своем владельце. С этой целью для каждого компьютера устанавливаются два адреса: цифровой IP-адрес и доменный адрес. Оба этих адреса могут применяться равноценно. Цифровой адрес удобен для компьютера, а доменный адрес – для пользователя.

1) Цифровой адрес имеет длину 32 бита. Он разделяется точкой на четыре блока по 8 бит, которые можно записать в десятичном виде. Адрес включает в себя 3 компонента: адрес сети, адрес подсети, адрес компьютера в подсети. Например, 192.45.9.200: адрес сети – 192.45, адрес подсети – 9, адрес компьютера в подсети – 200.

2) Доменная система имен (Domain Naming System).

Доменное имя – это уникальное имя, состоящее из символических идентификаторов. Оно назначается провайдером. Доменный адрес определяет область, представляющую ряд хост-компьютеров. В отличие от цифрового адреса он читается в обратном порядке.

Например, win.smtp.dol.ru – это полное доменное имя. Оно состоит из 4-х простых доменов, разделенных точками. Их число в полном имени может быть произвольным. Доменное имя рассматривается справа налево. Домены в имени вложены друг в друга: любой домен (кроме последнего) представляет собой поддомен следующего за ним справа.

ru – домен страны;

dol – домен провайдера (компьютеры локальной сети фирмы);

smtp – домен группы серверов Demos;

win – имя конкретного компьютера.

Особое значение имеют имена доменов самого верхнего уровня, стоящие в полном имени справа. Они зафиксированы международной организацией InterNIC (Internet Network Information Center).

 

 

Существуют:

1) домены, представленные географическими регионами (например, Франция – fr, США – us; России – ru, ca – Канада, jp – Япония, uk - Великобритания);

2) домены, разделенные по тематическим признакам (например:

оссии - Ро

 

com - коммерческие;

edu - образовательные;

gov - правительственные;

int – международные;

mil – военные организации.

В марте 1989 г. Tim Bernes Lee выступил с проектом телекоммуникационной среды для проведения совместных исследований в области физики высоких энергий. В 1991 г. Европейская лаборатория практической физики объявила на весь мир о создании новой глобальной информационной среды WWW.

WWW построена на технологии, в основу которой положен гипертекст, т.е. текст со ссылками. В настоящее время распространена гипермедийная среда.

Основные особенности:

- гипертекстовая организация Web-страниц;

- возможность включения в Web-страницы современных мультимедийных средств (графики, звука, анимации);

- возможность передачи на сайт владельца Web-страницы различной информации;

- наличие бесплатного и простого программного обеспечения, позволяющего просматривать и создавать Web-страницы;

- наличие хороших поисковых систем;

- возможность быстрого перемещения назад – вперед по уже просмотренным страницам;

- наличие средств обеспечения надежности и конфиденциальности информационного обмена.

Работа с ресурсами WWW обеспечивается специальными программами – браузерами. Браузеры – программы-обозреватели, с помощью которых можно просматривать ресурсы WWW. С помощью браузеров можно просматривать HTML-файлы. Наиболее популярны: Netscape Communicator, MS Internet Explorer 4.0 и 5.0).

Чтобы открыть нужную страницу нужно сообщить браузеру адрес этой страницы. Адрес задается в стандартном формате и записывается в строке запроса. Он называется URL-адресом (универсальный указатель ресурсов).

Формат URL-адреса:

вид_информационного_ресурса://доменное_имя_хост_компьютера/имя_каталога/имя_подкаталога_имя_файла

(адрес сервера: [порт])

URL-адрес состоит из 2-х частей:

· первая определяет вид ресурса, определяется наименованием протокола, используемого системой, например: http – протокол передачи гипертекста.

· вторая указывает доменное имя хост-компьютера, на котором хранится требуемый документ, и через «/» указывается точное местоположение и имя файла.

Пример. URL-адрес: http://home.microsoft.com/intl/ru/www_tour.html.

Элементы адреса:

- http:// -префикс, указывающий тип протокола доступа, обозначающий, что адрес относится к хосту, который является WWW-сервером;

- home.microsoft.com –доменное имя хоста;

- /intl/ru/ -подкаталог (папка) ru корневого каталога (папки) intl хоста;

- www_tour.html – имя файла.

 

 

Для поиска информации в WWW имеются англоязычные и русскоязычные поисковые системы и каталоги.

Стандартная поисковая машина состоит из трех частей.

1. Робот. Эта программа непрерывно просматривает сайты, ищет новые, проверяет ранее найденные.

2. Индексная база. Формируется на основе найденных сайтов. В ней хранятся сведения о найденных Интернет-ресурсах (ссылки на сайты).

3. Поисковик. Ищет в индексе ресурсы, удовлетворяющие запросу пользователя. Когда посылается запрос, то поиск осуществляется в заранее подготовленной базе данных. Поэтому поисковая машина работает достаточно быстро.

Крупнейшими на сегодняшний день являются следующие порталы, снабженные каталогами ресурсов Интернета и мощными поисковыми роботами.

Название Адрес Примечание
Англоязычные поисковые системы
Alta Vista http://www.altavista.digital.com  
Lycos http://www.mcn.lycos.com  
Русскоязычные поисковые системы
rambler http://www.rambler.ru Есть возможность поиска «похожих» документов. Поиск в различных кодировках дает одинаковый результат.
Апорт http://www.aport.ru система умеет искать по различным словоформам введенных слов и исправляет в введенных словах ошибки
Яndex http://www.yandex.ru Достоинство: способность находить заданные слова независимо от формы, в которой они употребляются в документах

Основа поиска: с помощью языка запросов создать запрос (сформулировать требования), после чего поисковая система автоматически просматривает документы на контролируемых ею сайтах и отбирает соответствующие. В результате поиска создается одна или несколько страниц, содержащих ссылки на документы.