Поисковые службы.

Гиперссылки.

Гиперссылка - для пользователя - графическое изображение или текст на сайте или в письме электронной почты, устанавливающие связь и позволяющие переходить к другим объектам Интернет. В интернете гиперссылка (ссылка, линк) - это физически фрагмент кода языка разметки html. Также гиперссылки можно сделать в приложениях Office (Word, Excel, Access) и программе Flash.

Гиперссылки и закладки: элемент A

Хотя HTML содержит большое количество средств для форматирования текста и структурирования документов, его основной особенностью является возможность создания гипертекстовых документов. Гипертекстовыми являются документы, которые содержат гиперссылки на другие ресурсы Веб.

Гиперссылка — это связка между двумя анкерами: анкер источника, содержащийся в данном HTML-документе, указывает на анкер цели, который может быть HTML-документом или закладкой в нем, а также графическим файлом, аудиофайлом, видеоклипом или программой.

Для создания анкеров в языке HTML используется элемент A.

Синтаксис: <A>…</A> (текстовый элемент)Атрибуты: id, class, style, title, lang, dir, события name = CDATA (название закладки) href = URI (URI ссылки) rel = типы ссылок (прямая ссылка) rev = типы ссылок (обратная ссылка) type = тип файла (тип файла, на который указывает ссылка) target = фрейм (фрейм для отображения ссылки) hreflang = код языка (язык ссылки) charset = кодировка (кодировка ссылки) accesskey = символ (имя клавиши быстрого доступа) tabindex = число (номер в порядке нажатия табуляции) shape = rect | circle | poly | default (область в карте ссылок) coords = координаты (координаты в карте ссылок) onfocus = сценарий (при получении элементом фокуса) onblur = сценарий (при потере элементом фокуса)Поддержка: Атрибуты type, hreflang, charset, shape, coords игнорируются; клавиша, заданная в accesskey, должна нажиматься вместе с Alt (5.0+) Атрибуты rel, rev, type, hreflang, charset, coords, tabindex и accesskey игнорируются (4.0+)

Элемент A (anchor) определяет положение анкера в документе. Он применяется для создания закладок и для создания гиперссылок. Его содержимым могут быть любые текстовые элементы, кроме A.

Для создания закладок (т. е. анкеров цели) используется атрибут name. Например, следующий элемент в документе mydoc.html определяет закладку myheading:

<H1><A name="myheading">Мой заголовок</A></H1>

Для создании гиперссылки на нее из того же документа используется анкер:

<A href="#myheading">…</A>

а из другого документа — анкер:

<A href="mydoc.html#myheading">…</A>

Примечания.

1. Элемент A не может быть вложен в другой элемент A, поэтому следите, чтобы анкеры закладок не содержали анкеров гиперссылок. Во избежании этого можно использовать в одном элементе A и атрибут name, и атрибут href.

2. Стандарт HTML рекомендует использовать вместо атрибута name атрибут id. Современные обозреватели поддерживают эту возможность, однако это может вызвать трудности в динамических страницах из-за несовместимости обозревателей.

Для создания гиперссылок (т. е. анкеров источника) используется атрибут href. Его значением должен быть URI ресурса, на который указывает гиперссылка. Анкер гиперссылки может иметь следующие необязательные атрибуты:

· Атрибут title задает краткое описание анкера цели и отображается как "подсказка".

· Атрибут target используется только во фреймовых документах и задает имя фрейма, в котором должна отображаться цель гиперссылки.

· Атрибуты hreflang и charset указывают на язык и кодировку ссылки.

· Атрибут accesskey задает символ Unicode в качестве клавиши быстрого перехода по гиперссылке.

· Значением атрибута tabindex должно быть целое число в диапазоне от 0 до 32767. Это число задает номер данной гиперссылки при движении по Веб-странице нажатиями клавиши Tab. Если tabindex равно 0 или не задано, то данный элемент получит фокус после всех элементом с положительным значением tabindex. При совпадении значений tabindex у нескольких элементов первым получает фокус тот, который раньше встречается в документе.

· Атрибуты rel и rev имеют то же назначение, что и у элемента LINK.

· Атрибуты shape и coordиспользуются только в картах ссылок.

 

Примеры:

&ltA href="album.html">Мой фотоальбом</A><A href="../images/me.jpg">Моя фотография</A><A href="sounds/yester.mid" type="audio/midi" accesskey="Y">Yesterday (MIDI-файл)</A><A href="section2.html" title="Таблицы стилей" rel="next" target="_blank">Раздел 2</A><A href="mailto:myname@mail.com" title="Сообщите Ваше мнение">myname@mail.com</A><A href="http://babel.alis.com:8080/langues/iso639.zh.htm" charset="big5" hreflang="zh">ISO 639 (китайский язык)</A>

Помимо базовых событий, элемент A допускает обработку еще двух событий:

· onfocus — происходит, когда гиперссылка получает фокус;

· onblur — происходит, когда гиперссылка теряет фокус.

ПОИСКОВАЯ СИСТЕМА (в Интернете) [search(ing) system]

Программно-аппаратный комплекс, предназначенный для производства автоматического поиска информации в Интернете по заданным алгоритмам и критериям. Современные поисковые системы имеют многоуровневую организацию и в своей основе состоят из пяти блоков:

1. Spider - "Паук": производит планомерное обследование Интернета и скачивает адреса всех попавшихся на его пути Web-сайтов, страниц и глобальных ссылок;

2. Crawler, Web-crawler - "Сборщик140": перемещается по всем локальным гиперссылкам, найденным на страницах пауком (см. ранее), скачивает страницы и анализирует их в поисках перекрестных ссылок. Его основные задачи: сканирование Интернет-ресурсов в поисках страниц, содержащих заданную информацию, изменений на страницах и определение дальнейшего пути следования по сети. Аналогичное наименование присваивается программам-роботам, которые строят индексы путем последовательного перехода по гиперссылкам с одной Web-страницы на другую. Они позволяют в автоматическом режиме извлекать различные данные с Web-сайтов, в частности, сведения об их адресах, мета-теги, обычный текст со страниц, размеры страниц, даты последнего обновления, списки ссылок, расположенных на Web-страницах и т.д. По своей сути часто такие программы выполняют функции паука, ползателя, а иногда и индексатора (см. далее).

140 Широкое распространение получил также сленговый термин "Ползатель" - вольный перевод англ. crawler: а) тот, кто ползает; б) пресмыкающееся.

3. Indexer - "Индексатор": анализирует Web-страницы, скаченные пауком и сборщиком, определяет их тематическую принадлежность, актуальность и популярность у пользователей. Индексатор разбивает страницу на части и анализирует основные ее структурные элементы (заголовки, текст, ссылки и т.п.). После анализа индексирует ресурсы ключевыми словами, структурирует их и строит базы данных в виде, удобном для использования и поиска;

4. Database - база данных, являющаяся хранилищем скаченных и обработанных индексатором страниц, снабженная соответствующим поисковым аппаратом, обеспечивающим доступ к содержащимся в ней данным;

5. SE (Search(ing) Engine), Results engine - "Поисковая машина": принимает запросы пользователей, анализирует их, извлекает результаты поиска из БД с использованием ключевых слов и предоставляет пользователю интерфейс для просмотра этих результатов и уточнения поискового предписания.

Комплексы программного обеспечения поисковых систем имеют разную сложность и назначение, в том числе для "домашнего" использования, а также создания средних и крупных серверов. В них реализуются различные критерии поиска, методы анализа контентов, принципы индексирования и предоставления найденных данных. В частности, в тематически ориентированных поисковых системах может применяться ограниченная глубина индексации, индексация только страниц в пределах сайта или только тех сайтов, которые заданы списком.

В последние годы разработка ползателей-пауков (от профессиональных до бытовых) стала весьма популярной. Так фирма Spidering Hacks предлагает "100 профессиональных советов и инструментов" для создания и управления персональными пауками. Фирмы Google и MSN выпускают свои версии поисковых систем для индивидуального использования. Ими являются - Google Toolbar, Google Desktop Search и MSN Toolbar. Примером российских разработок поисковых систем может служить DROZD 1.2 Server, который разработан в двух вариантах: DROZD 1.2 Personal Server и DROZD 1.2 Enterprise Server. Первый из них - для хранения информации ориентирован на БД MySQL и рассчитан на работу в составе средних и крупных проектов; второй предназначен для работы в составе более крупных проектов (до 600 Гбайт). Подробнее см. [1082, 1083, 1234, 1284].

Наиболее популярными крупными поисковыми службами и системами Интернета являются:

Google <www.google.ru> - наименование компании и созданной ею глобальной широкотематической поисковой системы, являющейся лидером в Интернете. Объем индексного файла отражает >8 млрд Web-страниц, за сутки обновляется >5 млн страниц. Индексирует документы, выполненные в виде HTML-файлов и форматах PDF, RTF, PS, DOC и многих других. Поиск производится с использованием логических операторов ("+", "OR" и "-"). По умолчанию все термины в запросе объединяются оператором "AND". Дополнительным платным сервисом сложные запросы обслуживаются не роботом, а человеком (стоимость - $2,5 за ответ). Прошла испытания утилита Google Toolbar 3.0, которая дополнила ранее имевшиеся возможности поиска средствами, обеспечивающими функции AutoLink, проверки правописания (SpellCheck) в Web-формах и перевода. AutoLink предназначена для автоматического выделения на Web-страницах названий улиц и номеров домов и обеспечения их связывания с топографическими картами Google Maps. AutoLink должна также производить поиск книг по номерам международного стандарта ISBN (International Standard Book Number), а автомобилей - по их идентификационным номерам (VIN). Подробнее о Google Toolbar 3.0 см. [1284].

В 2005 г. компания Google приобрела фирму Keyhole с ее Web-службой и технологией получения и передачи изображений из космоса. В результате создана Служба Google Earth 3.0, которая объединяет широкомасштабные и детализированные изображения космических объектов, Земли, а также различных ее участков, полученных со спутников, с удобными средствами поиска. Система позволяет пользователям "перемещаться" в любых направлениях, увеличивать и уменьшать масштаб изображения и рассматривать его под разными углами зрения. Сервисные средства системы также обеспечивают следующие возможности: аннотировать каждый участок карты при помощи географической закладки - placemark, аналогичной bookmark; распечатывать и передавать по E-mail любое изображение, полученное с этого сайта; автоматически расчитывать расстояние между пунктами на карте; производить наложение на карту одного из ста прозрачных слоев для отображения сведений о различных географических пунктах, организациях или событих и т.д. Все указанные услуги предоставляются бесплатно141. Для работы с Google Earth 3.0 пользователи должны установить у себя программу клиента Google Earth и иметь сетевое соединение с пропускной способностью не менее 128 кбит/с. Для обмена данными используется открытый, основанный на XML формат KML.

141 Следует однако заметить, что у сервисов Google Earth выявлены и противники, поскольку результаты космических съемок, полученные через эту службу, успешно используют повстанческие силы ("шахиды"), ведущие боевые операции в Ираке против Британского контингента войск НАТО. Подробнее см. [1610].

В 2006 г. компания Google заключила договор с NASA о сотрудничестве, в соответствии с которым компания обязалась обеспечить открытый доступ через службу Google Eartth к сведениям о Земле и Вселенной - как накопленным NASA, так и предоставлямым агенством в онлайновом режиме. Средством реализации указанного договора послужило выполнение проекта Global Connection Project, в котором помимо Google и NASA приняли Университет Корнеги-Меллона и Национальное географическое общество США. Предполагалось, что новые возможности от реализации данного проекта будут доступны начиная с 2007 г.

По состоянию на октябрь 2006 г. наиболее востребованными сервисами Google являются: поисковый - Google Search (~47% всех запросов); нахождение изображений - Google Image (~9,5%); непрофильной службы Google (2,5%); новостной и финансовый- Google News (1,9%) и Google Finanсe (0,3%); географические поисковые - Google Maps (7;5%) и Google Earth (2,0%) [1550].

Одним из новых видов услуг, которые начала предоставлять компания Google, является полнотекстовый поиск в книгах. С этой целью Google подписала соглашения c Гарвардским, Мичиганским, Оксфордским и Стэндфордским университетами, а также Нью-Йоркской публичной библиотекой о сканировании книг, находящтхся в их фондах, для представления в публичный доступ.

Следует заметить, что как Google, так и другие компании, поддерживающие поисковые системы, усиленно развивают разнородные виды сервисов, не имеющие отношения собственно к поиску. Например, усиленно развиваются такие проекты, как файловые хранилища, социальные сети, видеохостинг, онлайн-софт (предоставление в доступ текстовых редакторов, электронных таблиц, игр, операционных систем и т.п.), превращаясь в многофункциональные порталы. Тем не менее, доля оказываемых услуг по поиску остается наибольшей.

Yandex <www.yandex.ru> - "Яндекс": лидер российских поисковых служб и систем. Им проиндексированы ~1,5 млн российских и зарубежных русскоязычных серверов, учтены >200 млн документов. Актуализация БД производится еженедельно. Индексирование документов выполняется в форматах в HTTP, PDF и DOC. Использует морфологический и семантический анализ терминов при анализе документов и запросов. Максимально детализированный запрос можно создавать с использованием языка запросов, описанного в файле "Синтаксис языка запросов". Сервисные функции включают также передачу новостей, сведений об Интернет-магазинах (включая и книжные), рекламы и т.п;

Rambler <www.rambler.ru> - "Рамблер": вторая по популярности в России широкотематическая поисковая система. БД отражает ~120 млн страниц. Производительность поискового робота составляет 6,9 млн страниц в сутки. Используется обычная и расширенная формы ввода запроса. Механизмы поиска и выдачи данных учитывают местоположение ключевых слов, популярность ресурсов (по их посещаемости и количеству внешних ссылок на каждую страницу);

Aport <www.aport.ru> - "Апорт": единственный профессиональный российский справочник Интернет-ресурсов (в том числе и зарубежных). Имеет многоуровневую иерархическую организацию. Ссылки снабжены аннотациями, отражающими содержание ресурсв, их географическое местоположение, индекс цитирования и др. сведения. БД содержит ~70 млн документов. Отличительная особенность Апорта - высокая эффективность поиска MP3-файлов, в связи с чем он является популярной поисковой системой аудиозаписей;

AltaVista <www.altavista.com> - одна из старейших поисковых систем (в эксплуатации с 1995 г.). В 2002 г. была существенно модернизирована. Объем БД - >1 млрд страниц. В ней впервые был апробирован и внедрен язык запросов (знаки "+", "-", усечение "*", кавычки для поиска точно по фразе, булевые операторы и оператор расстояния - "NEAR"). Поисковый механизм дополнен интеллектуальным модулем "Prism", облегчающим формулировку запроса. В настоящее время AltaVista приобретена корпорацией Yahoo!, и как самостоятельная система прекратила свое существование.

Yahoo!<www.yahoo.com> - быстро развивающаяся международная поисковая система, поглотившая в последние годы известные поисковые системы: AltaVista и FastSearch. Является одной из основных конкуренток системы Google. Ее отличительной особенностью является корректное представление данных на 36 языках мира, включая и русский. Объем БД составляет несколько миллиардов документов, описывающих десятки тысяч WEB-узлов. Первый уровень рубрикации Yahoo! состоит из 14 тематических разделов ("директорий"), в каждом из них в среднем содержится 4-5 уровней подразделов. Каждый подраздел снабжен кратким описанием. Предусмотрен также поиск внутри БД по ключевым словам. В случае появления проблем с обработкой запросов Yahoo! автоматически предлагает продолжить поиск в AltaVista.

По состоянию на октябрь 2006 г. наиболее востребованными сервисами Yahoo! являются: электронная почта - Yahoo! Mail (~ 42% всех посещений); финансовый - Yahoo! Finance (~35%); географический поиск - Yahoo! Maps (~20%); текстовый поиск - Yahoo! Search (~16%).

Наряду с перечисленными поисковиками в Интернете существует более 1000 разнородных поисковых систем, работающих в различных тематических областях. Примерами могут служить:

Copernic Agent (<www.copernic.com/>) - метапоисковая система-агент, работающая по методу "опроса свидетелей", которая отправляет запросы одновременно нескольким поисковым системам, выбирая наиболее рейтинговые ссылки, удаляя дубли и выдавая пользователю ранжированные по рейтингу ссылки. Результаты поиска могут быть также отсортированы по доменам, географическим регионам, времени последнего изменения и статусу;

MySimon (<www.mysimon.com/>) - интеллектуальная система-агент, которая производит быстрый поиск товаров в более, чем 2 тыс онлайновых магазинов, и сравнивает цены миллионов товаров;

Mp3-Wolf (<www.trellian.com/>) - поисковый агент, производящий сканирование Интернета с целью нахождения заданных музыкальных произведений. В процессе работы он использует различные найденные ранее и содержащиеся в его базе поисковые системы и сайты. Работает в режиме реального времени. Способен находить, сортировать и анализировать десятки тысяч музыкальных файлов в час;WebSite-Watcher (<www.aignes.com/>) - программа, предназначенная для отслеживания изменений в сайтах. Поддерживает работу RSS. Имеет гибкие настройки, относится к числу самых мощных программ в своем классе;

PPC (Pay-Per-Click) - буквально: "Оплата за клик" - разновидность поисковых систем, в базах данных которых находятся адреса лишь тех сайтов, владельцы которых оплатили в них свое присутствие. При вводе пользователем Интернета запроса на поиск, часть этих сайтов, которые удовлетворяют тематике поиска, выводится ему на экран. Если пользователь заинтересовался одним из найденных сайтов и "кликает" по его баннеру или линку, то человек, приведший соответствующий сайт на данную PPC-систему, получает заранее оговоренную часть денег "за клик". Остальные деньги поступают владельцу PPC-системы. Используются PPC-системы преимущественно для целей рекламирования и продвижения на рынки различных товаров и услуг. Фирмы или физические лица, оплатившее относительно небольшие деньги за услуги конкретной PPC-системы, получают возможность широкого распространения в Интернете нужных для них сведений. Достигается указанная цель владельцами PPC-систем путем использования так называемых дорвеев (от англ. doorway) - тематически организованных сайтов, предназначенных для привлечения большого количества поисковых систем, таких как Google, Yandex и др. С указанной целью дорвеи содержат большое количество (по отношению к основному тексту) ключевых слов. Ключевые слова заключаются в теги выделения, т.к. это очень важно для ранжирования, т.е. распределения мест в выдаче поисковика. Используют PPC-решения как серъезные фирмы, так и множество распространителей спама - так называемых "дорвейщиков", поскольку это один из самых реальных и доходных способов заработка в Интернете.

Регион Украины

· "Мета-Украина" - украинская поисковая система с учётом морфологии украинского и русского языков. Выделение контекстов найденных слов. Перевод запросов и результатов на русский, украинский и английский языки. www.meta.ua

· "UAport" - поисковая система украинских веб-ресурсов. Возможен параллельный поиск по разделам проекта "Новости", "Каталог", "Бизнес" и др. www.uaport.net

· "MetaPing.com" - украинская метапоисковая система c возможностью осуществить одновременный поиск в украинских, российских и зарубежных поисковых системах и каталогах. Полнотекстовый поиск по российским и украинским новостным ресурсам. www.metaping.com