ВИДЫ НТИ И ЕЕ ОБРАБОТКА

Компютерные технологии НА ЭТАПЕ СБОРА И ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ информации

При системном подходе НИ начинаются со сбора и предварительной об­работки НТИ по теме исследования. Эта информация может включать сведе­ния о достижениях в исследуемой области, об оригинальных идеях, об от­крытых эффектах, научных разработках, технических решениях и т.д.

Целью данного этапа является получение ответов на следующие вопро­сы:

1. Какие авторы или научные группы занимаются аналогичной темой?

2. Каковы известные решения по исследуемой теме?

3. Какими известными методами и средствами решаются исследуемые проблемы?

4. Каковы недостатки известных решений и какими путями их пытают­ся преодолеть?

Углубленное изучение информации по предмету исследования позволя­ет исключить риск ненужных затрат времени на уже решенную проблему, детально изучить весь круг вопросов по исследуемой теме и найти научно -техническое решение, отвечающее высокому уровню.

Основным источником информации являются научные документы, ко­торые по способу представления могут быть текстовыми, графическими, ау­диовизуальными и машиночитаемыми.

Научные документы подразделяются на первичные и вторичные, опуб­ликованные и неопубликованные.

Первичные документы - это книги, брошюры, периодические издания (журналы, труды), научно-технические документы (стандарты, методические указания). Важное значение здесь имеет также патентная документация, под которой подразумеваются издания, содержащие сведения об открытиях, изо­бретениях и т.п.

К неопубликованным первичным документам относятся: научные отче­ты, диссертации, депонированные рукописи и т.п. Они содержатся в фонде ВНТИЦентра.

Вторичные документы содержат краткую обобщенную информацию из одного или нескольких первичных документов: справочники, реферативные издания, библиографические указатели и т.п.

Сбор и обработка НТИ может быть выполнена следующими способами: анкетирование, собеседование, экспертный опрос и т.д., но основой является работа с научно-техническими документами, которая включает поиск, озна­комление, проработку документов и систематизацию информации.

Поиск выполняется по каталогам, реферативным и библиографическим изданиям. Автоматизация этой процедуры обеспечивается использованием специализированных информационно-поисковых систем (ИПС) библиотек и научно-исследовательских институтов (НИИ), электронных каталогов, поис­ком в машиночитаемых базах данных (БД), а также с помощью программ по­иска в сетях Internet.

Необходимо иметь в виду, что информационно-поисковые системы делятся на:

документальные, позволяющие работать с полными текстами или адре­сами документов;

фактографические, которые выдают необходимые сведения из имею­щихся документов;

информационно-логические (интеллектуальные) представляют инфор­мацию, полученную в результате логического поиска и целенаправленного выбора в автоматизированном режиме.

Информационно-логические системы используют элементы экспертных систем, о которых говорится ниже.

При наличии в БД полных текстов документов названные средства и по­зволяют реализовывать процедуру ознакомления. Часто для этого вполне достаточны рефераты или аннотации документов.

В проработке и автоматизации НТИ преобладают операции:

формирование выписок - создание картотеки, что можно реализовать, например, с использованием WS-приложения Cardfile;

извлечение фрагментов документов с помощью средств текстовых ре­дакторов;

создание гипертекстовых документов (структурированных). Здесь могут быть использованы интегрированные системы Works, Framework, MSOffice, а также средства языков разметки гипертекста;

создание локальных (по проблеме) БД и баз знаний (БЗ).

БД - это совокупность взаимосвязанных, хранящихся вместе данных, для поиска, изменения и добавления которых используются общие управляющие ПС, называемые системами управления базами данных (СУБД). Кроме на­званного, СУБД обеспечивают сортировку, фильтрацию данных и формиро­вание выходных документов (отчеты).

Наиболее распространенными СУБД являются Paradox, dBASE, Fox-Base, FoxPro, Clipper, Informix, Oracle, Access и др. Для небольших БД могут быть использованы электронные таблицы (ЭТ).

Трудоемкость организации табличных БД можно существенно умень­шить с использованием систем оптического распознавания (например, Fine­Reader), обеспечивающих обработку сканированных документов и их экс­порт в БД.

Из средств КТ, в рамках этой темы, рассмотрим основы поиска информации в Inter­net, работу с найденной информацией (программы снятия снимка экрана, распознавания текста, систему электронного перевода Promt, программы для создания электронной картотеки (CardFile)). СУБД Ассess изучалась в дисциплине «Информатика»

ОСНОВНЫЕ СВЕДЕНИЯ ПО INTERNET

Internet -это всемирная корпоративно управляемая совокупность ком­пьютерных сетей, обменивающихся информацией (~40 тыс. сетей, более 100 млн. пользователей), и связанных телефонными, оптоволоконными и др. ка­белями, а также радиоканалами, в том числе спутниковыми.

 
 

Очень упрощенно структуру Internet можно представить следующей схемой:

ЛВС (клиенты)

Здесь:

ХК - хост-компьютер (сервер) - мощная ЭВМ, обеспечивающая выпол­нение запросов клиентов;

Р - роутер (маршрутизатор) – ЭВМ, управляющая адресацией информа­ции;

ПР - провайдер - сервисная фирма, обеспечивающая доступ в Internet (обычно платный) и имеющая мощный компьютер или комплекс.

Работа в Internet может выполняться в нескольких режимах, поддержи­ваемых соответствующими протоколами обмена данных. Это следующие ре­жимы:

1. Терминальный режим - программы клиентов выполняются на узло­вом сервере сети. Протокол ТСР/IP.

2. Интерактивный (dial - upIP). SLIP/PPP.

3. Пакетный. Протокол UUPC.
Наиболее часто используется протокол TCP/IP,
где TCP- обеспечивает передачу сообщений фрагментами, сборку и проверку переданного документа; IP- обеспечивает доставку информации конкретному адресату, т.е. каж­дый хост-компьютер в сети имеет свой уникальный IP - адресв виде цифровой последо­вательности - ХХХ.ХХХ.ХХХ.ХХХ.

Пользователь сети (организация или частное лицо) в Internet идентифицируется именем пользователя и именем домена, разделенных знаком @.

ХХХХХХ.ХХХ@ХХХХХ.ХХХ

Internet предоставляет следующие возможности:

1. Поиск и просмотр информационных документов (WWW, Archi, Copher).

2. Доступ к БД (WAIS).

3. Связь и работу с другими ПК (Telnet).

4. Группы новостей, электронные бюллетени и т.д.

 

5. Средства, в которых пользователи могут направлять свои сообщения и знакомиться с имеющимися.

6. Электронная почта (Internet Mail).

7. Почтовые списки - средства рассылки информации п.4 по ЭП

8. Разговор текстом на экране в реальном времени (программа IRC -Internet Relay Chat).

9. Передача файлов, в том числе программных (система FTP).
В основном возможности Internet реализуются при наличии ОС: MS Windows, UNIX, Linux, Solaris.

Большинство информационных ресурсов находятся на серверах узлов Internet, имеющих универсальные URL -адреса, которые в зависимости от системы размещения начинаются с записи:

http://- для Web-серверов, и ftp://, news://для серверов FTP и групп новостей соответственно.

Для поиска URL - адресов можно пользоваться справочником “Желтые страницы Internet”. Его можно найти в Internet по адресу: http://www.jellow.com.

Наиболее эффективной службой для поиска информации в Internet явля­ется World Wide Web (всемирная паутина) или просто Web, использующая гипертекстовое представление информации (протокол HTTP).

Гипертекст - это представление документа в виде узлов и связей. Если в узлах помимо текста, таблиц, графики имеются аудио и видео файлы, то Web превращается в мультимедийную систему.

Указанная структура документа с помощью гиперссылок позволяет бо­лее эффективно выполнять поиск необходимой информации.

В Web используются понятия:

Web- страница - отдельный файл;

Web-сайт - группа документов, объединенных по смыслу;

HTML - язык разметки гипертекста;

VRML - язык моделирования трехмерной и подвижной информации;

Web-броузер - программа поиска и просмотра HTML-документов и других информационных ресурсов Jnternet. Наиболее распространены: MS Internet Explorer, Netscape Navigator, Mozilla Firefox.

Кроме указанного, следует назвать JAVA– объектно-ориентированный язык для создания распределенных прикладных Web-систем. Позволяет выполнять программы непосредственно на ПК клиента, CGI-стандарт, позволяющий Web-серверам запускать внешние прикладные программы.

В среде Web для повышения эффективности поиска целесообразно, кро­ме броузеров, применять поисковые серверы и каталоги Web, использующие ключевые слова. Таких средств более 500. В России это:

http://www.rambler.ru, http://www.jandex.ru, http://www.aport.ru.

Существуют также метапоисковые программы, которые посылают за­просы сразу на несколько серверов. Например, Sawysearch.

Информационно-поисковая система - ИПС

Определение

Система, предназначенная для поиска информации в базе данных.

Комментарий

Создание и использование информационно-поисковых систем (ИПС) началось в конце 1950-х - начале 1960-х годов. ИПС опирается на базу данных, в которой осуществляет поиск нужных документов по заявкам пользователей.

Частным случаем информационно-поисковой системы является информационно-справочная система, которая в ответ на запросы выдает сведения, в явной форме отсутствующие в базе данных.

По характеру выдаваемой информации ИПС делятся на три типа:

документальные, фактографические, и геоинформационные.

Документальная система по заданию пользователя выдает необходимые ему документы (книги, статьи, законы, патенты, отчеты и т.д.). В задании могут указываться сведения об искомых документах: автор, наименование, время издания, издательство и т.п.

Поиск информации осуществляется на естественном (русском, английском, азербайджанском и др.) языке. Для этих целей осуществляется индексирование документов.

Процесс индексирования заключается в нахождении набора ключевых слов или кодов, служащих для идентификации документов и используемых для их поиска.

Существует несколько методов индексирования.

Например, статистический метод заключается в том, что в начале из текста документа отбрасываются все незначащие слова, например предлоги, союзы и т.п. Затем подсчитывается частота употребления каждого оставшегося слова и учитывается отклонение частоты слов в документе от ожидаемой. В результате создается поисковый образ документа (ПОД). Точно так же готовится поисковый образ запроса (ПОЗ), и от качества ПОД и ПОЗ зависит полнота поиска, т.е. процент найденных документов, содержащих искомые сведения.

Более сложной является фактографическая информационно-поисковая система. Ее задача - поиск в документах интересующих пользователя сведений (фактов). Например, типы, характеристики и технология изготовления сталей.

В геоинформационных данные организованы в виде отдельных информационных объектов привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, в структуре информационных объектов и процессов которых имеется географический компонент.