ВИДЫ НТИ И ЕЕ ОБРАБОТКА
Компютерные технологии НА ЭТАПЕ СБОРА И ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ информации
При системном подходе НИ начинаются со сбора и предварительной обработки НТИ по теме исследования. Эта информация может включать сведения о достижениях в исследуемой области, об оригинальных идеях, об открытых эффектах, научных разработках, технических решениях и т.д.
Целью данного этапа является получение ответов на следующие вопросы:
1. Какие авторы или научные группы занимаются аналогичной темой?
2. Каковы известные решения по исследуемой теме?
3. Какими известными методами и средствами решаются исследуемые проблемы?
4. Каковы недостатки известных решений и какими путями их пытаются преодолеть?
Углубленное изучение информации по предмету исследования позволяет исключить риск ненужных затрат времени на уже решенную проблему, детально изучить весь круг вопросов по исследуемой теме и найти научно -техническое решение, отвечающее высокому уровню.
Основным источником информации являются научные документы, которые по способу представления могут быть текстовыми, графическими, аудиовизуальными и машиночитаемыми.
Научные документы подразделяются на первичные и вторичные, опубликованные и неопубликованные.
Первичные документы - это книги, брошюры, периодические издания (журналы, труды), научно-технические документы (стандарты, методические указания). Важное значение здесь имеет также патентная документация, под которой подразумеваются издания, содержащие сведения об открытиях, изобретениях и т.п.
К неопубликованным первичным документам относятся: научные отчеты, диссертации, депонированные рукописи и т.п. Они содержатся в фонде ВНТИЦентра.
Вторичные документы содержат краткую обобщенную информацию из одного или нескольких первичных документов: справочники, реферативные издания, библиографические указатели и т.п.
Сбор и обработка НТИ может быть выполнена следующими способами: анкетирование, собеседование, экспертный опрос и т.д., но основой является работа с научно-техническими документами, которая включает поиск, ознакомление, проработку документов и систематизацию информации.
Поиск выполняется по каталогам, реферативным и библиографическим изданиям. Автоматизация этой процедуры обеспечивается использованием специализированных информационно-поисковых систем (ИПС) библиотек и научно-исследовательских институтов (НИИ), электронных каталогов, поиском в машиночитаемых базах данных (БД), а также с помощью программ поиска в сетях Internet.
Необходимо иметь в виду, что информационно-поисковые системы делятся на:
документальные, позволяющие работать с полными текстами или адресами документов;
фактографические, которые выдают необходимые сведения из имеющихся документов;
информационно-логические (интеллектуальные) представляют информацию, полученную в результате логического поиска и целенаправленного выбора в автоматизированном режиме.
Информационно-логические системы используют элементы экспертных систем, о которых говорится ниже.
При наличии в БД полных текстов документов названные средства и позволяют реализовывать процедуру ознакомления. Часто для этого вполне достаточны рефераты или аннотации документов.
В проработке и автоматизации НТИ преобладают операции:
формирование выписок - создание картотеки, что можно реализовать, например, с использованием WS-приложения Cardfile;
извлечение фрагментов документов с помощью средств текстовых редакторов;
создание гипертекстовых документов (структурированных). Здесь могут быть использованы интегрированные системы Works, Framework, MSOffice, а также средства языков разметки гипертекста;
создание локальных (по проблеме) БД и баз знаний (БЗ).
БД - это совокупность взаимосвязанных, хранящихся вместе данных, для поиска, изменения и добавления которых используются общие управляющие ПС, называемые системами управления базами данных (СУБД). Кроме названного, СУБД обеспечивают сортировку, фильтрацию данных и формирование выходных документов (отчеты).
Наиболее распространенными СУБД являются Paradox, dBASE, Fox-Base, FoxPro, Clipper, Informix, Oracle, Access и др. Для небольших БД могут быть использованы электронные таблицы (ЭТ).
Трудоемкость организации табличных БД можно существенно уменьшить с использованием систем оптического распознавания (например, FineReader), обеспечивающих обработку сканированных документов и их экспорт в БД.
Из средств КТ, в рамках этой темы, рассмотрим основы поиска информации в Internet, работу с найденной информацией (программы снятия снимка экрана, распознавания текста, систему электронного перевода Promt, программы для создания электронной картотеки (CardFile)). СУБД Ассess изучалась в дисциплине «Информатика»
ОСНОВНЫЕ СВЕДЕНИЯ ПО INTERNET
Internet -это всемирная корпоративно управляемая совокупность компьютерных сетей, обменивающихся информацией (~40 тыс. сетей, более 100 млн. пользователей), и связанных телефонными, оптоволоконными и др. кабелями, а также радиоканалами, в том числе спутниковыми.
Очень упрощенно структуру Internet можно представить следующей схемой:
ЛВС (клиенты) |
Здесь:
ХК - хост-компьютер (сервер) - мощная ЭВМ, обеспечивающая выполнение запросов клиентов;
Р - роутер (маршрутизатор) – ЭВМ, управляющая адресацией информации;
ПР - провайдер - сервисная фирма, обеспечивающая доступ в Internet (обычно платный) и имеющая мощный компьютер или комплекс.
Работа в Internet может выполняться в нескольких режимах, поддерживаемых соответствующими протоколами обмена данных. Это следующие режимы:
1. Терминальный режим - программы клиентов выполняются на узловом сервере сети. Протокол ТСР/IP.
2. Интерактивный (dial - upIP). SLIP/PPP.
3. Пакетный. Протокол UUPC.
Наиболее часто используется протокол TCP/IP,
где TCP- обеспечивает передачу сообщений фрагментами, сборку и проверку переданного документа; IP- обеспечивает доставку информации конкретному адресату, т.е. каждый хост-компьютер в сети имеет свой уникальный IP - адресв виде цифровой последовательности - ХХХ.ХХХ.ХХХ.ХХХ.
Пользователь сети (организация или частное лицо) в Internet идентифицируется именем пользователя и именем домена, разделенных знаком @.
ХХХХХХ.ХХХ@ХХХХХ.ХХХ
Internet предоставляет следующие возможности:
1. Поиск и просмотр информационных документов (WWW, Archi, Copher).
2. Доступ к БД (WAIS).
3. Связь и работу с другими ПК (Telnet).
4. Группы новостей, электронные бюллетени и т.д.
5. Средства, в которых пользователи могут направлять свои сообщения и знакомиться с имеющимися.
6. Электронная почта (Internet Mail).
7. Почтовые списки - средства рассылки информации п.4 по ЭП
8. Разговор текстом на экране в реальном времени (программа IRC -Internet Relay Chat).
9. Передача файлов, в том числе программных (система FTP).
В основном возможности Internet реализуются при наличии ОС: MS Windows, UNIX, Linux, Solaris.
Большинство информационных ресурсов находятся на серверах узлов Internet, имеющих универсальные URL -адреса, которые в зависимости от системы размещения начинаются с записи:
http://- для Web-серверов, и ftp://, news://для серверов FTP и групп новостей соответственно.
Для поиска URL - адресов можно пользоваться справочником “Желтые страницы Internet”. Его можно найти в Internet по адресу: http://www.jellow.com.
Наиболее эффективной службой для поиска информации в Internet является World Wide Web (всемирная паутина) или просто Web, использующая гипертекстовое представление информации (протокол HTTP).
Гипертекст - это представление документа в виде узлов и связей. Если в узлах помимо текста, таблиц, графики имеются аудио и видео файлы, то Web превращается в мультимедийную систему.
Указанная структура документа с помощью гиперссылок позволяет более эффективно выполнять поиск необходимой информации.
В Web используются понятия:
Web- страница - отдельный файл;
Web-сайт - группа документов, объединенных по смыслу;
HTML - язык разметки гипертекста;
VRML - язык моделирования трехмерной и подвижной информации;
Web-броузер - программа поиска и просмотра HTML-документов и других информационных ресурсов Jnternet. Наиболее распространены: MS Internet Explorer, Netscape Navigator, Mozilla Firefox.
Кроме указанного, следует назвать JAVA– объектно-ориентированный язык для создания распределенных прикладных Web-систем. Позволяет выполнять программы непосредственно на ПК клиента, CGI-стандарт, позволяющий Web-серверам запускать внешние прикладные программы.
В среде Web для повышения эффективности поиска целесообразно, кроме броузеров, применять поисковые серверы и каталоги Web, использующие ключевые слова. Таких средств более 500. В России это:
http://www.rambler.ru, http://www.jandex.ru, http://www.aport.ru.
Существуют также метапоисковые программы, которые посылают запросы сразу на несколько серверов. Например, Sawysearch.
Информационно-поисковая система - ИПС
Определение
Система, предназначенная для поиска информации в базе данных.
Комментарий
Создание и использование информационно-поисковых систем (ИПС) началось в конце 1950-х - начале 1960-х годов. ИПС опирается на базу данных, в которой осуществляет поиск нужных документов по заявкам пользователей.
Частным случаем информационно-поисковой системы является информационно-справочная система, которая в ответ на запросы выдает сведения, в явной форме отсутствующие в базе данных.
По характеру выдаваемой информации ИПС делятся на три типа:
документальные, фактографические, и геоинформационные.
Документальная система по заданию пользователя выдает необходимые ему документы (книги, статьи, законы, патенты, отчеты и т.д.). В задании могут указываться сведения об искомых документах: автор, наименование, время издания, издательство и т.п.
Поиск информации осуществляется на естественном (русском, английском, азербайджанском и др.) языке. Для этих целей осуществляется индексирование документов.
Процесс индексирования заключается в нахождении набора ключевых слов или кодов, служащих для идентификации документов и используемых для их поиска.
Существует несколько методов индексирования.
Например, статистический метод заключается в том, что в начале из текста документа отбрасываются все незначащие слова, например предлоги, союзы и т.п. Затем подсчитывается частота употребления каждого оставшегося слова и учитывается отклонение частоты слов в документе от ожидаемой. В результате создается поисковый образ документа (ПОД). Точно так же готовится поисковый образ запроса (ПОЗ), и от качества ПОД и ПОЗ зависит полнота поиска, т.е. процент найденных документов, содержащих искомые сведения.
Более сложной является фактографическая информационно-поисковая система. Ее задача - поиск в документах интересующих пользователя сведений (фактов). Например, типы, характеристики и технология изготовления сталей.
В геоинформационных данные организованы в виде отдельных информационных объектов привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, в структуре информационных объектов и процессов которых имеется географический компонент.