Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет





НазваниеРоссийской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет
страница2/24
Дата публикации02.01.2015
Размер1.63 Mb.
ТипУчебно-методическое пособие
100-bal.ru > Информатика > Учебно-методическое пособие
1   2   3   4   5   6   7   8   9   ...   24

Часть 1. Полнотекстовые базы данных


В конце 20-го века информация становится одним из главных ресурсов человечества. Одно из определений 21-го века - век информации. Поэтому создание, сохранение, эффективное использование, развитие информационных ресурсов является одной из основных задач общества и государства.

Благодаря бурному развитию средств передачи данных, компьютерной техники, программного обеспечения, Интернет уже сегодня существуют множество баз данных (БД), в том числе полнотекстовых, на CD-ROM' ах и в Интернет, в сети находятся также огромное число страниц книг, газет, журналов, и их количество растет. Но уже сейчас имеются проблемы рационального использования информации - нет унифицированного доступа к ней, разнообразны способы ее хранения и распространения.

Виртуальная среда, обеспечивающая быстрый и надежный доступ к ресурсам, позволила первыми оценить преимущества Интернет компании, специализирующейся на производстве и продаже различного рода баз данных. Созданием подобных баз с начала 80-х годов занималось множество зарубежных корпораций, главным продуктом которых была информация. Существовали фактографические базы данных, содержащие фактические сведения (прежде всего статистику), библиографическую информацию (сведения о документах) и полнотекстовые (полные тексты книг и статей из газет, журналов и сборников). Среди наиболее известных производителей и поставщиков баз данных в "доинтернетовский" период выделялись LEXIS/NEXIS, Dialog, Silver Platter, EBSCO Information Services, STN Internetional, H.W.Wilson, UMI (ныне ProQuest). Информационные продукты доставлялись пользователям на магнитных лентах, посредством модемной связи, а со второй половины 80-х годов - на CD-ROM.

Из всего перечня представленных в сети информационных продуктов наибольший интерес представляют полнотекстовые базы данных - текстовые базы первичных данных, содержащие полные тексты документов (ГОСТ 7.73—96). В них содержатся тексты книг, статей из журналов, газет и сборников, сообщения информационных агентств, аналитические отчеты различных учреждений и другие документы. Документом, в свою очередь, является единица хранения информации в полнотекстовой базе данных, представляющая собой логически завершенную часть данных о событиях и фактах имеющих информационный характер, литературно-публицистические произведения или логически завершенные части таких произведений, статьи, обзоры и проч. Документ имеет однородную структуру и является текстовым файлом.

Число и отраслевой спектр полнотекстовых электронных собраний постоянно расширяется. Если в 60-е годы их создание начиналось с правовой и экономической областей, в 80-90-е года были освоены естественные, точные и наиболее динамично развивающиеся гуманитарные дисциплины, то в настоящее время очередь дошла до коллекций редких и старопечатных книг, полных собраний сочинений античных и средневековых авторов, поэтических антологий и подобных этому материалов.

Какие печатные издания переводятся в электронную форму? С одной стороны, это редкие и старые издания, региональные издания. С другой стороны, это книги наибольшего читательского спроса - энциклопедии, словари, учебная литература, художественная литература. В Интернет и в базы данных оперативно вводятся документы государственных органов - законы, постановления, инструкции и т.д. Научных и технических изданий в Интернет немного, но в Интернет и на CD-ROM'ах есть доступ к коллекциям научно-технических и медицинских журналов.

Полнотекстовые тематические ресурсы на своих страницах размещают многие институты, организации, а также частные лица, по различным отраслям - экономике, политике, сельскому хозяйству, медицине, педагогике, психологии, философии, религии, лингвистике, литературоведению, культурологии, истории, мифологии и т.д.

Разнообразны ресурсы по культуре - сказки, мифы, художественные альбомы, выставки.

Возможности электронных ресурсов позволяют по-новому представить религиозную литературу - есть возможность поиска по любому слову из Библии или Корана.

Среди учебных ресурсов - один из самых популярных сегодня - база данных рефератов, курсовых, дипломов. Эта база данных существует и на CD-ROM'ах, и ежедневно пополняется через Интернет более чем на 100 адресах.

Для традиционных библиотек получение доступа к полнотекстовым базам в значительной степени меняет подходы к информационной работе в целом, так как позволяет пользователям обходиться без обращения к печатным оригиналам изданий, и, следовательно, избавляет потенциальных клиентов от необходимости физического посещения библиотек.

Каждую секунду в сети появляются новые материалы, какая-то их часть по разным причинам удаляется с серверов, другая - меняет адресацию. Это постоянное обновление с одновременным ростом объема информационного массива делает крайне сложным учет всех или, по крайней мере, большинства документов, существующих в Интернет. По оценкам, средний срок нахождения информации по конкретному адресу - полгода. На сегодняшний день насчитывается около 1 900 000 серверов в Интернет.

Таким образом, сведения, представляющие огромную ценность часто остаются невостребованными пользователями по единственной причине трудностей их разыскания. Ситуация в данном случае очень напоминает известную задачу поиска иголки в стоге сена. Важность проблемы информационного поиска в Интернет породила целую отрасль, задача которой заключается именно в том, чтобы помочь пользователю в его навигации в киберпространстве.

Средства поиска информации

Инструментов для поиска информации в Интернете, построенных на разных принципах и преследующих разные цели, существует немало.

Реализация поисковых систем всегда подразумевает следующие компоненты:

  • перемещение по сети (паук или кроулер), и сбор информации;

  • база данных (индекс), содержащая информацию, собираемую пауками;

  • поисковый механизм (интерфейс) для взаимодействия с базой данных;

  • упорядочивание (ранжирование) результатов поиска.

По принципу организации и использования поисковые системы Интернет подразделяются на:

  • поисковые машины (автоматические индексы);

  • каталоги (справочники, директории);

  • метапоисковые Web-узлы (которые посылают запросы сразу на несколько поисковых серверов).

Каждый из этих инструментов имеет определенные преимущества, а основная разница между ними заключается в участии или неучастии человека.

И поисковые машины, и каталоги могут быть общими или специализированными. Специализация в свою очередь может быть региональная или тематическая.

Каталоги ресурсов – глобальные, локальные, специализированные.

Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т. д.), где каждая тема разветвляется на несколько подуровней, то есть имеют иерархическую структуру, перемещаясь по которой, можно найти нужный объект. Для пользователя получение информации о ресурсе из известного каталога всегда является некоторой гарантией достоверности.

Но, так как каталоги создаются вручную, они охватывают намного меньше ресурсов, чем поисковые машины.
Поисковые машины, или автоматические индексы – глобальные, локальные, специализированные.

Все поисковые машины, предназначенные для сети Интернет, имеют более или менее схожие принципы работы. Компактные копии документов, известных серверам поисковых систем, хранятся на локальном диске. Задача поисковых машин - вести поиск по ключевым словам из полных текстов web-документов, то есть проводить детальное максимальное разыскание информации в электронной вселенной.

В отличие от справочников, все они функционируют полностью в автоматизированном режиме, имеют одинаковый принцип деятельности и состоят из двух основных блоков. Первый блок представляет собой программу-робот, задача которого путешествовать с сервера на сервер, находить там новые или изменившиеся документы и передавать их на свой базовый компьютер.

Чаще всего роботы просматривают серверы самостоятельно, находя новые внешние ссылки, в уже обследованных документах, действуя, таким образом, по известной методике "снежного кома". Выявленные документы обрабатываются вторым блоком поисковых машин. При этом учитывается все содержание страниц, зачастую даже не только полный текст, но и наличие иллюстраций, аудио- и видео- файлов, Java-приложений.

Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Выдача результатов осуществляется с помощью специальной подсистемы, которая производит интеллектуальное ранжирование результатов, опираясь в своих расчетах на местоположение термина, частоту его повторения в тексте, процентное соотношение данного термина с остальным текстом на данной странице. По этим параметрам среди внушительного числа поисковых систем выделяются несколько наиболее признанных, позволяющих выявлять информацию с высокой степенью полноты и надежности.

Из популярных средств русскоязычного поиска можно назвать серверы Яndex, Апорт и Rambler, индексирующие десятки тысяч серверов и десятки миллионов документов. Из зарубежных серверов популярны Altavista, Excite, Hotbot, Lycos, WebCrawler, OpenText.

Яndex - Поисковая машина последнего поколения, являющаяся к настоящему времени самой объемной: количество обследованных серверов превышает 239 434, а число учтенных оригинальных документов 30 879 447. Помимо серверов доменов "ru" и "su", Яndex индексирует содержание зарубежных русскоязычных web-узлов, а также серверов СНГ. Яndex безусловно располагает самой мощной и сложной системой составления запросов: пользователю предлагается несколько вариантов поиска, в которых легко запутаться. Более чем какие-либо другие системы, Яndex приспособлен для задания запросов на естественном русском языке. В этом случае запрос формируется путем простого ввода терминов или целой фразы в поисковую строку. Поисковый механизм сам производит расширения (падежи, числа, склонения), исключает "стоп-слова", анализирует расстояние терминов друг от друга и пр. В списке результатов ссылки снабжаются сведениями о том, есть ли в документе совпадение фразы или же все введенные термины.

Рамблер - единственный в российском Интернет портал, объединивший поисковую систему, рейтинг-классификатор, а также ряд бесплатных сервисов и информационных проектов. Ресурсы портала регистрируют ежесуточно более 3,5 млн. посещений, а ежемесячная аудитория Рамблера составляет 60-70% всех пользователей Рунета. Только поисковая система содержит информацию о более чем 12 миллионах документов, расположенных на серверах России и стран СНГ. Рамблер обрабатывает ежесуточно не менее 500 тысяч поисковых запросов (в среднем - 5 запросов в секунду), сканируя 48 тысяч web-серверов и используя несколько одновременно работающих программ-роботов. Все проекты Интернет-холдинга реализованы на базе собственных технологических разработок.

На сегодняшний день Апорт (http://www.aport.ru/) является одним из ведущих отечественных поисковых систем. Обновленная версия представляет собой медиа-портал нового поколения, сочетающий в себе девять информационно-развлекательных тематических разделов, каталог отобранных интересных ресурсов Интернет и ряд полезных сервисов, в числе которых поисковая машина Апорт, форумы, подписки и многое другое.

Создатели выработали четкую политику отражения материалов: учитываются российские или содержательно относящиеся к России ресурсы, а также сайты стран ближнего зарубежья, включая Прибалтику. К сервисным функциям системы относится возможность сортировки ссылок в рубриках по дате поступления в алфавите названий, по популярности, местоположению, доступности, а также по лиге, к которой относятся сайты.

Существуют "любительская", "профессиональная", "высшая" и "элитная" лиги, хотя во многом они представляют субъективный взгляд создателей каталога. Специальная функция "Тропы" позволяет получить нечто вроде обзора серверов конкретной тематики.

Другие поисковые системы и каталоги можно найти с помощью уже известных каталогов в разделах "Интернет - поисковые системы (каталоги)". Помимо универсальных поисковых серверов в Интернет уже существует множество тематических указателей ресурсов. Их также можно найти в соответствующих разделах. Например: "Деловой Интернет" (http://www.delovoy.spb.ru). Проект создавался как бизнес-центр, аккумулирующий в себе информацию о ресурсах Интернет по экономике, финансам, менеджменту, маркетингу. Проект рассчитан на всех, кто в той или иной мере интересуется вопросами экономики, менеджмента, маркетинга, ведет поиск партнеров по бизнесу. В рамках проекта действует каталог ссылок. Развивается и пополняется раздел, содержащий аналитическую информацию, статьи по экономике, менеджменту, маркетингу. Действует ежемесячная новостная рассылка (~600 подписчиков).

Полнотекстовые базы данных обеспечивают для клиентов высокий уровень сервиса. Поисковый механизм позволяет осуществлять многоаспектный поиск с возможностью сочетания данных из разных полей. Разыскание может осуществляться по отдельным словам, словосочетаниям и точным фразам. Результаты поиска выдаются в виде списка библиографических записей с указанием всех необходимых элементов. Существует возможность формирования из общего перечня списка релевантных документов.
1   2   3   4   5   6   7   8   9   ...   24

Похожие:

Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconРоссийской Федерации Национальный фонд подготовки кадров Барнаульский...
Информационные технологии для пользователей библиотеки образовательного учреждения
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconМетодическое пособие по проведению деловых игр «case study» министерство...
Дмитриев М. Н. Кошечкин С. А. Методическое пособие по проведению деловых игр «case study»
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconПравила приема на обучение в Национальный исследовательский
Томский государственный университет по образовательным программам высшего образования программам подготовки научно-педагогических...
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconРоссийской федерации
Учебно-методическое объединение вузов Российской Федерации по образованию в области физической культуры на базе Федерального государственного...
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconМетодическое пособие для педагогов по организации школьного телекоммуникационного...
...
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconРоссийской Федерации Национальный исследовательский Томский государственный университет
Специальность 032001 – Документоведение и документационное обеспечение управления
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconПрактика использования сервисов интернета в образовании
Икт) — одно из приоритетных направлений в образовании, в том числе и в федеральном проекте информатизации системы образования (исо),...
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconРоссийской Федерации Российский государственный профессионально-педагогический...
...
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconНаучное обоснование и оптимизация подготовки управленческих кадров...
Работа выполнена в Государственном бюджетном образовательном учреждении высшего профессионального образования Первый Московский государственный...
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconМинистерство образования и науки российской федерации государственное...
Специальность 071500. 62 «Народная художественная культура» Профиль подготовки: Руководство любительским театром
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconНациональный фонд подготовки кадров
С 15 мая по 10 июня 2012 года прошел заочный тур Первой Всероссийской студенческой Олимпиады "Физика и перспективные нанотехнологии"....
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconМинистерство образования Российской Федерации Владимирский филиал...
Доктор экономических наук К. В. Хартанович (Владимирский Филиал Российской Академии Государственной Службы при Президенте Российской...
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconОсновная образовательная программа высшего профессионального образования...
«Новосибирский национальный исследовательский государственный университет» (Новосибирский государственный университет, нгу)
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconПрограмма учебной дисциплины "Культура здоровья" министерство образования...
Орловский государственный педагогический институт, русский язык и литература, учитель русского языка и литературы
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconКонкурса для учителей и преподавателей 8 сентября 2009 г
Компания "ДеЛайт 2000" и Национальный фонд подготовки кадров подвели итоги всероссийского конкурса для учителей и преподавателей
Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет iconРабочая программа элективного курса по физике «Физический эксперимент» 9 класс
Элективные курсы в профильном обучении: Образовательная область “Естествознание”/Министерство образования РФ – Национальный фонд...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск