Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет

Скачать 1.63 Mb.

Название	Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет
страница	17/24
Дата публикации	02.01.2015
Размер	1.63 Mb.
Тип	Учебно-методическое пособие

100-bal.ru > Информатика > Учебно-методическое пособие

1 ... 13 14 15 16 17 18 19 20 ... 24

Технологические аспекты создания электронного каталога

Современное общество характеризуется быстрым развитием электронных средств и систем распространения информации. Остро встает вопрос о способах и методиках обработки информации, в том числе вопрос об эффективном поиске и отборе информации. Рост информационного потока требует адекватных методов обработки информации. Отметим изменения, характеризующие деятельность современной библиотеки:

все более широкое использование компьютеров не только при создании электронных каталогов, но и при оформлении заказов, взаимодействии между отделами, филиалами и т.д.;
использование сетевых технологий для организации совместной работы и взаимодействия сотрудников библиотеки и ее филиалов;
повсеместное внедрение электронной формы представления изданий в базе данных (БД);
распространение в электронном виде (по согласованию с автором и издательством) точной копии печатного издания с возможностью ее последующей распечатки в случае необходимости в произвольном количестве экземпляров;
появление в принципиально новых типов изданий с использованием чисто компьютерных технологий, таких как гипертекст, мультимедиа, электронное аналоговое моделирование, анимационные эффекты;
подключение практически всех средних и крупных издательств к Всеминой сети Интернет, что открывает совершенно новые возможности для взаимодействия библиотек и издательств.

Современной библиотеке все в большей и большей степени приходится работать с цифровой информацией. В функции современной библиотеки входит оцифровка, индексация, длительное хранение, извлечение и защита от несанкционированного доступа цифровой информации в распределенной сетевой среде. В связи с этим встает вопрос о создании модели информационной структуры библиотечной деятельности. Как уже отмечалось выше, такой моделью может быть модель, описанная в [1] для современного издательства (рис. 1). Рассмотрим основные компоненты модели.

централизованное хранилище цифровой информации всех типов и форматов;
совокупность цифровых технологий для загрузки изданий в хранилище и их каталогизации;
система поиска и просмотра первичной информации;
доставка единиц хранения информации пользователю (читателю) для просмотра или работнику библиотеки для исправления ошибок.

Все основные компоненты располагаются на одном или нескольких серверах.

Такая система обязана обладать определенным набором свойств. Она должна обеспечить:

хранение всех типов данных в едином информационном пространстве;
минимизацию ручного труда по каталогизации и индексации информации;
доступность информации с любого клиентского компьютера;
возможность нахождения издания по его информационным характеристикам;
доступность издания только для лиц с соответствующими правами доступа.

Рис. 1. Модель информационной структуры современной библиотеки.

Остановимся более подробно на элементах представленной модели.

Ядром любой информационной системы является хранилище изданий, предназначенное для хранения электронных изданий. Для организации эффективного поиска изданий, наряду с содержанием самих изданий необходимо хранить атрибутивную информацию (метаинформацию или метаданные). В состав метаинформации обычно включают: имя автора или авторов, название издания, время первой публикации издания, название издательства, принадлежность авторских прав, характер представления данных (тип файла, его размещение) и пр.

Можно выделить два подхода создания хранилищ документов.

Создание фактографических хранилищ. При использовании фактографической схемы хранения документов в БД записывается определенный набор атрибутов каждого издания и ссылки на место хранения изданий. Поиск документов в таких хранилищах организуется только по атрибутам изданий, хранимым в БД.

Другой подход – это создание документальных хранилищ. В данной системе организуется полнотекстовый поиск, т.е. поиск по содержанию документа. Документальные хранилища ориентированы на хранение изданий в электронном виде.

В настоящее используется интегрированный подход к организации хранения изданий: документы в электронном виде размещаются в файловой системе сервера, а метаинформацию об изданиях сохраняют в БД. Такой подход позволяет каталогизировать не только электронные издания, но и печатные, т.е. внести метаинформацию о печатном издании в БД, что упрощает поиск этого издания.

Загрузчик является той частью системы, которая должна сделать ввод изданий и документов настолько эффективным, насколько это возможно. Поскольку количество вводимой информации велико, становится понятно требование минимизации ручного труда в этом процессе. При вводе электронных изданий одновременно должны генерироваться метаданные для каталогизации и индексирования, на основе которых документы могут затем извлекаться пользователями. Известно несколько способов автоматизации, соответствующих разным методам доступа к данным. Наиболее известен и хорошо отработан метод автоматической индексации полного текста.

Самые прогрессивные средства индексации текста базируются на технологии семантических сетей, в которой значения слов определяются по контексту, а не просто подбором унифицированных терминов для отдельных слов. При этом, чем более структурирован язык описания страниц, тем легче выделять информацию, однако пока работу программных средств нельзя назвать безупречной. Представляется оправданным включение в метаданные ключевых слов, отобранных автором и редактором, так как лучше них никто не сможет подобрать набор ключевых слов, оптимально характеризующих как тематическую область издания, так и его отличия от близких по тематике.

Передача данных пользователю так же является одним из основных компонентов описываемой структуры. Можно выделить два основных типа передачи данных: передача файлов (используется для передачи текстовой и графической информации по электронным сетям) и передача потоков данных (используется для передачи аудио и видео информации в цифровом виде по электронным сетям). Для обработки аудио и видео информации (в том числе хранение и передача по электронным сетям) необходимы высокопроизводительные ЭВМ с большими объемами оперативной и внешней памяти, а так же надежные каналы передачи данных с высокой пропускной способностью.

Браузер должен обеспечить интерфейс пользователя. Перечислим основные функции, доступ к которым должен обеспечить браузер:

доступ к тематическим каталогам и файлам;
поиск информации;
просмотр статических, мультемедийных и динамических (например, ответов, формируемых системой поиска информации) документов;
навигацию между связанными документами.

В качестве браузера может выступать либо специализированная клиентская программа, либо, что более предпочтительно, стандартный Интернет-браузер (например, Internet Explorer, Netscape Navigator, Opera и др.). Использование стандартного Интернет-браузера позволяет снять проблему разработки и распространения клиентского программного обеспечения, проблему взаимодействия различный операционных систем, но в то же время усложняется вопрос разработки серверной части системы.

Хранение изданий требует обязательной организации системы поиска, которая является основной сервисной функцией предоставляемой клиенту. Можно выделить два вида поиска изданий пользователем:

Атрибутивный поиск – поиск существующего издания по одному или нескольким известным атрибутам, которые сопоставляются каждому из документов. Эта система поиска используется в фактографической системе хранения документов. К атрибутам изданий относят: название, автора (авторов), время создания, ISBN (индивидуальный номер издания по универсальной книжной классификации) и так далее.
Полнотекстовый поиск - поиск всей совокупности изданий по определенному тематическому направлению. В этом случае заранее неизвестно не только количество изданий, но даже сам факт их существования. Такие системы поиска используются в документальных хранилищах. Большинство аналитических и исследовательских задач на начальной стадии реализации связано с применением второго варианта поиска. В частности, на этапе постановки задачи всегда проводится обзор литературы по рассматриваемому вопросу. Для организации полнотекстового поиска необходимо вначале произвести индексацию изданий, составить для них так называемый полнотекстовый индекс. В простейшем случае он представляет собой список всех значащих слов в текстовой базе данных с указанием, в каких изданиях встречаются эти слова. Встречаются многоуровневые индексы, в которых на верхнем уровне расположен словарь или поисковый индекс слова. В нем каждому значащему слову соответствует указатель на расположенный на следующем уровне список местонахождений или индекс ссылок, в котором содержатся адрес издания и, иногда, позиция слова внутри документа. Полнотекстовый поиск широко применяется на поисковых серверах Интернет.

Выделим отличия полнотекстового поиска от атрибутивного:

полнотекстовый поиск выполняется с меньшей точностью;
полнотекстовый поиск вероятностный, а не детерминированный;
критерием правильности выборки является не точное совпадение, а лишь пригодность извлеченного из базы издания;
время поиска и извлечения издания зависит от формулировки запроса и скорости анализа пользователем пригодности извлеченных из базы изданий.

Следует отметить, что исторически первыми использовались базы данных для хранения структурированной информации с жестким набором атрибутов. Затем возникла необходимость хранения документов, включая журналы и книги, которые представляют собой набор неструктурированной или почти неструктурированной информации.

Атрибутивный поиск проще организовать, он выполняется гораздо быстрее и позволяет получить точный, а не вероятностный, результат. Для его реализации не требуется создавать полнотекстовый индекс, занимающий значительное дисковое пространство, а также сложные поисковые механизмы. В последние годы в сети Интернет взят курс на поисковые системы, основанные на частичном; использовании метаинформации, по крайней мере, в тех случаях, когда эта информация известна пользователю. Вводится и соответствующий стандарт на содержание атрибутов на каждой Web-странице для реализации такого поиска. Тем не менее, полнотекстовые базы и поиск пока еще достаточна широко используется в издательских информационных системах.

В.А.Вуаль выделяет несколько методов поиска в текстовых базах данных.

Просмотр или связное чтение, т. е. процесс сходный с обычной работой с книгой. Из базы данных извлекается определенное электронное издание, и пользователь знакомится с его содержанием. Используя средства навигации, можно перемещаться по каталогу изданий, просматривать их оглавления и аннотации. Для больших баз данных такой способ неэффективен и может использоваться только в сочетании с другими моделями.

Булевы модели поиска, использующие в качестве основы логические конструкции, т. е. слова или фразы, объединенные знаками логических операций И (AND, &), ИЛИ (OR) и НЕ (NO). Входящие в конструкцию слова и фразы, если последние рассматриваются как единое целое, обычно называют термами. Если в результате запроса поисковая система выдала чрезмерно большой список документов, запрос можно попытаться усложнить, включив в него большее количество термов и логических операторов. Наоборот, если найдено небольшое количество пригодных (peлевантных) документов, запрос можно упростить, исключив из него отдельные конструкции или заменив логические операторы. Современные системы поиска обычно производят оценку степени полезности найденного документа на основе частоты, с которой искомые термины встречаются в найденном документе.

Векторная модель поиска основана на представлении каждого отдельного издания некоторым вектором в N-мерном пространстве. Запрос также представляется в виде вектора. Степень полезности документа, определяется как его близость в указанном N-мерном пространстве к вектору запроса. Количественная оценка близости найденного документа к запросу выражается косинусом угла между этими векторами и изменяется в пределах от 0 до 1. Векторная модель поиска обязательно подразумевает последовательные итерации. В начале поиска пользователь из всего множества выбранных изданий определяет некоторые как нужные, полезные для него. На основании этого выбора вырабатывается уточненное положение вектора запроса

Основной характеристикой применимости методов поиска является эффективность. Эффективность описывается точностью и охватом. Точность – это отношение релевантных документов (R) в полученной в результате поиска выборки к общему числу документов в выборке (N):

. Охват – это отношение числа релевантных документов в выборке (R) к общему числу релевантных документов в базе данных (T):

.

Говоря о поисках документов необходимо остановиться на законах Зипфа и их применении.

Для организации эффективного поиска необходимо уметь выделять набор ключевых (значимых терминов) терминов. Известный математик Дж. Зипф (G.K. Zipf) показал, что все созданные человеком тексты подчиняются некоторым общим закономерностям. Он сформулировал в 1946—1949 годах три таких закона.

Если взять любой текст, то можно подсчитать, какие слова применяются в нем и сколько раз они встречаются. Количество повторов слова в тексте можно назвать частотой этого слова. Чаще всего встречающемуся слову можно приписать ранг 1, следующему по частоте — ранг 2 и т. д. Если несколько разных слов имеют одинаковые частоты, то учитывается только одно из них. Если разделить частоту повторения слова f на общее количество значащих слов в тексте S, то получим относительную частоту или вероятность встречи этого слова в тексте.

Первый закон Зипфа гласит, что произведение частоты или вероятности встречи слова в тексте на его ранг приблизительно постоянно для любых текстов определенного языка. На рис. 2 представлена кривая зависимости частоты слова от его ранга:

,

где Const – некоторая константа, различная для разных языков (для русского примерно 960).

Рис. 2. Кривая зависимости частоты, с которой слово встречается в тексте, от его ранга

На основании первого закона Зипфа можно сказать, если самое распространенное слово встречается в тексте 100 раз, то следующее по частоте слово будет встречаться примерно 50 раз.

Дж. Зипф так же установил, что частота и количество слов, входящих в текст с этой частотой, также связаны между собой определенной зависимостью. Если построить график, отложив по оси абсцисс частоту вхождения слова, а оси ординат — количество слов, характеризуемых данной частотой, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма этой кривой Зипфа останется неизменной. Могут незначительно отличаться лишь коэффициенты, отвечающие за наклон кривой (рис. 3). Если график построен в полулогарифмическом масштабе, то он состоит из двух отрезков прямых линий с небольшим криволинейным участком между ними.

Рис. 3. Кривые для французского (кривая 1), английского (кривая 2) и русского (кривая 3) языков.

Полученные Дж. Зипфом результаты могут успешно использоваться на практике для выделения значащих слов в тексте. Все значащие слова для любого текста размещаются в области средних значений ранга и частоты (выделенная область, см. рис. 2). Действительно, самые часто встречающиеся слова, ранг которых изменяется от 1 до 4—5, обычно относятся к разряду вспомогательных, а самые редкие — обычно также не имеют решающего смыслового значения для данного текста. От того, как будет задан диапазон значимых слов, зависит многое. Если сделать его слишком широким — нужные термины потонут в море вспомогательных слов. Установив же чрезмерно узкий диапазон, мы рискуем потерять некоторые смысловые термины.

До сих пор рассматривались отдельно взятые документы. Однако каждый такой документ является частью совокупности изданий. Эта совокупность, в частности, может быть реализована в виде базы изданий или документов. Всю эту базу, или ее часть, включающую документы одной и той же тематики или направления, можно представить в виде одного, очень большого документа. К этому составному документу также применимы законы Зипфа. Использование понятия "составной документ" позволяет повысить качество выборки значащих слов (или их рейтинг) путем введения нового понятия инверсная частота термина, которая характеризует вес или значимость этого термина. Этот параметр позволяет снизить опасность попадания малозначащих терминов в состав выборки. Инверсная частота i определяется как логарифм отношения общего количества рассматриваемых документов n к числу документов, содержащих данный термин m (под термином может пониматься не только отдельное слово, но и единое по смыслу словосочетание). Т.е.

.

С учетом инверсной частоты вес или значимость термина в каждом документе определится выражением:

,

где z — вес или значимость термина в издании; f— частота повторения термина в этом издании; i— инверсная частота этого термина в группе изданий; S— количество значащих слов в определенном издании. Следует заметить, что значимость одного и того же термина в различных изданиях обычно существенно отличается друг от друга.

Роль инверсной частоты в приведенной формуле состоит в том, чтобы уменьшить вес слов и устойчивых словосочетаний, которые выполняют вспомогательные функции в документе, обеспечивая стиль и определена характер повествования. Для случайных слов и сочетаний мала частота повторения терминов f, а для стоп-слов и вспомогательных понятий стремит к нулю инверсная частота i. Таким образом, вес или значимость термина; позволяет выделить именно ключевые слова и сочетания. Этот же параметр позволяет ранжировать значащие слова, т. е. построить их последовательность в порядке значимости.

Законы Зипфа используются при пополнении ссылочной базы данных поисковых серверах, причем весовые коэффициенты основаны не только на весе каждого термина, но могут учитывать и то, какой частью речи является термин, а также его местоположение внутри документа, морфологические особенности и пр. Они же применяются для оценки релевантности найденного в процессе поиска документа, величина которой изменяется от 0 до 1. Релевантность оценивается на основе того, какое количество слов из представленных в поисковом выражении содержится в найденном документе, а также веса каждого из таких слов, представленных в документе.

Дж. Зипф представил свои законы в 1949 году. Позднее они были уточнены на основе ряда практических исследований известным математиком Бенуа Мандельбротом (Benoit Mandlebrot). В настоящее время именно эти законы легли в основу алгоритмов автоматического распознавания текста и различных автоматических поисковых стратегий.

1 ... 13 14 15 16 17 18 19 20 ... 24

	Российской Федерации Национальный фонд подготовки кадров Барнаульский... Информационные технологии для пользователей библиотеки образовательного учреждения		Методическое пособие по проведению деловых игр «case study» министерство... Дмитриев М. Н. Кошечкин С. А. Методическое пособие по проведению деловых игр «case study»
	Правила приема на обучение в Национальный исследовательский Томский государственный университет по образовательным программам высшего образования программам подготовки научно-педагогических...		Российской федерации Учебно-методическое объединение вузов Российской Федерации по образованию в области физической культуры на базе Федерального государственного...
	Методическое пособие для педагогов по организации школьного телекоммуникационного... ...		Российской Федерации Национальный исследовательский Томский государственный университет Специальность 032001 – Документоведение и документационное обеспечение управления
	Практика использования сервисов интернета в образовании Икт) — одно из приоритетных направлений в образовании, в том числе и в федеральном проекте информатизации системы образования (исо),...		Российской Федерации Российский государственный профессионально-педагогический... ...
	Научное обоснование и оптимизация подготовки управленческих кадров... Работа выполнена в Государственном бюджетном образовательном учреждении высшего профессионального образования Первый Московский государственный...		Министерство образования и науки российской федерации государственное... Специальность 071500. 62 «Народная художественная культура» Профиль подготовки: Руководство любительским театром
	Национальный фонд подготовки кадров С 15 мая по 10 июня 2012 года прошел заочный тур Первой Всероссийской студенческой Олимпиады "Физика и перспективные нанотехнологии"....		Министерство образования Российской Федерации Владимирский филиал... Доктор экономических наук К. В. Хартанович (Владимирский Филиал Российской Академии Государственной Службы при Президенте Российской...
	Основная образовательная программа высшего профессионального образования... «Новосибирский национальный исследовательский государственный университет» (Новосибирский государственный университет, нгу)		Программа учебной дисциплины "Культура здоровья" министерство образования... Орловский государственный педагогический институт, русский язык и литература, учитель русского языка и литературы
	Конкурса для учителей и преподавателей 8 сентября 2009 г Компания "ДеЛайт 2000" и Национальный фонд подготовки кадров подвели итоги всероссийского конкурса для учителей и преподавателей		Рабочая программа элективного курса по физике «Физический эксперимент» 9 класс Элективные курсы в профильном обучении: Образовательная область “Естествознание”/Министерство образования РФ – Национальный фонд...

Российской Федерации Национальный фонд подготовки кадров Барнаульский государственный педагогический университет

Технологические аспекты создания электронного каталога

Похожие: