Web 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet

Скачать 5.03 Mb.

Название	Web 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet
страница	1/30
Дата публикации	29.11.2014
Размер	5.03 Mb.
Тип	Реферат

100-bal.ru > Информатика > Реферат

1 2 3 4 5 6 7 8 9 ... 30

Содержание

ВВЕДЕНИЕ

ГЛАВА 1. NEW MEDIA

Общая информация об Internet
New Media и СМИ
Гипертекст и WWW
Интеграция информационных ресурсов
Топология Web-пространства
Навигация в Internet
Информационно-поисковые системы
"Скрытый" Web

Очередной феномен Internet
Типы скрытых ресурсов
Базы данных "скрытой" Сети
Сталкеры в скрытом пространстве
"Скрытый" Web в каталогах
Системы поиска в "скрытом" Web
Информация в различных форматах
Скрытые новостные ресурсы
"Скрытый" архив "поверхностного" Web

1.8.10. Подходы к решению проблемы "скрытого" Web

ГЛАВА 2. ПОИСК В INTERNET

Характеристики ИПС
Лингвистическое обеспечение ИПС
Семантические методы
Этапы поисковой процедуры
Процесс поиска непосредственно
Запросы пользователей
Поиск подобных документов
Ранжирование откликов
Поиск по словам и словоформам

Логические операторы
Операторы контекстной близости

12

15

15

17

19

20

23

25

28

31 31 33 34 37 38 39 40 40 41 41

43 43 45 49 52 54 55 57 57 57 58 59

2.12. Поиск по параметрам

59

2.13. Популярные сетевые информационно-поисковые службы 61

Крупнейшие зарубежные службы 61
Службы поиска в российском сегменте Сети 68
Крупнейшие украинские службы 70

2.14. Поиск информации в корпоративных сетях 73

Популярные ИПС 73
Новый уровень обработки сетевой информации 79
Порталы знаний 81

2.15. Поисковые программно-аппаратные комплексы 83

ГЛАВА 3. СИСТЕМЫ ИНТЕГРАЦИИ INTERNET-КОНТЕНТА 87

Статическая и динамическая составляющие Web-пространства 87
Недостатки традиционного поиска 88
Невизуальный Web 89
Синдикация новостной информации 91
От "поисковиков" — к "интеграторам" 91
Форматы синдикации новостей 93
OPML — формат для хранения списка RSS-фидов 96
Источники новостного контента 98
Системы поиска RSS-фидов 104

Агрегаторы 106
Новые подходы 109
Информационные ресурсы для мобильных устройств 110

Wireless Application Protocol 110
WAP-ресурсы 111
Реализация WAP-протокола 113
WML и микробраузеры 114
Эмуляторы WAP 116
Проблемы и перспективы WAP 118
Доступ к сетевому контенту с КПК 121
Информационные ресурсы для КПК 122
Эмуляция мобильности 124

RSS-формат на КПК 125
Игрушка или рабочий инструмент 126

3.13. Службы доставки новостей по электронной почте 127

История сервиса 127
Система телеконференций Usenet 128
Доставка новостей с отдельных сайтов 131
Специализированные службы рассылки новостей 133
Интеграция новостей с целью рассылки 135

Спам — альтернатива востребованной рассылке 139
Перспективы технологий доставки новостей 139

ГЛАВА 4. XML — ЯЗЫК РАЗМЕТКИ И МОДЕЛЬ ДАННЫХ 141

XML как модель данных 144
XML-поиск и языки запросов 145
XML-решения для хранения данных 149
Корпоративные и офисные приложения для XML 154
Настоящее и обозримое будущее XML 156

ГЛАВА 5. ОСНОВЫ ТЕХНОЛОГИИ TEXT MINING 159

Основные элементы Text Mining 161
Контент-анализ 162
Модели поиска 166

Булева модель поиска 166
Векторно-пространственная модель 168
Гибридные модели поиска 169

5.4. Группировка текстовых данных 169

Кластеризация 171
Тематическая близость 172
Вероятностная модель . 174
Латентно-семантический анализ 178

Автоматические ответы на вопросы 188
Реализация систем Text Mining 190

Intelligent Miner for Text 191
PolyAnalyst 192
Text Miner 194
SemioMap 195
InterMedia Text, Oracle Text 196
Autonomy IDOL Server 196
Galaktika-ZOOM 197
InfoStream 198

Text Mining не только для спецслужб 198
Автоматическое реферирование 199

Квазиреферирование 201
Алгоритмы автореферирования 202
Дайджесты 203
Поисковые образы документов 205
Информационные портреты 205
Программы автореферирования 205
Автореферирование на основе семантических методов 212
Перспективы автореферирования 214

ГЛАВА б. ИНСТРУМЕНТАРИЙ КОНКУРЕНТНОЙ РАЗВЕДКИ 217

Задачи конкурентной разведки 218
Источники информации и базы данных 219
Подходы к анализу контента 220
Некоторые примеры 221
Конкурентная разведка и "скрытый" Web 227
Перспективы систем конкурентной разведки 227

ГЛАВА 7. ЗАКОНОМЕРНОСТИ, ПРИСУЩИЕ

ИНФОРМАЦИОННЫМ СИСТЕМАМ 231

Правило Парето 231
О переходе количества в качество 233
Закон Зипфа 234
Закономерность Брэдфорда 238
Прогноз Мура и информационная сфера 239
Фракталы и информационное Пространство 240

Примеры абстрактных фракталов 241
Фракталы из жизни 244
Информационные фракталы 245

7.7. Проблемы и феномены Internet 249

ГЛОССАРИЙ 253

ЛИТЕРАТУРА 263

ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 267

Предисловие

Эта книга для тех, кто интересуется методами получения новых знаний на основе анализа современного информационного пространства, а также способами обработки информационных потоков с целью выявления тенденций, новых понятий, феноменов, взаимосвязей.

Одно из определений знаний, которое дает энциклопедический словарь Webster, следующее: состояние осведомленности о чем-то или обладание информацией. Именно эта трактовка знаний наиболее близка к проблематике данной работы. Объем данных, из которого приходится выискивать крупицы необходимой, актуальной, готовой к немедленному использованию информации для решения проблем, обусловливает актуальность и значимость самого процесса поиска знаний.

Если знания — это сила, то сегодня первоочередная задача — найти эту силу. При этом поиск знаний, в отличие от простого поиска информации, при котором зачастую не учитывается семантика запросов, должен предоставлять пользователю только действительно актуальную информацию, наиболее точно соответствующую его потребностям, и вместе с тем адекватную исходному запросу. Если при обычном информационном поиске пользователь в конечном итоге знает, что он может получить, то при поиске знаний он должен получить нечто до сих пор ему неизвестное и познать его.

О сложности такого процесса говорит, например, недавнее исследование, проведенное фирмой Reuters среди 1300 менеджеров, которое показало, что "менеджеры чувствуют, что не могут эффективно работать без получения большого объема информации, но эта тяжелая загрузка данными, часто не имеющими никакого отношения к делу, снижает эффективность их работы и препятствует нормальному функционированию корпоративной машины". Это состояние было названо "синдромом информационной усталости", что свидетельствует об избытке информации и недостатке знаний. Из опрошенных фирмой Reuters менеджеров, 38% утверждают, что "тратят много времени, пытаясь найти нужную информацию". По оценкам экспертов, около 79% журналистов обращаются к Internet в поисках новостей и лишь 20 % находят ту информацию, которая им необходима. Все они на самом деле ищут именно знания.

В последнее время о поиске знаний пишут достаточно много. Появилось новое направление в обработке текстовой информации — "глубинный анализ текстов" (Text Mining). Это направление, скорее технологическое, чем научное, включило в себя все реальные, реализуемые на практике результаты исследований в области контент-анализа и компьютерной лингвистики, которая, как и теория баз знаний, интенсивно развивалась в 70-80-е годы прошлого века.

Сегодня прагматичные подходы, свойственные технологии Text Mining, могут применяться как студентами при написании обзорных курсовых работ, так и маркетологами при анализе рынков, политиками, бизнесменами, учеными — всеми, кто активно участвует в современных информационных, политических и бизнес-процессах.

Методы Text Mining уже используются в таких основных областях, как:

» политические исследования — геополитика, анализ предвыборной и выборной ситуации, деятельность партий, общественных организаций, отдельных политических деятелей и т.д.;

конкурентная разведка — обобщенный анализ деятельности конкурентов, их PR-активности, клиентской базы;
анализ рынков — выявление основных тенденций в производстве и потреблении товаров и услуг определенных видов, в политике фирм, участвующих в рынках, ареалах;
анализ новых технологий — в различных сферах науки, бизнеса, безопасности;
образование, культура.

Несмотря на то что книга ориентирована на широкий круг читателей, интересующихся современными информационными технологиями, хочется верить, что она будет также полезна и аналитикам, которые с помощью методологии Text Mining или отдельных ее компонентов смогут повысить эффективность и качество своей работы.

_{Введение}

_К

оличество информации, обрушивающейся на человека в современном мире, обусловливает актуальность задачи отделения действительно важных сведений от информационного шума. Человек, группа людей, информационная служба, профессиональные эксперты-аналитики уже не могут пропускать через себя потоки информации, которые изливаются на них сегодня электронными медиа. Зачастую даже опытные эксперты не могут выделить главного, не находят сведений, необходимых для принятия решений, в результате чего действия как отдельных людей, так и коллективов или даже государств становятся неадекватными реальной обстановке.

Таким образом, самая главная проблема современных коммуникаций — это извлечение действительно ценных сведений из информационных потоков; другими словами, получение знаний из информации.

Обилие информации уже давно воспринимается как нечто само собой разумеющееся. Количественные оценки ее суммарного объема как таковые вряд ли могут стать поводом для особых размышлений. Но если подобные показатели подвергнуть структурному анализу, то полученные результаты могут оказаться весьма неожиданными.

Возьмем, к примеру, исследование изменения объема информации в мире за год [54]. С 2000 года оно проводится в Калифорнийском университете в Беркли под руководством профессоров Питера Лаймана и Хода Вэриена. Ученые пришли к выводу, что на протяжении трех лет, предшествующих 2002 году, количество информации, произведенной человечеством, удвоилось. А в самом 2002 году в мире было произведено пять экзабайт (миллионов терабайт) информации. Для сравнения приведем данные об объеме фонда библиотеки Конгресса США, где хранится 19 млн книг и 56 млн рукописей: он составляет около десяти терабайт информации. В упомянутом исследовании информация структурировалась по типам носителей. Оказалось, что лидерство прочно удерживают магнитные носители, доля которых превышает 90%. Из них большую часть составляют жесткие диски. На кино, фото, печатные издания и другие бумажные документы вместе с оптическими цифровыми носителями приходится лишь 7% информации.

Очевидно, что лишь человеческого опыта в данной информационной ситуации становится уже недостаточно. Сама среда поступления информации определяет и возможные реальные подходы к ее обработке. Только мощные возможности информационной техники — компьютеров, сетей — в совокупности со специальным программным обеспечением могут оказаться той панацеей, которая спасет нас от информационного хаоса. В свое время казались очень перспективными системы искусственного интеллекта, экспертные системы со своими парадигмами фреймов и правил — баз знаний. То ли в 80-х годах двадцатого столетия не до конца сформировалась общественная потребность в широком использовании таких систем, то ли недостаточными были мощности компьютеров, то ли не доработаны были теоретические и алгоритмические основы таких систем, но бум их популярности в конце 80-х годов закончился. За прошедшее с тех пор время наряду с бурным технологическим процессом (до сих пор не опровергнут закон Мура) сложилось понимание того, что для решения проблемы информационного хаоса больше всего подходят технологии, порожденные некогда таким направлением, как контент-анализ, и сегодня получившие названия Data Mining и Text Mining. В настоящее время существуют достаточно развитые системы, реализующие эти направления. Практически все самые известные производители программного обеспечения предлагают на рынке системы глубинного анализа данных и текстов (у компании Oracle — это Oracle Text, у IBM — Intelligent Miner for Text, у SAS — Text Miner).

Следует отметить, что большая часть информационного потока — это неструктурированная текстовая информация, в то время как значительная часть электронной информации, порожденной путем использования современных СУБД, — это численные фактографические данные. Если обработка таких данных позволяет использовать уже отработанные методы и погружать потоки данных в СУБД, то задача анализа текстовой информации открывает широкое поле для применения новейших методик и технологий, таких как XML, лингвистические, эмпирические, статистические подходы. В настоящее время уже определено несколько задач, стоящих перед технологией Text Mining, — это автоматическая классификация, кластеризация, выявление смысловых взаимосвязей отдельных фрагментов и понятий, выраженных в тексте, а также составление осмысленных рефератов, резюмирующих знания, содержащиеся в текстовых массивах больших объемов. Возможно, эти технологические подходы в случае массового применения смогут облегчить ориентацию человека в постоянно расширяемом информационном поле, позволят ему адекватнее реагировать на происходящие события, уверенно принимать важные решения на основе концентрации знаний.

Развитие вычислительной техники и компьютерных сетей способствовало появлению систем, назначение которых — поиск в массивах полнотекстовых документов. К таким документам можно отнести, например, статьи, нормативные акты, реферативные описания, тексты брошюр, диссертаций, монографий. До определенного времени полнотекстовые информационно-поисковые системы использовались преимущественно специалистами, круг которых был не очень широк, — архивные работники, сотрудники библиотек, ученые, аналитики.

Появление и развитие сети Internet в корне изменило ситуацию. Сегодня информационные ресурсы Сети составляют около десяти миллиардов документов (Web-страниц), к которым возможен свободный доступ любого пользователя. Естественно, чтобы найти необходимую информацию в этой крупнейшей полнотекстовой базе данных, необходимо использовать очень мощные поисковые средства, которые в зачаточном состоянии уже существуют, развиваются и конкурируют друг с другом на рынке информационных технологий.

Сегодня миллионам пользователей Internet известны такие системы, как Google, Yahoo, AllTheWeb, AltaVista, каждая из которых охватывает несколько миллиардов Web-документов. Мы стали свидетелями "информационного взрыва", в результате которого менее чем за 10 лет мало кому известная технология полнотекстового поиска стала повседневным инструментом миллионов людей.

В связи с этим первая глава книги — "New Media" — посвящена Internet и ее информационному подпространству World Wide Web. В этой главе описывается топология этого подпространства, а также средства навигации в нем и эволюция этих средств — от простейших наборов ссылок и каталогов до многофункциональных порталов.

Вторая глава посвящена поисковым системам, процессу поиска информации и его отдельным звеньям, а также включает трактовки таких фундаментальных понятий информационного поиска, как полнота и релевантность. Кроме того, эта глава содержит информацию о практической стороне использования процедур поиска, особенностях формирования запросов к различным информационно-поисковым системам с использованием слов, словоформ, фрагментов текстов, а также о поиске с учетом структуры документов, морфологии, подобия.

Третья глава охватывает вопросы ориентации в новостной информации, представленной в Сети. Для такого поиска используется специальный класс информационно-поисковых систем — системы мониторинга контента Internet, на основе которых строятся современные службы синдикации новостей.

Вопросам современного унифицированного представления информации в перспективном формате гипертекстовой разметки XML, а также технологическим решениям, построенным на основе идеологии XML, посвящена четвертая глава "XML — язык разметки и модель данных".

Технологиям выявления знаний в текстовых массивах с использованием как классических, так и новых, интеллектуальных подходов к анализу информации посвящена пятая глава "Технология Text Mining".

Шестая глава посвящена очень популярному сегодня направлению использования технологии Text Mining — конкурентной разведке, которая заключается в сборе и аналитической обработке информации, необходимой для принятия оптимальных управленческих решений. Очень важно, что при этом конкурентная разведка выполняется строго в рамках правовых норм.

Седьмая, заключительная, глава книги содержит обзор общих закономерностей, присущих информационным системам, в частности таких, как правило Парето, законы Зипфа и Брэдфорда и так далее, что должно дать читателю некоторое обобщенное представление о тенденциях и подходах, обсуждаемых в книге.

Дмитрий Ландэ, сентябрь 2004 года

1 2 3 4 5 6 7 8 9 ... 30

Добавить документ в свой блог или на сайт

$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Рабочая программа дисциплины «Web-дизайн» Целью дисциплины является научить студентов технологии Web-дизайна и Internet-программирования. В результате изучения дисциплины...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Программа по формированию навыков безопасного поведения на дорогах... Обучающая: дать представление основных понятий Web – сервер, Web – сайт, Web – страница, гиперссылка, тег, структура html – документа,...
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	План урока по теме: «Web-страницы и web-сайты. Структура web-страницы.»... Обучающая организовать деятельность учащихся по изучению новой темы; ознакомить учащихся с понятием сайта, структурой web- страницы,...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Интернет-технологии и Web-дизайн ...
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Информатики и радиоэлектроники «Интерфейсы. Реализация нескольких интерфейсов с одним и тем же методом. Понятие Web-сервиса. Инфраструктура Web-сервиса. Взаимодействие...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Факультет информационных технологий Веб 0, в противовес «старому» Веб «Web 0» не является чем-то революционным, а лишь продолжает использовать технологии и концепции...
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Программа элективного курса по информатике и икт «Создание Web-сайтов» Умение представлять информацию в виде, удобном для восприятия и использования другими людьми – одно из условий образовательной компетентности...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Проекта: Разработка Web-приложений Разработка web-приложений, бизнес процесс разработки web-приложения, cms drupal, создание сайта кафедры
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	99 сайтов с картинками Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Творческий проект Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	История россии Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Материально-техническое обеспечение Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Изучение информатики в старшей школе направлено на достижение следующих целей В данном проекте рассматривается создание Web страниц с помощью html кода. Он может быть использован для изучения темы "Создание...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Приложение №1 Исторические стили в интерьере Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Адреса патентных ведомств и других бд в internet В случаях, когда нужно провести поиск зарубежных патентов, следует обращаться к национальным базам данных. В настоящее время открыты...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Положение об учебном кабинете начального образования общеобразовательной школы Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...

Web 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet

Похожие: