Web 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet





НазваниеWeb 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet
страница1/30
Дата публикации29.11.2014
Размер5.03 Mb.
ТипРеферат
100-bal.ru > Информатика > Реферат
  1   2   3   4   5   6   7   8   9   ...   30

Содержание

ВВЕДЕНИЕ

ГЛАВА 1. NEW MEDIA

  1. Общая информация об Internet

  2. New Media и СМИ

  3. Гипертекст и WWW

  4. Интеграция информационных ресурсов

  5. Топология Web-пространства

  6. Навигация в Internet

  7. Информационно-поисковые системы

  8. "Скрытый" Web




  1. Очередной феномен Internet

  2. Типы скрытых ресурсов

  3. Базы данных "скрытой" Сети

  4. Сталкеры в скрытом пространстве

  5. "Скрытый" Web в каталогах

  6. Системы поиска в "скрытом" Web

  7. Информация в различных форматах

  8. Скрытые новостные ресурсы

  9. "Скрытый" архив "поверхностного" Web

1.8.10. Подходы к решению проблемы "скрытого" Web

ГЛАВА 2. ПОИСК В INTERNET

  1. Характеристики ИПС

  2. Лингвистическое обеспечение ИПС

  3. Семантические методы

  4. Этапы поисковой процедуры

  5. Процесс поиска непосредственно

  6. Запросы пользователей

  7. Поиск подобных документов

  8. Ранжирование откликов

  9. Поиск по словам и словоформам




  1. Логические операторы

  2. Операторы контекстной близости

12

15

15

17

19

20

23

25

28

31 31 33 34 37 38 39 40 40 41 41

43 43 45 49 52 54 55 57 57 57 58 59

2.12. Поиск по параметрам

59



2.13. Популярные сетевые информационно-поисковые службы 61

  1. Крупнейшие зарубежные службы 61

  2. Службы поиска в российском сегменте Сети 68

  3. Крупнейшие украинские службы 70

2.14. Поиск информации в корпоративных сетях 73

  1. Популярные ИПС 73

  2. Новый уровень обработки сетевой информации 79

  3. Порталы знаний 81

2.15. Поисковые программно-аппаратные комплексы 83

ГЛАВА 3. СИСТЕМЫ ИНТЕГРАЦИИ INTERNET-КОНТЕНТА 87

  1. Статическая и динамическая составляющие Web-пространства 87

  2. Недостатки традиционного поиска 88

  3. Невизуальный Web 89

  4. Синдикация новостной информации 91

  5. От "поисковиков" — к "интеграторам" 91

  6. Форматы синдикации новостей 93

  7. OPML — формат для хранения списка RSS-фидов 96

  8. Источники новостного контента 98

  9. Системы поиска RSS-фидов 104




  1. Агрегаторы 106

  2. Новые подходы 109

  3. Информационные ресурсы для мобильных устройств 110




  1. Wireless Application Protocol 110

  2. WAP-ресурсы 111

  3. Реализация WAP-протокола 113

  4. WML и микробраузеры 114

  5. Эмуляторы WAP 116

  6. Проблемы и перспективы WAP 118

  7. Доступ к сетевому контенту с КПК 121

  8. Информационные ресурсы для КПК 122

  9. Эмуляция мобильности 124




  1. RSS-формат на КПК 125

  2. Игрушка или рабочий инструмент 126

3.13. Службы доставки новостей по электронной почте 127

  1. История сервиса 127

  2. Система телеконференций Usenet 128

  3. Доставка новостей с отдельных сайтов 131

  4. Специализированные службы рассылки новостей 133

  5. Интеграция новостей с целью рассылки 135


  1. Спам — альтернатива востребованной рассылке 139

  2. Перспективы технологий доставки новостей 139

ГЛАВА 4. XML — ЯЗЫК РАЗМЕТКИ И МОДЕЛЬ ДАННЫХ 141

  1. XML как модель данных 144

  2. XML-поиск и языки запросов 145

  3. XML-решения для хранения данных 149

  4. Корпоративные и офисные приложения для XML 154

  5. Настоящее и обозримое будущее XML 156

ГЛАВА 5. ОСНОВЫ ТЕХНОЛОГИИ TEXT MINING 159

  1. Основные элементы Text Mining 161

  2. Контент-анализ 162

  3. Модели поиска 166




  1. Булева модель поиска 166

  2. Векторно-пространственная модель 168

  3. Гибридные модели поиска 169

5.4. Группировка текстовых данных 169

  1. Кластеризация 171

  2. Тематическая близость 172

  3. Вероятностная модель . 174

  4. Латентно-семантический анализ 178




  1. Автоматические ответы на вопросы 188

  2. Реализация систем Text Mining 190




  1. Intelligent Miner for Text 191

  2. PolyAnalyst 192

  3. Text Miner 194

  4. SemioMap 195

  5. InterMedia Text, Oracle Text 196

  6. Autonomy IDOL Server 196

  7. Galaktika-ZOOM 197

  8. InfoStream 198




  1. Text Mining не только для спецслужб 198

  2. Автоматическое реферирование 199




  1. Квазиреферирование 201

  2. Алгоритмы автореферирования 202

  3. Дайджесты 203

  4. Поисковые образы документов 205

  5. Информационные портреты 205

  6. Программы автореферирования 205

  7. Автореферирование на основе семантических методов 212

  8. Перспективы автореферирования 214

ГЛАВА б. ИНСТРУМЕНТАРИЙ КОНКУРЕНТНОЙ РАЗВЕДКИ 217

  1. Задачи конкурентной разведки 218

  2. Источники информации и базы данных 219

  3. Подходы к анализу контента 220

  4. Некоторые примеры 221

  5. Конкурентная разведка и "скрытый" Web 227

  6. Перспективы систем конкурентной разведки 227

ГЛАВА 7. ЗАКОНОМЕРНОСТИ, ПРИСУЩИЕ

ИНФОРМАЦИОННЫМ СИСТЕМАМ 231

  1. Правило Парето 231

  2. О переходе количества в качество 233

  3. Закон Зипфа 234

  4. Закономерность Брэдфорда 238

  5. Прогноз Мура и информационная сфера 239

  6. Фракталы и информационное Пространство 240




  1. Примеры абстрактных фракталов 241

  2. Фракталы из жизни 244

  3. Информационные фракталы 245

7.7. Проблемы и феномены Internet 249

ГЛОССАРИЙ 253

ЛИТЕРАТУРА 263

ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 267

Предисловие

Эта книга для тех, кто интересуется методами получения новых знаний на основе анализа современного информационного пространства, а также способами обработки информационных потоков с целью выявления тенденций, новых по­нятий, феноменов, взаимосвязей.

Одно из определений знаний, которое дает энциклопедический словарь Webster, следующее: состояние осведомленности о чем-то или обладание информа­цией. Именно эта трактовка знаний наиболее близка к проблематике данной рабо­ты. Объем данных, из которого приходится выискивать крупицы необходимой, актуальной, готовой к немедленному использованию информации для решения про­блем, обусловливает актуальность и значимость самого процесса поиска знаний.

Если знания — это сила, то сегодня первоочередная задача — найти эту силу. При этом поиск знаний, в отличие от простого поиска информации, при котором зачастую не учитывается семантика запросов, должен предоставлять пользовате­лю только действительно актуальную информацию, наиболее точно соответст­вующую его потребностям, и вместе с тем адекватную исходному запросу. Если при обычном информационном поиске пользователь в конечном итоге знает, что он может получить, то при поиске знаний он должен получить нечто до сих пор ему неизвестное и познать его.

О сложности такого процесса говорит, например, недавнее исследование, про­веденное фирмой Reuters среди 1300 менеджеров, которое показало, что "менеджеры чувствуют, что не могут эффективно работать без получения боль­шого объема информации, но эта тяжелая загрузка данными, часто не имеющи­ми никакого отношения к делу, снижает эффективность их работы и препятст­вует нормальному функционированию корпоративной машины". Это состояние было названо "синдромом информационной усталости", что свидетельствует об избытке информации и недостатке знаний. Из опрошенных фирмой Reuters ме­неджеров, 38% утверждают, что "тратят много времени, пытаясь найти нужную информацию". По оценкам экспертов, около 79% журналистов обращаются к Internet в поисках новостей и лишь 20 % находят ту информацию, которая им необходима. Все они на самом деле ищут именно знания.

В последнее время о поиске знаний пишут достаточно много. Появилось новое направление в обработке текстовой информации — "глубинный анализ текстов" (Text Mining). Это направление, скорее технологическое, чем научное, включило в себя все реальные, реализуемые на практике результаты исследований в облас­ти контент-анализа и компьютерной лингвистики, которая, как и теория баз знаний, интенсивно развивалась в 70-80-е годы прошлого века.

Сегодня прагматичные подходы, свойственные технологии Text Mining, мо­гут применяться как студентами при написании обзорных курсовых работ, так и маркетологами при анализе рынков, политиками, бизнесменами, учеными — всеми, кто активно участвует в современных информационных, политических и бизнес-процессах.

Методы Text Mining уже используются в таких основных областях, как:

» политические исследования — геополитика, анализ предвыборной и вы­борной ситуации, деятельность партий, общественных организаций, от­дельных политических деятелей и т.д.;

  1. конкурентная разведка — обобщенный анализ деятельности конкурентов, их PR-активности, клиентской базы;

  2. анализ рынков — выявление основных тенденций в производстве и по­треблении товаров и услуг определенных видов, в политике фирм, участ­вующих в рынках, ареалах;

  3. анализ новых технологий — в различных сферах науки, бизнеса, безо­пасности;

  4. образование, культура.

Несмотря на то что книга ориентирована на широкий круг читателей, инте­ресующихся современными информационными технологиями, хочется верить, что она будет также полезна и аналитикам, которые с помощью методологии Text Mining или отдельных ее компонентов смогут повысить эффективность и качество своей работы.

Введение

К

оличество информации, обрушивающейся на человека в современном ми­ре, обусловливает актуальность задачи отделения действительно важных сведений от информационного шума. Человек, группа людей, информационная служба, профессиональные эксперты-аналитики уже не могут пропускать через себя потоки информации, которые изливаются на них сегодня электронными медиа. Зачастую даже опытные эксперты не могут выделить главного, не на­ходят сведений, необходимых для принятия решений, в результате чего дейст­вия как отдельных людей, так и коллективов или даже государств становятся неадекватными реальной обстановке.

Таким образом, самая главная проблема современных коммуникаций — это извлечение действительно ценных сведений из информационных потоков; дру­гими словами, получение знаний из информации.

Обилие информации уже давно воспринимается как нечто само собой разу­меющееся. Количественные оценки ее суммарного объема как таковые вряд ли могут стать поводом для особых размышлений. Но если подобные показатели подвергнуть структурному анализу, то полученные результаты могут оказаться весьма неожиданными.

Возьмем, к примеру, исследование изменения объема информации в мире за год [54]. С 2000 года оно проводится в Калифорнийском университете в Беркли под руководством профессоров Питера Лаймана и Хода Вэриена. Ученые пришли к выводу, что на протяжении трех лет, предшествующих 2002 году, количество информации, произведенной человечеством, удвоилось. А в самом 2002 году в мире было произведено пять экзабайт (миллионов терабайт) информации. Для сравне­ния приведем данные об объеме фонда библиотеки Конгресса США, где хранится 19 млн книг и 56 млн рукописей: он составляет около десяти терабайт информа­ции. В упомянутом исследовании информация структурировалась по типам но­сителей. Оказалось, что лидерство прочно удерживают магнитные носители, до­ля которых превышает 90%. Из них большую часть составляют жесткие диски. На кино, фото, печатные издания и другие бумажные документы вместе с опти­ческими цифровыми носителями приходится лишь 7% информации.

Очевидно, что лишь человеческого опыта в данной информационной ситуации становится уже недостаточно. Сама среда поступления информации определяет и возможные реальные подходы к ее обработке. Только мощные возможности информационной техники — компьютеров, сетей — в совокупности со специаль­ным программным обеспечением могут оказаться той панацеей, которая спасет нас от информационного хаоса. В свое время казались очень перспективными системы искусственного интеллекта, экспертные системы со своими парадигма­ми фреймов и правил — баз знаний. То ли в 80-х годах двадцатого столетия не до конца сформировалась общественная потребность в широком использовании таких систем, то ли недостаточными были мощности компьютеров, то ли не до­работаны были теоретические и алгоритмические основы таких систем, но бум их популярности в конце 80-х годов закончился. За прошедшее с тех пор время наряду с бурным технологическим процессом (до сих пор не опровергнут закон Мура) сложилось понимание того, что для решения проблемы информационного хаоса больше всего подходят технологии, порожденные некогда таким направле­нием, как контент-анализ, и сегодня получившие названия Data Mining и Text Mining. В настоящее время существуют достаточно развитые системы, реали­зующие эти направления. Практически все самые известные производители про­граммного обеспечения предлагают на рынке системы глубинного анализа дан­ных и текстов (у компании Oracle — это Oracle Text, у IBM — Intelligent Miner for Text, у SAS — Text Miner).

Следует отметить, что большая часть информационного потока — это не­структурированная текстовая информация, в то время как значительная часть электронной информации, порожденной путем использования современных СУБД, — это численные фактографические данные. Если обработка таких данных позволяет использовать уже отработанные методы и погружать потоки данных в СУБД, то задача анализа текстовой информации открывает широкое поле для применения новейших методик и технологий, таких как XML, лингвистические, эмпирические, статистические подходы. В настоящее время уже определено не­сколько задач, стоящих перед технологией Text Mining, — это автоматическая классификация, кластеризация, выявление смысловых взаимосвязей отдельных фрагментов и понятий, выраженных в тексте, а также составление осмысленных рефератов, резюмирующих знания, содержащиеся в текстовых массивах больших объемов. Возможно, эти технологические подходы в случае массового применения смогут облегчить ориентацию человека в постоянно расширяемом информацион­ном поле, позволят ему адекватнее реагировать на происходящие события, уве­ренно принимать важные решения на основе концентрации знаний.

Развитие вычислительной техники и компьютерных сетей способствовало по­явлению систем, назначение которых — поиск в массивах полнотекстовых до­кументов. К таким документам можно отнести, например, статьи, нормативные акты, реферативные описания, тексты брошюр, диссертаций, монографий. До определенного времени полнотекстовые информационно-поисковые системы ис­пользовались преимущественно специалистами, круг которых был не очень ши­рок, — архивные работники, сотрудники библиотек, ученые, аналитики.

Появление и развитие сети Internet в корне изменило ситуацию. Сегодня ин­формационные ресурсы Сети составляют около десяти миллиардов документов (Web-страниц), к которым возможен свободный доступ любого пользователя. Ес­тественно, чтобы найти необходимую информацию в этой крупнейшей полнотек­стовой базе данных, необходимо использовать очень мощные поисковые средства, которые в зачаточном состоянии уже существуют, развиваются и конкурируют друг с другом на рынке информационных технологий.

Сегодня миллионам пользователей Internet известны такие системы, как Google, Yahoo, AllTheWeb, AltaVista, каждая из которых охватывает несколько миллиардов Web-документов. Мы стали свидетелями "информационного взры­ва", в результате которого менее чем за 10 лет мало кому известная технология полнотекстового поиска стала повседневным инструментом миллионов людей.

В связи с этим первая глава книги — "New Media" — посвящена Internet и ее информационному подпространству World Wide Web. В этой главе описывается топология этого подпространства, а также средства навигации в нем и эволюция этих средств — от простейших наборов ссылок и каталогов до многофункцио­нальных порталов.

Вторая глава посвящена поисковым системам, процессу поиска информации и его отдельным звеньям, а также включает трактовки таких фундаментальных понятий информационного поиска, как полнота и релевантность. Кроме того, эта глава содержит информацию о практической стороне использования процедур поиска, особенностях формирования запросов к различным информационно-поисковым системам с использованием слов, словоформ, фрагментов текстов, а также о поиске с учетом структуры документов, морфологии, подобия.

Третья глава охватывает вопросы ориентации в новостной информации, пред­ставленной в Сети. Для такого поиска используется специальный класс инфор­мационно-поисковых систем — системы мониторинга контента Internet, на осно­ве которых строятся современные службы синдикации новостей.

Вопросам современного унифицированного представления информации в пер­спективном формате гипертекстовой разметки XML, а также технологическим решениям, построенным на основе идеологии XML, посвящена четвертая глава "XML — язык разметки и модель данных".

Технологиям выявления знаний в текстовых массивах с использованием как классических, так и новых, интеллектуальных подходов к анализу информации посвящена пятая глава "Технология Text Mining".

Шестая глава посвящена очень популярному сегодня направлению использо­вания технологии Text Mining — конкурентной разведке, которая заключается в сборе и аналитической обработке информации, необходимой для принятия оп­тимальных управленческих решений. Очень важно, что при этом конкурентная разведка выполняется строго в рамках правовых норм.

Седьмая, заключительная, глава книги содержит обзор общих закономерностей, присущих информационным системам, в частности таких, как правило Парето, законы Зипфа и Брэдфорда и так далее, что должно дать читателю некоторое обобщенное представление о тенденциях и подходах, обсуждаемых в книге.

Дмитрий Ландэ, сентябрь 2004 года


  1   2   3   4   5   6   7   8   9   ...   30

Добавить документ в свой блог или на сайт

Похожие:

Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconРабочая программа дисциплины «Web-дизайн»
Целью дисциплины является научить студентов технологии Web-дизайна и Internet-программирования. В результате изучения дисциплины...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПрограмма по формированию навыков безопасного поведения на дорогах...
Обучающая: дать представление основных понятий Web – сервер, Web – сайт, Web – страница, гиперссылка, тег, структура html – документа,...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПлан урока по теме: «Web-страницы и web-сайты. Структура web-страницы.»...
Обучающая организовать деятельность учащихся по изучению новой темы; ознакомить учащихся с понятием сайта, структурой web- страницы,...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИнтернет-технологии и Web-дизайн
...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИнформатики и радиоэлектроники
«Интерфейсы. Реализация нескольких интерфейсов с одним и тем же методом. Понятие Web-сервиса. Инфраструктура Web-сервиса. Взаимодействие...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconФакультет информационных технологий
Веб 0, в противовес «старому» Веб «Web 0» не является чем-то революционным, а лишь продолжает использовать технологии и концепции...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПрограмма элективного курса по информатике и икт «Создание Web-сайтов»
Умение представлять информацию в виде, удобном для восприятия и использования другими людьми – одно из условий образовательной компетентности...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПроекта: Разработка Web-приложений
Разработка web-приложений, бизнес процесс разработки web-приложения, cms drupal, создание сайта кафедры
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon99 сайтов с картинками
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconТворческий проект
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИстория россии
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconМатериально-техническое обеспечение
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИзучение информатики в старшей школе направлено на достижение следующих целей
В данном проекте рассматривается создание Web страниц с помощью html кода. Он может быть использован для изучения темы "Создание...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПриложение №1 Исторические стили в интерьере
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconАдреса патентных ведомств и других бд в internet
В случаях, когда нужно провести поиск зарубежных патентов, следует обращаться к национальным базам данных. В настоящее время открыты...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПоложение об учебном кабинете начального образования общеобразовательной школы
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск