Web 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet





НазваниеWeb 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet
страница4/30
Дата публикации29.11.2014
Размер5.03 Mb.
ТипРеферат
100-bal.ru > Информатика > Реферат
1   2   3   4   5   6   7   8   9   ...   30

1.8. "Скрытый" Web

1.8.1. Очередной феномен Internet

В Internet информации куда больше, чем можно найти с помощью традици­онных информационно-поисковых систем. Чаще всего пользователь выходит на необходимые ему новые источники в Сети через поисковые системы-брэнды, ставшие для многих "де-факто" стандартными. Однако, кроме видимой для поисковых систем части Web-пространства, существует огромное количество страниц, которые ими не охватываются. При этом доступ пользователя к таким ресурсам в принципе возможен (хотя иногда "слегка прикрыт" паролями). Как правило, эти Web-страницы доступны в Internet, однако выйти на них трудно, а порой невозможно, если не знать точного адреса. Эти ресурсы уже десять лет как имеют собственное название — "скрытый" (deep) Web [71], которое ввел Джилл Иллсворт (Jill Ellsworth) в 1994 году, обозначив им источники, недос­тупные для обычных поисковых систем. Сегодня такие ресурсы называют также "невидимым" (invisible) Web. Они чаще всего охватывают динамически форми­руемые Web-страницы, содержание которых хранится в базах данных и доступ­но лишь по запросам пользователей.

В 2000 году американская компания BrightPlanet (www.brightplanet.com) опубликовала сенсационный доклад, в котором утверждается, что в Web-пространстве в сотни раз больше страниц, чем их удалось проиндексировать са­мыми популярными поисковыми системами. Эта же компания разработала про­грамму LexiBot, которая позволяет сканировать некоторые динамические Web-страницы, формируемые из баз данных, и, запустив ее, получила неожиданные данные. Выяснилось, что для традиционных поисковых систем огромная часть Сети просто невидима (рис. 1.9).

Напомним, что в ноябре 1999 года Андрей Бредер и его соавторы из компа­ний AltaVista, IBM и Compaq разработали структурную модель ресурсов и гипер­связей Web, опровергнув мнение, что Internet — это единое связное пространство. Мы уже обсуждали выше топологию этой модели, получившей название Bow Tie. Здесь же мы еще раз остановимся на "островах", которые не пересекаются с остальными ресурсами Сети. Единственный способ обнаружить ресурсы этой группы — точно знать их адрес. Поисковые машины в принципе не находят этих островов, если они в прошлом каким-то образом не соединялись с другими частями Internet. Именно этот факт объясняет недостатки модели БреДера — он исследовал в основном страницы открытого (поверхностного) Web, к тому же от­бирая их, видимо, не совсем случайно. Поэтому, если процентное соотношение первых четырех составляющих "поверхностного" Web можно признать верным, "острова" в реальности будут более объемными, чем в модели. Согласно исследова­ниям компании BrightPlanet, число скрытых (но не секретных) Web-страниц во много раз превышает количество видимых. Доступные сегодня посредством тради­ционных информационно-поисковых систем 10 млрд Web-страниц — это лишь ви­димая крупица. Непознанных, скрытых ресурсов Сети в сотни (!) раз больше. Это, прежде всего, динамически генерируемые страницы, файлы нераспознаваемых по­исковыми системами форматов, информация из многочисленных баз данных. В результате исследований также было выявлено немало интересных особенностей "скрытого" Web. Так, например, известно, что средняя его страница на 27% ком­пактнее средней страницы из поверхностной части Web-пространства.

1.8.2. Типы скрытых ресурсов

Для того чтобы определить, какие из ресурсов невидимы для поисковых сис­тем, следует рассмотреть принцип работы типового индексатора-робота таких систем. Эти программы-роботы, как правило, посещают Web-страницы по из­вестным заранее адресам, анализируют их содержание и выделяют гиперссылки, идущие от них. Обычно, обработав текущую страницу, выделив ключевые слова и некоторые поля, робот переходит по адресам, найденным на ней, сканирует последующие страницы, выделяет новые адреса и т.д. Обычно, если робот опре­деляет, что в данный момент обращается к динамической странице, он останав­ливает свою работу. Эта тактика выбрана в предположении, что чаще всего для получения осмысленного ответа из баз данных требуется осмысленный запрос, а большинству из роботов чужды элементы интеллекта, даже искусственного. В результате "скрытый" Web охватывает в первую очередь содержимое он­лайновых баз данных, доступных в сети. Динамической является и быстро об­новляемая информация — новости, конференции, он-лайновые журналы.

Конечно, есть и явные "острова" по Бредеру, на которые не указывают никакие гиперссылки и от которых никаких гиперссылок не исходит. Защищенные пароля­ми коммерческие Web-сайты также попадают в категорию "скрытого" Web — о ма­териалах этих сайтов большинство пользователей никогда не узнают лишь с помо­щью поисковых систем. Однако относительное количество таких сайтов невелико. Например, среди крупнейших сайтов "скрытого" Web платными являются только 10% ресурсов, хотя именно они включают важнейшие издательства и базы данных.

Основатель BrightPlanet Майкл Бергман (Michael К. Bergman) выделил 12 раз­новидностей "скрытых" Web-ресурсов (www.leidenuniv.nl/ub/biv/specials.htm), относящихся к классу он-лайновых баз данных. В списке оказались как тради­ционные базы данных (патенты, медицина и финансы), так и публичные ресур­сы — объявления о поиске работы, чаты, библиотеки, справочники. Бергман причислил к "скрытым" ресурсам и специализированные поисковые системы, которые обслуживают определенные отрасли или рынки, базы данных которых не включаются в глобальные каталоги традиционных поисковых служб.

К "скрытому" Web также относятся многочисленные системы интерактивного взаимодействия с пользователями — системы помощи, консультирования, обу­чения, требующие участия людей для формирования динамических ответов от серверов. К ним также можно отнести и закрытую (полностью или частично) информацию, доступную пользователям Сети только с определенных адресов, групп адресов, иногда городов или стран. К "скрытой" части Сети многие при­числяют и Web-страницы, зарегистрированные на бесплатных серверах, которые индексируются, в лучшем случае, лишь частично — поисковые системы во из­бежание рекламного спама не стремятся обходить их в полном объеме.

Недавно появилась категория так называемых "серых" сайтов, функциони­рующих на основе динамических систем управления контентом (Dynamic Content Management Systems). В поисковых системах обычно ограничивается глубина индексирования таких сайтов во избежание возможного циклического просмотра одних и тех же страниц.

И конечно же, "скрытыми" оказываются и Web-сайты, создатели которых не оповещают кого-либо о создании этих ресурсов.

Безусловно, основной формат данных, с которым работают традиционные по­исковые системы в Internet, — это HTML, причем статическая его часть. С дру­гими форматами у многих поисковых систем имеются различные проблемы. К примеру, наличие различных версий формата PDF (Adobe Portable Document Format), а также особенности хранения инкапсулированных графических изо­бражений заставляют считать сетевые ресурсы, представленные в этом формате, "скрытыми". Тем не менее некоторые современные поисковые системы уже вполне сносно индексируют документы в PDF-формате. К "скрытым" форматам принято относить также и Flash, широко использующийся для обеспечения ви­зуальных эффектов на Web-сайтах.

Кроме того, для нашего пользователя наверняка "скрытой" можно при­знать большую часть гигантского китайского сегмента Internet. Например, малопопулярный в Европе и Америке китайский поисковый портал Baidu (www.baidu.com) в 2004 году опередил Google по объему трафика и стал четвер­тым в мире Web-ресурсом по этому показателю. Еще одна китайская поисковая система, 372l.com, заняла седьмое место. Эти данные по ранжированию привела исследовательская компания Alexa, речь о которой пойдет ниже. Портал Baidu.com стал крупнейшей в мире поисковой системой на китайском языке и охватывает более 95% китайских пользователей Сети.

1.8.3. Базы данных "скрытой" Сети

Пожалуй, самыми большими из известных ресурсов "скрытого" Web являют­ся базы данных служб Dialog и LexisNexis.

Одной из крупнейших мировых служб информационного поиска является американская компания Dialog (http://www.dialog.com), созданная при под­держке NASA и до 1988 года принадлежавшая аэрокосмической фирме Lockheed. Сегодня Dialog принадлежит корпорации Thomson (США) — одному из всемирных лидеров в области предоставления интегрированных информаци­онных решений (рис. 1.10). Корпорация Thomson имеет свыше 20 миллионов пользователей в 130 странах мира.



Рис.1.10. Сайт службы Dialog

Сервисом компании Dialog также пользуются в более чем 100 странах мира. Образованная в 1965 году как первая в мире он-лайновая информационно-поисковая служба, Dialog фактически определила современные стандарты управления информацией. На сегодняшний день она включает такие продукты и сервисы, как Dialog®, Dialog Profound®, Dialog DataStar®, Dialog NewsEdge® и Dialog Intelliscope, которые обеспечивают доступ к более 1,4 млрд документов через Internet или сети intranet. При этом в компании Dialog определяют свои ресурсы как часть "скрытого" Web (Deep Web), заявляя, что содержат полезной, не дублирующейся информации в 500 (!) раз больше, чем доступно с помощью традиционных информационно-поисковых систем. Коллекция баз данных служ­бы Dialog содержит 900 баз данных, доступных 700 000 пользователям, которые только за один час прочитывают свыше 17 млн документов из этих баз данных.

Основанная, в 1973 году, крупнейшая в мире он-лайновая служба LexisNexis (ht'tp: //www. lexisnexis. com) предоставляет своим пользователям юридиче­скую, политическую, коммерческую, новостную, регистрационную и другую ин­формацию (рис. 1.11). С 1979 года система баз данных LexisNexis — первая в мире служба полнотекстового поиска. В настоящее время эта служба охваты­вает свыше 35 000 источников информации, содержащих в совокупности более 4,6 млрд документов с глубиной ретроспективы до 200 лет. Каждый час в базы данных LexisNexis добавляется 57 500 документов. LexisNexis представлена се­годня в 20 странах, пользователи сервиса находятся в более чем 100 странах. К коммерческим базам данных "скрытого" Web можно отнести и информаци­онные ресурсы крупнейших мировых информационных агентств, уже много лет работающих на рынке финансовой информации, таких как Reuters, Tenfore, Dow Jones Telerate, Bloomberg.

С другой стороны, в "скрытом" Web существует множество альтернатив ком­мерческим базам данных. Среди них, например, сайт www.lOkwizard.com, пред­лагающий доступ к полным текстам корпоративных документов, хранящихся в Комиссии США по ценным бумагам и биржам. Существуют тысячи баз данных "скрытого" Web, свободно доступные для пользователей, но чаще всего не охва­тываемые традиционными поисковыми системами.

Приведем еще несколько примеров.

  1. Educator's Reference Desk (http://www.askeric.org)— этот ресурс со­держит свыше двух тысяч учебных планов, несколько тысяч ссылок на образовательные документы, а также ссылки, представляющие собой за­просы к архиву. С этого сайта обеспечивается доступ к базе данных ERIC — крупнейшему источнику информации по проблемам образования, а также к полнотекстовым дайджестам, составляемым экспертами.

  2. Nuclear Explosions Database (http://www.ga.gov.au/oracle/ nukexp_query.html) — австралийская база данных по географии. Для работы с системой достаточно перейти в режим "Online Tools", после чего будет представлен список баз данных и карт.

  1. PubMed (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi) — с ресур­са обеспечивается доступ к свыше 14 млн ссылок системы MEDLINE, включая ссылки на полные тексты статей и информационные ресурсы. Имеется возможность перехода к службе PubMed Central (PMC), к свобод­но доступному архиву статей (свыше 90 тысяч) из научных журналов. Обеспечивается также доступ к глобальной поисковой системе NCBI, охва­тывающей базы данных по естествознанию.

  2. LookSmart's FindArticles (http://www.findarticles.com) — база данных FindArticles — доступный через Web-интерфейс архив, содержащий 2,8 млн статей из более чем 500 источников, накапливаемый с 1998 года.

1.8.4. Сталкеры в скрытом пространстве

"Скрытый" Web представляет собой гигантский репозитарий документов, зву­ков, изображений, фильмов и т.п. Безусловно, если большая часть этой информа­ции не доступна традиционным поисковым системам, то существует потребность в специальных инструментах поиска "скрытого" контента. Эти инструменты вклю­чают каталоги, метапоисковые сайты, доступные через Web базы данных, а также большое количество глобальных, региональных и специальных поисковых систем.

Для поиска в "скрытой" Сети, а именно в том ее сегменте, который состав­ляют базы данных, сегодня уже существуют некоторые специализированные ре­сурсы. Среди них, например, системы BigHub (www.bighub.com) и Invisible Web (www.invisible-web.net) компании IntelliSeek (рис. 1.12).

Сайт Invisible Web включает в себя каталог баз данных, большинство из ко­торых не проиндексированы известными поисковыми машинами. При введении запроса этот сайт выдает ссылки на ресурсы, с помощью которых поиск необхо­димой информации станет наиболее оптимальным. На этом сайте Криса Шерма-на (Chris Sherman) и Гари Прайса (Gary Price) собраны коллекции ссылок на раз­личные базы данных, среди которых содержится немало уникальных ресурсов — например, сборник спичей политиков и бизнесменов. Программный пакет BullsEye компании IntelliSeek осуществляет поиск более чем в 800 сетевых ресурсах.

Лидером среди навигаторов в "скрытом" Web является сайт CompletePlanet (www.completeplanet.com) компании BrightPlanet. Этот сайт является крупней­шим каталогом, насчитывающим свыше 100 тыс. ссылок. Компания BrightPlanet также создала персональную утилиту для поиска в он-лайновых базах данных — LexiBot, которая может обеспечивать поиск в нескольких тысячах поисковых систем "скрытого" Web. Метапоисковый пакет DeepQueryManager (DQM) этой же компании обеспечивает поиск по 55 тыс. "скрытых" Web-ресурсов.

Сайт Direct Search (http: //www. freepint. com/gary/direct.htm), созданный Гари Прайсом, также обеспечивает поиск в базах данных "скрытого" Web. На сайте содержится ссылка на лучшие ресурсы ценовой информации (MySimon.com), финан­совой информации (FinancialFind.com), а также ссылки на информацию из научно-популярных журналов и научных баз данных по биотехнологиям (Biolinks.com).

В Internet есть и другие сайты-навигаторы, а также специализированные про­граммы поиска. Например, поисковая система по университетским архивам, библио­текам и книгам — Infomine Multiple Database Search (http://infomine.ucr.edu/ search.phtml); каталог информационных сайтов, которые уникальны в своих областях, — BUBL LINK (bubl.ac.uk/link); полнотекстовый поиск по содер­жанию всех книг — Amazon.com.

Особенность большинства "скрытых" ресурсов — в их узкой специализации. Для поиска в них используются те же механизмы, что и для "поверхностного" Web, однако чаще всего роботы поисковых систем для "скрытого" Web включа­ют уникальные для каждого такого ресурса модули доступа к данным.

1.8.5. "Скрытый" Web в каталогах

Каталоги, как глобальные, так и специальные, могут содержать ссылки на "скрытые" ресурсы, прежде всего базы данных. Приведем несколько самых из­вестных примеров.

  1. Портал WebData.com на первый взгляд ничем не отличается от других по­добных ресурсов, однако содержит гиперсылку "Add Your Database" (добавить Вашу базу данных), говорящую о том, что на данном портале можно зарегистрировать базу данных — часть "скрытого" Web.

  2. Librarians' Index to the Internet (http://lii.org) — каталог, содержащий свы­ше 14 000 Internet-ресурсов. LII также включает ссылки на "скрытые" в Web-пространстве базы данных. У владельцев таких баз данных есть возможность поместить соответствующую гиперссылку в этом каталоге на свой ресурс (в LII есть ссылка "and databases" (добавить базу данных).

  3. FindLaw (http://www.findlaw.com) — один из наиболее популярных в мире юридических Web-сайтов, представляющий собой огромный каталог правовых ресурсов, содержащий аннотированный список свободно доступ­ных баз данных нормативно-правовых документов, для которых данный ресурс является "точкой входа".

  1. InfoMine (http://infomine.ucr.edu)— ресурс, содержащий ссылки на 120 000 документов, представленных в 9 аннотированных базах данных. Этот каталог позиционирует себя как "виртуальную библиотеку Internet-ресурсов", ориентированную на студентов и исследователей-профессионалов.

  2. About.com (http://www.about.com)— портал, охватывающий тысячи снабженных комментариями ссылок на Web-ресурсы, в том числе и на ре­сурсы "скрытого" Web (имеется ссылка "Invisible Web"). На портале предос­тавляется возможность поиска в каталоге. Ресурс также включает несколько статей по проблематике "невидимого" Web: "What is the Invisible Web?", "Finding the Invisible Web", "Top Places to Search the Invisible Web" и др.

К разряду каталогов можно также отнести следующие коллекции ссылок, поисковые системы и "скрытые" базы данных.

  1. Direct Search (http://www.freepint.com/gary/direct.htm)— ресурс, содержащий ссылки на ресурсы "скрытого" Web. Например, присутствует ссылка на сайт ResourceShelf (http://www.resourceshelf.com), обеспе­чивающий поиск в блогах (сетевых журналах) и новостных сообщениях.

  2. The Invisible Web Directory (http://www.invisible-web.net)— Web-сайт Шермана и Прайса (Chris Sherman & Gary Price), соавторов термина "Invisible Web".

  3. Profusion (http://www.profusion.com) — сайт компании Intelliseek, пер­вой создавшей каталог "невидимого" Web InvisibleWeb.com. ProFusion; это модифицированная метапоисковая система, позволяющая выбирать области поиска в "вертикальных" (тематических) разрезах.

  4. CompletePlanet (http://www.completeplanet.com)— сайт корпорации BrightPlanet Corporation, который охватывает свыше 70 000 поисковых баз данных и специальных поисковых систем.

1.8.6. Системы поиска в "скрытом" Web

Традиционная поисковая система чаще всего может выдать адрес базы данных, но не укажет, какие конкретно документы содержатся в ней. Типичный пример — информационно-поисковые системы по украинскому (http: //www /rada.gov.ua) или российскому (http://www.kodeks.ru) законодательству. Тысячи докумен­тов из баз данных становятся доступны только после входа в систему, а роботы стандартных поисковых систем не в состоянии заиндексировать контент баз дан­ных. Многие поисковые системы, как глобальные, так и локальные, описаны на сайтах Search Engine Watch (http://www.searchenginewatch.com) и Search Engine Showdown (http://www.searchengineshowdown.com). На этих сайтах приведены, среди прочих, и поисковые системы "скрытого" Web.

• Sirigingfish (http://www.singingfish.com)— эта поисковая система
обеспечивает поиск аудио- и видеофайлов, представленных на Web-сайтах.

  1. Scirus (http://www.scirus.com) — поисковая система по представленным в Internet научным материалам, включая статьи из журналов и отчеты. Со страницы расширенного поиска (Advanced Search) доступны многочислен­ные тексты из баз данных EBSCO и ProQuest.

  2. UFOSeek (http://www.ufoseek.com) — поисковая система по материалам о паранормальных явлениях и НЛО.

Качественный и полноценный поиск информации в "скрытом" Web возможен и с использованием таких специализированных коммерческих баз данных, как Dialog, ProQuest, Web of Science. Но эти базы данных, ввиду своей платности, сами являются объектами "скрытого" Web.

1.8.7. Информация в различных форматах

Информация, представленная в форматах, отличных от HTML, для многих поисковых систем оказывается недоступной, хотя сегодня ситуация меняется в корне. Например, популярная система Google (http://www.google.com) уже обеспечивает поиск в документах, представленных в форматах MS PowerPoint, DOC, RTF, Postscript, PDF, а также обеспечивает преобразование этих файлов в текстовый формат. Поиск документов разнообразных форматов доступен в этой системе как из режима расширенного поиска в Google (Advanced Search), так и из "простого" поиска — достаточно использовать в запросе команду "filetype:", уточнив поиск выражением "filetype:pdf".

Знаменитая служба Yahoo! сегодня уже не только каталог, но и полно­функциональная поисковая система. Поисковая система Yahoo! Search (http://www.yahoo.com), как и Google, обеспечивает выдачу текстовых копий документов, размещенных в Internet в форматах Word, Excel, PowerPoint и PDF, а также RSS/XML-фидов (новостных лент и блогов — "живых журналов").

Специализированная система Gigablast (http://www.gigablast.com) предна­значена исключительно для поиска по документам в форматах Word, Excel и PDF. Эта система выдает по запросу кэшированные (архивные) копии документов в ис­ходных форматах, при этом обеспечивает булевый поиск и выдачу версионных ко­пий документов, которые были размещены в Сети, но затем, возможно, удалены.

1.8.8. Скрытые новостные ресурсы

Текст новостей тоже традиционно относился к "скрытой" Сети, однако в последние годы все крупнейшие поисковые сайты разработали эффектив­ные инструменты поиска оперативно обновляемых новостных сообщений — это, например, " flndex.Новости" (http://news.yandex.ru), Google News (http://news.google.com) или Uaport (http://uaport.net/UAnews). Служба Google News автоматически собирает новости из нескольких тысяч источников, обновляя свои базы данных каждые 15 минут. Существуют и другие зарубежные службы интеграции новостей, например NewsIsFree, Topix.net и Daypop (www.daypop.com). В России крупнейшими интеграторами но­востей являются системы Integrum (http://www.integrum.ru) и Webscan (http://www.webscan.ru), в Украине— InfoStream (http://infostream.ua) и WebObserver (http://webobserver.info).

Многие сайты на своих страницах публикуют новости, как собственные, кор­поративные, так и общеотраслевые. Если на сайте не реализован статический механизм архивации старых сообщений, то, даже будучи помещенными в архив, доступный из Internet, эти сообщения рискуют оказаться в зоне "скрытого" Web. Материалы публикаций попадают в разряд "невидимого" Web и в том случае, если они защищены паролями как средствами обеспечения оплаты или просто сбора статистики о читателях. Многие аналитики (в частности, аналитик IDC Джеймс Левин) признают, что для изданий значительно выгоднее публиковать усеченную бесплатную версию своих материалов — это обеспечит их популяр­ность в Internet, попадание изданий в индексы популярных поисковых систем.

1.8.9. "Скрытый" архив "поверхностного Web

Парадоксально, но как один из ресурсов "скрытого" Web можно рассматри­вать и архив ресурсов открытого Web-пространства. Такой архив — Internet Archive — с 1996 года создает компания Alexa (www.alexa.com). Сегодня объем базы данных Alexa превышает 500 Тбайт. Новые страницы в настоящее время попадают в хранилище со скоростью 1 Тбайт в день. Технология хранилища Alexa включает ряд современных средств управления гигантским документаль­ным хранилищем. Например, с помощью технологии Alexa выполняется класте­ризация Web-ресурсов, т.е. формирование коллекций документов, близких по тематикам. Особый интерес у пользователей сервиса Alexa вызывает "Машина времени" (Wayback Machine), открывающая доступ к временным срезам Web-пространства. Одно из наиболее интересных практических применений этой технологии — восстановление документов, некогда опубликованных в Web-пространстве, но впоследствии удаленных. При этом рост "скрытого" Web грозит серьезными пробелами в хранилище системы, связанными с увеличивающимся количеством сайтов, эксплуатирующих различные технологии управления кон­тентом, динамической публикацией документов из баз данных и т.п.

Аналогичный проект— Informedia (www.informedia.com), но относящийся только к одному типу информации (аудиовизуальной), разрабатывается в ин­ституте Карнеги Меллона. Informedia появился в 1996 году в рамках инициати­вы Digital Library Initiative. С тех пор к проекту в роли спонсоров присоедини­лись многие компании, в том числе Microsoft, Intel, CNN, Boeing и даже Visa. В рамках проекта разрабатываются технологии распознавания образов и речи.

1.8.10. Подходы к решению проблемы "скрытого" Web

Чем быстрее растет Web-пространство, тем хуже оно охватывается традици­онными каталогами и поисковыми машинами. Ввиду роста количества Web-сайтов и порталов, использующих в своей работе хранящуюся в базах данных информацию, динамических систем управления контентом, появлением новых версий форматов представления информации, "скрытый" сегмент Web растет очень интенсивно. С одной стороны, Internet как огромное хранилище увеличи­вает объем информации, доступной "в принципе", но с другой стороны — растет информационный хаос, увеличивается энтропия сетевого информационного про­странства. Все меньшая часть информационных ресурсов становится доступной пользователям реально. Объем "скрытого" Web, содержащего полезную для пользователей, но слабодоступную информацию, в сотни раз превышает "поверхностную" часть. Иными словами, традиционные средства охвата инфор­мационных ресурсов не справляются с задачей поиска большей части информации. Эффективными оказываются лишь тематические каталоги и поисковики — сталкеры в мире "скрытого" Web.

Спасти ситуацию могут и новые возможности унификации обмена информа­цией в Internet. Одним из первых проектов консорциума W3C в этой области стал "Семантический Web", речь о котором пойдет ниже. Основная идея проекта заключается в следующем: Web-серверы должны не только визуализировать, но и использовать данные, чтобы программы разных производителей могли эффек­тивно работать с контентом.

Для решения задачи интеграции новостной информации было создано несколь­ко форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary. Сегодня экспорт данных в формате RSS осуществляют крупнейшие порталы, включая CNN, ВВС News, Amazon, CNet News, MSNBC, The Register, Wired и т.д.

Аналитики отмечают, что только в начале 2004 года пользователи Internet по-настоящему открыли для себя технологию RSS. Сегодня для работы с данны­ми в формате RSS разрабатываются все новые программы, сайты и поисковые системы, которые все более востребованы пользователями. Эти программы при­открывают завесу над динамично обновляемой частью "скрытого" Web.

1   2   3   4   5   6   7   8   9   ...   30

Похожие:

Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconРабочая программа дисциплины «Web-дизайн»
Целью дисциплины является научить студентов технологии Web-дизайна и Internet-программирования. В результате изучения дисциплины...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПрограмма по формированию навыков безопасного поведения на дорогах...
Обучающая: дать представление основных понятий Web – сервер, Web – сайт, Web – страница, гиперссылка, тег, структура html – документа,...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПлан урока по теме: «Web-страницы и web-сайты. Структура web-страницы.»...
Обучающая организовать деятельность учащихся по изучению новой темы; ознакомить учащихся с понятием сайта, структурой web- страницы,...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИнтернет-технологии и Web-дизайн
...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИнформатики и радиоэлектроники
«Интерфейсы. Реализация нескольких интерфейсов с одним и тем же методом. Понятие Web-сервиса. Инфраструктура Web-сервиса. Взаимодействие...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconФакультет информационных технологий
Веб 0, в противовес «старому» Веб «Web 0» не является чем-то революционным, а лишь продолжает использовать технологии и концепции...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПрограмма элективного курса по информатике и икт «Создание Web-сайтов»
Умение представлять информацию в виде, удобном для восприятия и использования другими людьми – одно из условий образовательной компетентности...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПроекта: Разработка Web-приложений
Разработка web-приложений, бизнес процесс разработки web-приложения, cms drupal, создание сайта кафедры
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon99 сайтов с картинками
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconТворческий проект
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИстория россии
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconМатериально-техническое обеспечение
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИзучение информатики в старшей школе направлено на достижение следующих целей
В данном проекте рассматривается создание Web страниц с помощью html кода. Он может быть использован для изучения темы "Создание...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПриложение №1 Исторические стили в интерьере
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconАдреса патентных ведомств и других бд в internet
В случаях, когда нужно провести поиск зарубежных патентов, следует обращаться к национальным базам данных. В настоящее время открыты...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПоложение об учебном кабинете начального образования общеобразовательной школы
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск