Скачать 5.03 Mb.
|
1.8. "Скрытый" Web 1.8.1. Очередной феномен Internet В Internet информации куда больше, чем можно найти с помощью традиционных информационно-поисковых систем. Чаще всего пользователь выходит на необходимые ему новые источники в Сети через поисковые системы-брэнды, ставшие для многих "де-факто" стандартными. Однако, кроме видимой для поисковых систем части Web-пространства, существует огромное количество страниц, которые ими не охватываются. При этом доступ пользователя к таким ресурсам в принципе возможен (хотя иногда "слегка прикрыт" паролями). Как правило, эти Web-страницы доступны в Internet, однако выйти на них трудно, а порой невозможно, если не знать точного адреса. Эти ресурсы уже десять лет как имеют собственное название — "скрытый" (deep) Web [71], которое ввел Джилл Иллсворт (Jill Ellsworth) в 1994 году, обозначив им источники, недоступные для обычных поисковых систем. Сегодня такие ресурсы называют также "невидимым" (invisible) Web. Они чаще всего охватывают динамически формируемые Web-страницы, содержание которых хранится в базах данных и доступно лишь по запросам пользователей. В 2000 году американская компания BrightPlanet (www.brightplanet.com) опубликовала сенсационный доклад, в котором утверждается, что в Web-пространстве в сотни раз больше страниц, чем их удалось проиндексировать самыми популярными поисковыми системами. Эта же компания разработала программу LexiBot, которая позволяет сканировать некоторые динамические Web-страницы, формируемые из баз данных, и, запустив ее, получила неожиданные данные. Выяснилось, что для традиционных поисковых систем огромная часть Сети просто невидима (рис. 1.9). Напомним, что в ноябре 1999 года Андрей Бредер и его соавторы из компаний AltaVista, IBM и Compaq разработали структурную модель ресурсов и гиперсвязей Web, опровергнув мнение, что Internet — это единое связное пространство. Мы уже обсуждали выше топологию этой модели, получившей название Bow Tie. Здесь же мы еще раз остановимся на "островах", которые не пересекаются с остальными ресурсами Сети. Единственный способ обнаружить ресурсы этой группы — точно знать их адрес. Поисковые машины в принципе не находят этих островов, если они в прошлом каким-то образом не соединялись с другими частями Internet. Именно этот факт объясняет недостатки модели БреДера — он исследовал в основном страницы открытого (поверхностного) Web, к тому же отбирая их, видимо, не совсем случайно. Поэтому, если процентное соотношение первых четырех составляющих "поверхностного" Web можно признать верным, "острова" в реальности будут более объемными, чем в модели. Согласно исследованиям компании BrightPlanet, число скрытых (но не секретных) Web-страниц во много раз превышает количество видимых. Доступные сегодня посредством традиционных информационно-поисковых систем 10 млрд Web-страниц — это лишь видимая крупица. Непознанных, скрытых ресурсов Сети в сотни (!) раз больше. Это, прежде всего, динамически генерируемые страницы, файлы нераспознаваемых поисковыми системами форматов, информация из многочисленных баз данных. В результате исследований также было выявлено немало интересных особенностей "скрытого" Web. Так, например, известно, что средняя его страница на 27% компактнее средней страницы из поверхностной части Web-пространства. 1.8.2. Типы скрытых ресурсов Для того чтобы определить, какие из ресурсов невидимы для поисковых систем, следует рассмотреть принцип работы типового индексатора-робота таких систем. Эти программы-роботы, как правило, посещают Web-страницы по известным заранее адресам, анализируют их содержание и выделяют гиперссылки, идущие от них. Обычно, обработав текущую страницу, выделив ключевые слова и некоторые поля, робот переходит по адресам, найденным на ней, сканирует последующие страницы, выделяет новые адреса и т.д. Обычно, если робот определяет, что в данный момент обращается к динамической странице, он останавливает свою работу. Эта тактика выбрана в предположении, что чаще всего для получения осмысленного ответа из баз данных требуется осмысленный запрос, а большинству из роботов чужды элементы интеллекта, даже искусственного. В результате "скрытый" Web охватывает в первую очередь содержимое онлайновых баз данных, доступных в сети. Динамической является и быстро обновляемая информация — новости, конференции, он-лайновые журналы. Конечно, есть и явные "острова" по Бредеру, на которые не указывают никакие гиперссылки и от которых никаких гиперссылок не исходит. Защищенные паролями коммерческие Web-сайты также попадают в категорию "скрытого" Web — о материалах этих сайтов большинство пользователей никогда не узнают лишь с помощью поисковых систем. Однако относительное количество таких сайтов невелико. Например, среди крупнейших сайтов "скрытого" Web платными являются только 10% ресурсов, хотя именно они включают важнейшие издательства и базы данных. Основатель BrightPlanet Майкл Бергман (Michael К. Bergman) выделил 12 разновидностей "скрытых" Web-ресурсов (www.leidenuniv.nl/ub/biv/specials.htm), относящихся к классу он-лайновых баз данных. В списке оказались как традиционные базы данных (патенты, медицина и финансы), так и публичные ресурсы — объявления о поиске работы, чаты, библиотеки, справочники. Бергман причислил к "скрытым" ресурсам и специализированные поисковые системы, которые обслуживают определенные отрасли или рынки, базы данных которых не включаются в глобальные каталоги традиционных поисковых служб. К "скрытому" Web также относятся многочисленные системы интерактивного взаимодействия с пользователями — системы помощи, консультирования, обучения, требующие участия людей для формирования динамических ответов от серверов. К ним также можно отнести и закрытую (полностью или частично) информацию, доступную пользователям Сети только с определенных адресов, групп адресов, иногда городов или стран. К "скрытой" части Сети многие причисляют и Web-страницы, зарегистрированные на бесплатных серверах, которые индексируются, в лучшем случае, лишь частично — поисковые системы во избежание рекламного спама не стремятся обходить их в полном объеме. Недавно появилась категория так называемых "серых" сайтов, функционирующих на основе динамических систем управления контентом (Dynamic Content Management Systems). В поисковых системах обычно ограничивается глубина индексирования таких сайтов во избежание возможного циклического просмотра одних и тех же страниц. И конечно же, "скрытыми" оказываются и Web-сайты, создатели которых не оповещают кого-либо о создании этих ресурсов. Безусловно, основной формат данных, с которым работают традиционные поисковые системы в Internet, — это HTML, причем статическая его часть. С другими форматами у многих поисковых систем имеются различные проблемы. К примеру, наличие различных версий формата PDF (Adobe Portable Document Format), а также особенности хранения инкапсулированных графических изображений заставляют считать сетевые ресурсы, представленные в этом формате, "скрытыми". Тем не менее некоторые современные поисковые системы уже вполне сносно индексируют документы в PDF-формате. К "скрытым" форматам принято относить также и Flash, широко использующийся для обеспечения визуальных эффектов на Web-сайтах. Кроме того, для нашего пользователя наверняка "скрытой" можно признать большую часть гигантского китайского сегмента Internet. Например, малопопулярный в Европе и Америке китайский поисковый портал Baidu (www.baidu.com) в 2004 году опередил Google по объему трафика и стал четвертым в мире Web-ресурсом по этому показателю. Еще одна китайская поисковая система, 372l.com, заняла седьмое место. Эти данные по ранжированию привела исследовательская компания Alexa, речь о которой пойдет ниже. Портал Baidu.com стал крупнейшей в мире поисковой системой на китайском языке и охватывает более 95% китайских пользователей Сети. 1.8.3. Базы данных "скрытой" Сети Пожалуй, самыми большими из известных ресурсов "скрытого" Web являются базы данных служб Dialog и LexisNexis. Одной из крупнейших мировых служб информационного поиска является американская компания Dialog (http://www.dialog.com), созданная при поддержке NASA и до 1988 года принадлежавшая аэрокосмической фирме Lockheed. Сегодня Dialog принадлежит корпорации Thomson (США) — одному из всемирных лидеров в области предоставления интегрированных информационных решений (рис. 1.10). Корпорация Thomson имеет свыше 20 миллионов пользователей в 130 странах мира. Рис.1.10. Сайт службы Dialog Сервисом компании Dialog также пользуются в более чем 100 странах мира. Образованная в 1965 году как первая в мире он-лайновая информационно-поисковая служба, Dialog фактически определила современные стандарты управления информацией. На сегодняшний день она включает такие продукты и сервисы, как Dialog®, Dialog Profound®, Dialog DataStar®, Dialog NewsEdge® и Dialog Intelliscope, которые обеспечивают доступ к более 1,4 млрд документов через Internet или сети intranet. При этом в компании Dialog определяют свои ресурсы как часть "скрытого" Web (Deep Web), заявляя, что содержат полезной, не дублирующейся информации в 500 (!) раз больше, чем доступно с помощью традиционных информационно-поисковых систем. Коллекция баз данных службы Dialog содержит 900 баз данных, доступных 700 000 пользователям, которые только за один час прочитывают свыше 17 млн документов из этих баз данных. Основанная, в 1973 году, крупнейшая в мире он-лайновая служба LexisNexis (ht'tp: //www. lexisnexis. com) предоставляет своим пользователям юридическую, политическую, коммерческую, новостную, регистрационную и другую информацию (рис. 1.11). С 1979 года система баз данных LexisNexis — первая в мире служба полнотекстового поиска. В настоящее время эта служба охватывает свыше 35 000 источников информации, содержащих в совокупности более 4,6 млрд документов с глубиной ретроспективы до 200 лет. Каждый час в базы данных LexisNexis добавляется 57 500 документов. LexisNexis представлена сегодня в 20 странах, пользователи сервиса находятся в более чем 100 странах. К коммерческим базам данных "скрытого" Web можно отнести и информационные ресурсы крупнейших мировых информационных агентств, уже много лет работающих на рынке финансовой информации, таких как Reuters, Tenfore, Dow Jones Telerate, Bloomberg. С другой стороны, в "скрытом" Web существует множество альтернатив коммерческим базам данных. Среди них, например, сайт www.lOkwizard.com, предлагающий доступ к полным текстам корпоративных документов, хранящихся в Комиссии США по ценным бумагам и биржам. Существуют тысячи баз данных "скрытого" Web, свободно доступные для пользователей, но чаще всего не охватываемые традиционными поисковыми системами. Приведем еще несколько примеров.
1.8.4. Сталкеры в скрытом пространстве "Скрытый" Web представляет собой гигантский репозитарий документов, звуков, изображений, фильмов и т.п. Безусловно, если большая часть этой информации не доступна традиционным поисковым системам, то существует потребность в специальных инструментах поиска "скрытого" контента. Эти инструменты включают каталоги, метапоисковые сайты, доступные через Web базы данных, а также большое количество глобальных, региональных и специальных поисковых систем. Для поиска в "скрытой" Сети, а именно в том ее сегменте, который составляют базы данных, сегодня уже существуют некоторые специализированные ресурсы. Среди них, например, системы BigHub (www.bighub.com) и Invisible Web (www.invisible-web.net) компании IntelliSeek (рис. 1.12). Сайт Invisible Web включает в себя каталог баз данных, большинство из которых не проиндексированы известными поисковыми машинами. При введении запроса этот сайт выдает ссылки на ресурсы, с помощью которых поиск необходимой информации станет наиболее оптимальным. На этом сайте Криса Шерма-на (Chris Sherman) и Гари Прайса (Gary Price) собраны коллекции ссылок на различные базы данных, среди которых содержится немало уникальных ресурсов — например, сборник спичей политиков и бизнесменов. Программный пакет BullsEye компании IntelliSeek осуществляет поиск более чем в 800 сетевых ресурсах. Лидером среди навигаторов в "скрытом" Web является сайт CompletePlanet (www.completeplanet.com) компании BrightPlanet. Этот сайт является крупнейшим каталогом, насчитывающим свыше 100 тыс. ссылок. Компания BrightPlanet также создала персональную утилиту для поиска в он-лайновых базах данных — LexiBot, которая может обеспечивать поиск в нескольких тысячах поисковых систем "скрытого" Web. Метапоисковый пакет DeepQueryManager (DQM) этой же компании обеспечивает поиск по 55 тыс. "скрытых" Web-ресурсов. Сайт Direct Search (http: //www. freepint. com/gary/direct.htm), созданный Гари Прайсом, также обеспечивает поиск в базах данных "скрытого" Web. На сайте содержится ссылка на лучшие ресурсы ценовой информации (MySimon.com), финансовой информации (FinancialFind.com), а также ссылки на информацию из научно-популярных журналов и научных баз данных по биотехнологиям (Biolinks.com). В Internet есть и другие сайты-навигаторы, а также специализированные программы поиска. Например, поисковая система по университетским архивам, библиотекам и книгам — Infomine Multiple Database Search (http://infomine.ucr.edu/ search.phtml); каталог информационных сайтов, которые уникальны в своих областях, — BUBL LINK (bubl.ac.uk/link); полнотекстовый поиск по содержанию всех книг — Amazon.com. Особенность большинства "скрытых" ресурсов — в их узкой специализации. Для поиска в них используются те же механизмы, что и для "поверхностного" Web, однако чаще всего роботы поисковых систем для "скрытого" Web включают уникальные для каждого такого ресурса модули доступа к данным. 1.8.5. "Скрытый" Web в каталогах Каталоги, как глобальные, так и специальные, могут содержать ссылки на "скрытые" ресурсы, прежде всего базы данных. Приведем несколько самых известных примеров.
К разряду каталогов можно также отнести следующие коллекции ссылок, поисковые системы и "скрытые" базы данных.
1.8.6. Системы поиска в "скрытом" Web Традиционная поисковая система чаще всего может выдать адрес базы данных, но не укажет, какие конкретно документы содержатся в ней. Типичный пример — информационно-поисковые системы по украинскому (http: //www /rada.gov.ua) или российскому (http://www.kodeks.ru) законодательству. Тысячи документов из баз данных становятся доступны только после входа в систему, а роботы стандартных поисковых систем не в состоянии заиндексировать контент баз данных. Многие поисковые системы, как глобальные, так и локальные, описаны на сайтах Search Engine Watch (http://www.searchenginewatch.com) и Search Engine Showdown (http://www.searchengineshowdown.com). На этих сайтах приведены, среди прочих, и поисковые системы "скрытого" Web. • Sirigingfish (http://www.singingfish.com)— эта поисковая система обеспечивает поиск аудио- и видеофайлов, представленных на Web-сайтах.
Качественный и полноценный поиск информации в "скрытом" Web возможен и с использованием таких специализированных коммерческих баз данных, как Dialog, ProQuest, Web of Science. Но эти базы данных, ввиду своей платности, сами являются объектами "скрытого" Web. 1.8.7. Информация в различных форматах Информация, представленная в форматах, отличных от HTML, для многих поисковых систем оказывается недоступной, хотя сегодня ситуация меняется в корне. Например, популярная система Google (http://www.google.com) уже обеспечивает поиск в документах, представленных в форматах MS PowerPoint, DOC, RTF, Postscript, PDF, а также обеспечивает преобразование этих файлов в текстовый формат. Поиск документов разнообразных форматов доступен в этой системе как из режима расширенного поиска в Google (Advanced Search), так и из "простого" поиска — достаточно использовать в запросе команду "filetype:", уточнив поиск выражением "filetype:pdf". Знаменитая служба Yahoo! сегодня уже не только каталог, но и полнофункциональная поисковая система. Поисковая система Yahoo! Search (http://www.yahoo.com), как и Google, обеспечивает выдачу текстовых копий документов, размещенных в Internet в форматах Word, Excel, PowerPoint и PDF, а также RSS/XML-фидов (новостных лент и блогов — "живых журналов"). Специализированная система Gigablast (http://www.gigablast.com) предназначена исключительно для поиска по документам в форматах Word, Excel и PDF. Эта система выдает по запросу кэшированные (архивные) копии документов в исходных форматах, при этом обеспечивает булевый поиск и выдачу версионных копий документов, которые были размещены в Сети, но затем, возможно, удалены. 1.8.8. Скрытые новостные ресурсы Текст новостей тоже традиционно относился к "скрытой" Сети, однако в последние годы все крупнейшие поисковые сайты разработали эффективные инструменты поиска оперативно обновляемых новостных сообщений — это, например, " flndex.Новости" (http://news.yandex.ru), Google News (http://news.google.com) или Uaport (http://uaport.net/UAnews). Служба Google News автоматически собирает новости из нескольких тысяч источников, обновляя свои базы данных каждые 15 минут. Существуют и другие зарубежные службы интеграции новостей, например NewsIsFree, Topix.net и Daypop (www.daypop.com). В России крупнейшими интеграторами новостей являются системы Integrum (http://www.integrum.ru) и Webscan (http://www.webscan.ru), в Украине— InfoStream (http://infostream.ua) и WebObserver (http://webobserver.info). Многие сайты на своих страницах публикуют новости, как собственные, корпоративные, так и общеотраслевые. Если на сайте не реализован статический механизм архивации старых сообщений, то, даже будучи помещенными в архив, доступный из Internet, эти сообщения рискуют оказаться в зоне "скрытого" Web. Материалы публикаций попадают в разряд "невидимого" Web и в том случае, если они защищены паролями как средствами обеспечения оплаты или просто сбора статистики о читателях. Многие аналитики (в частности, аналитик IDC Джеймс Левин) признают, что для изданий значительно выгоднее публиковать усеченную бесплатную версию своих материалов — это обеспечит их популярность в Internet, попадание изданий в индексы популярных поисковых систем. 1.8.9. "Скрытый" архив "поверхностного Web Парадоксально, но как один из ресурсов "скрытого" Web можно рассматривать и архив ресурсов открытого Web-пространства. Такой архив — Internet Archive — с 1996 года создает компания Alexa (www.alexa.com). Сегодня объем базы данных Alexa превышает 500 Тбайт. Новые страницы в настоящее время попадают в хранилище со скоростью 1 Тбайт в день. Технология хранилища Alexa включает ряд современных средств управления гигантским документальным хранилищем. Например, с помощью технологии Alexa выполняется кластеризация Web-ресурсов, т.е. формирование коллекций документов, близких по тематикам. Особый интерес у пользователей сервиса Alexa вызывает "Машина времени" (Wayback Machine), открывающая доступ к временным срезам Web-пространства. Одно из наиболее интересных практических применений этой технологии — восстановление документов, некогда опубликованных в Web-пространстве, но впоследствии удаленных. При этом рост "скрытого" Web грозит серьезными пробелами в хранилище системы, связанными с увеличивающимся количеством сайтов, эксплуатирующих различные технологии управления контентом, динамической публикацией документов из баз данных и т.п. Аналогичный проект— Informedia (www.informedia.com), но относящийся только к одному типу информации (аудиовизуальной), разрабатывается в институте Карнеги Меллона. Informedia появился в 1996 году в рамках инициативы Digital Library Initiative. С тех пор к проекту в роли спонсоров присоединились многие компании, в том числе Microsoft, Intel, CNN, Boeing и даже Visa. В рамках проекта разрабатываются технологии распознавания образов и речи. 1.8.10. Подходы к решению проблемы "скрытого" Web Чем быстрее растет Web-пространство, тем хуже оно охватывается традиционными каталогами и поисковыми машинами. Ввиду роста количества Web-сайтов и порталов, использующих в своей работе хранящуюся в базах данных информацию, динамических систем управления контентом, появлением новых версий форматов представления информации, "скрытый" сегмент Web растет очень интенсивно. С одной стороны, Internet как огромное хранилище увеличивает объем информации, доступной "в принципе", но с другой стороны — растет информационный хаос, увеличивается энтропия сетевого информационного пространства. Все меньшая часть информационных ресурсов становится доступной пользователям реально. Объем "скрытого" Web, содержащего полезную для пользователей, но слабодоступную информацию, в сотни раз превышает "поверхностную" часть. Иными словами, традиционные средства охвата информационных ресурсов не справляются с задачей поиска большей части информации. Эффективными оказываются лишь тематические каталоги и поисковики — сталкеры в мире "скрытого" Web. Спасти ситуацию могут и новые возможности унификации обмена информацией в Internet. Одним из первых проектов консорциума W3C в этой области стал "Семантический Web", речь о котором пойдет ниже. Основная идея проекта заключается в следующем: Web-серверы должны не только визуализировать, но и использовать данные, чтобы программы разных производителей могли эффективно работать с контентом. Для решения задачи интеграции новостной информации было создано несколько форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary. Сегодня экспорт данных в формате RSS осуществляют крупнейшие порталы, включая CNN, ВВС News, Amazon, CNet News, MSNBC, The Register, Wired и т.д. Аналитики отмечают, что только в начале 2004 года пользователи Internet по-настоящему открыли для себя технологию RSS. Сегодня для работы с данными в формате RSS разрабатываются все новые программы, сайты и поисковые системы, которые все более востребованы пользователями. Эти программы приоткрывают завесу над динамично обновляемой частью "скрытого" Web. |
Рабочая программа дисциплины «Web-дизайн» Целью дисциплины является научить студентов технологии Web-дизайна и Internet-программирования. В результате изучения дисциплины... | Программа по формированию навыков безопасного поведения на дорогах... Обучающая: дать представление основных понятий Web – сервер, Web – сайт, Web – страница, гиперссылка, тег, структура html – документа,... | ||
План урока по теме: «Web-страницы и web-сайты. Структура web-страницы.»... Обучающая организовать деятельность учащихся по изучению новой темы; ознакомить учащихся с понятием сайта, структурой web- страницы,... | Интернет-технологии и Web-дизайн ... | ||
Информатики и радиоэлектроники «Интерфейсы. Реализация нескольких интерфейсов с одним и тем же методом. Понятие Web-сервиса. Инфраструктура Web-сервиса. Взаимодействие... | Факультет информационных технологий Веб 0, в противовес «старому» Веб «Web 0» не является чем-то революционным, а лишь продолжает использовать технологии и концепции... | ||
Программа элективного курса по информатике и икт «Создание Web-сайтов» Умение представлять информацию в виде, удобном для восприятия и использования другими людьми – одно из условий образовательной компетентности... | Проекта: Разработка Web-приложений Разработка web-приложений, бизнес процесс разработки web-приложения, cms drupal, создание сайта кафедры | ||
99 сайтов с картинками Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения... | Творческий проект Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения... | ||
История россии Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения... | Материально-техническое обеспечение Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения... | ||
Изучение информатики в старшей школе направлено на достижение следующих целей В данном проекте рассматривается создание Web страниц с помощью html кода. Он может быть использован для изучения темы "Создание... | Приложение №1 Исторические стили в интерьере Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения... | ||
Адреса патентных ведомств и других бд в internet В случаях, когда нужно провести поиск зарубежных патентов, следует обращаться к национальным базам данных. В настоящее время открыты... | Положение об учебном кабинете начального образования общеобразовательной школы Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения... |