Скачать 269 Kb.
|
Структура работы поисковых систем. Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гипетэссылки, которые на ней имеютте ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами.' Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность. После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы — индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Считайте, что индексированная база данных — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами. На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку. Найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам. Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице. Несколько тысяч — это еще не так много, потому что зарубежная поисковая система в аналогичной ситуации выдала бы сотни тысяч ссылок. Попробуйте найти среди них нужную! Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион. Как правило, клиенты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит. Однако клиентов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант — когда подряд идут несколько ссылок, ведущих к одному и тому же ресурсу, но находящемуся на разных серверах. Клиент вправе ожидать, что самыми первыми будут стоять наиболее полезные ссылки. Вот здесь и возникает проблема. Человек легко отличает полезный ресурс от бесполезного, но как объяснить это программе?! Поэтому лучшие поисковые системы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресурсов. И делать это они должны быстро — клиент не любит ждать. Строго говоря, все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каждая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты. Операция сортировки полученных результатов называется ранжированием. Каждой найденной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество — понятие субъективное, а программе нужны объективные кри терии, которые можно выразить числами, пригодными для сравнения. Высокие рейтинги получают Web-страницы, у которых ключевое слово, использованное в, запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5-6 абзацев текста — они считаются самыми важными при индексации. По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каждая ячейка таблицы выглядит, как абзац, и потому содержательный основной текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы. Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высоким показателем цитирования. Самые совершенные поисковые системы следят за уровнем цитирования зарегистрированных ими Web-страниц и учитывают его при ранжировании. Создатели Web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально готовят страницы так, чтобы поисковые системы давали им высокий рейтинг. Хорошая, грамотная работа Web-мастера способна значительно поднять посещаемость Web-страницы, однако есть и такие «мастера», которые пытаются обмануть поисковые системы и придать своим Web-страницам значимость, которой в них на самом деле нет. Они многократно повторяют на Web-странице какие-то слова или группы слов, а для того чтобы те не попадались на глаза читателю, либо делают их исключительно мелким шрифтом, либо применяют цвет текста, совпадающий с цветом фона. За такие «хитрости» поисковая система может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг. В последние годы сложилась и практика коммерческого рейтингования. Технически они оснащены самыми современными средствами, соответствующими уровню 2000 года, а общий размер Рунета (российского сектора Интернета) сегодня примерно таков, каким был западный сектор в 1994-1995 гг. Поэтому сегодня в России особых проблем с поиском информации нет и в ближайшее время они не предвидятся. А в западном секторе проблемы с поиском очень большие, и разные поисковые системы пытаются по-разному их преодолеть. О том, как это происходит, мы и расскажем. Из поисковых указателей в России сегодня действуют три «кита» (есть и более мелкие системы, но мы останавливаться на них не будем). Это «Рамблер» (www.rambler. ru), «Яндекс» (www.yandex. ru) и «Апорт2000» (www.aport. ru). Исторически наиболее популярной поисковой системой является «Рамблер». Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмотря на то, что размер поискового указателя «Рамблер» примерно равен 12 миллионам Web-страниц, он давно толком не обновлялся и выдает устаревшие результаты. Сегодня «Рамблер» -это популярный портал, лучшая в России классификационно-рейтинговая система (о том, что это такое, мы расскажем ниже) плюс рекламная площадка. Традиционно эта система держит первое место в России по посещаемости и имеет хорошие доходы от рекламы. Но в развитие средств поиска средства, как мы покажем ниже, не вкладываются. Самый большой указатель лежит в основе системы «Яндекс» -примерно 27 миллионов Web-страниц, но дело не только в размере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы. По уровню актуальности «Яндекс» сегодня — безусловный лидер (рис. 7.3). Система «Апорт» выигрывает на третьем этапе:в момент представления информации клиенту. Она не стремится к созданию самого большого указателя автоматическими средствами, а вместо этого широко использует информацию из каталога @Rus, проходящую ручную обработку. Поэтому система выдает не так много результатов, как ее ближайшие конкуренты, но зато эти результаты, как правило, точны и наглядно представлены. Характеристика поисковых систем. Начиная поиск чего-либо в Internet и имея минимум информации, а так же пытаясь огранить потери времени, для получения наиболее общей информации возможно обращение к следующей базе данных. База данных: предмет ведет к Межсетевым ресурсам, построенным библиотекарями. Содержание: Свыше 2,500 связей с Internet ресурсами, кратко аннотируемыми, с указанными предметными заголовками. Поиск: Поиски могут быть ограничены названием ресурса, описанием его, или с указанными предметными заголовками. Результаты: Результаты показаны в алфавитном порядке названиями ресурса. Адрес: http://sunsite.berkeley.edu/InternetInd ex/ Частота Модернизации: ежедневно Yahoo! Yahoo! – самая известная поисковая машина. Её сайты разбиты по категориям и ключевым словам. Она содержит полезную информацию на своей домашней странице. Может подключаться к другим поисковым машинам Базы данных: в ведении находится служба поиска Internet-ресурсов, новостей, карт, рекламных информаций, спортивная информация, бизнес, номера телефонов, персональные WWW-страницы, и email-адреса (отдельная база данных). Содержание: Основная директория содержит: адреса (URLs) для Internet-ресурсов и краткое описание для этих связей. Поиск: Все Yahoo страницы предлагают не только простое поисковое окно, но и опции для этого поиска, а так же поиск Usenet или Email-адреса. Поиск может ограничиваться указанием определённого промежутка времени. Boolean операторы (и, или) и последовательный поиск также поддержаны. Отметим: если поиск в Yahoo! не привёл к положительному результату, то процесс поиска автоматически переходит на Alta Vista, которая продолжает поиск, и в случае положительных результатов автоматически возвращает найденную информацию в Yahoo!. Если Yahoo! не может установить связь достаточно быстро с Alta Vista, то в этом случае Yahoo! будет обеспечивать страницу связи с набором инструментов поиска. После того как одна из этих связей выбирается, ключевые слова передаются к поисковой машине на ваше усмотрение. Средством, облегчающим поиск, является наличие “tip search”(TS) - поиск с помощью “намека”: Yahoo! Является подчиненным справочником, что означает, что система не имеет так много страниц, как поисковые машины, однако задание наиболее общих ключевых слов позволит найти необходимую тему на странице высокого уровня (первая страница, которая возникает перед пользователем при посещении сайта) для организации или компании. Результаты: Связи отображаются в соответствии с очерёдностью задаваемых слов последовательностью поиска наряду с их описательным текстом и подчиненной иерархией. Адрес: http://www.yahoo.com/ Частота Модернизации: ежедневно Alta Vista Alta Vista поддерживает поиск по ключевому набору слов и для определения языка конкретной страницы использует методы искусственного интеллекта. Пользователи могут настроить опции поиска и выбирать тип поиска – сложный или упрощенный, а также воспользоваться различными способами предоставления информации. В отличие от машин, которые индексируют только ключевые слова, она индексирует весь текст, что позволяет осуществлять полный поиск. Однако из - за этого пользователь может просто утонуть в информации. Базы данных: Расположенные по всему миру WWW-страницы и Usenet News (новости). Содержание: 31 миллион WWW-страниц (на май 1997 г.) и полный текст более чем 14,000 newsgroups обновленный в реальном масштабе времени. Поиск: Предлагает простой(simple (S)) поиск или (much more advanced (MMS)),т.е. более передовой, способ. S - поиск стоит в основном использовать для общих вопросов, MMS - поиск использует специфический поисковый синтаксис. Для облегчения выполнения процедуры имеется подсказка(Simple Search Help). MMS - поиск, используя булинь(boolean), т.е. с помощью ключевых союзов, используя (and, or, not - (и, или, не)) и простую смежность (near - (около)) позволяет употреблять несколько слов, чередование слов, словосочетание в качестве ключевых для проведения поиска. TS - поиск: Введением ключа типа: " Ваша Фраза " как первое направление поиска, который будет ограничивать число найденных WWW - документов с заголовками типа " Ваша Фраза ". Результаты: Предлагает три выбора результатов (но два дают тот же самый результат): 1) "Стандартные"("Standard") - результаты, полученные машиной в виде списка параграфов, резюмируемые ей, с наличием URL - адреса, размером файла и последней датой модернизации. Результаты возвращаются как десять пунктов на экране, 2) "Компактный"("Compact") помещают каждый пункт в одной строке с последней датой модернизации картотеки, 3) "Детальный"("Detailed"), который является таким же самым, как и "Стандартный". Адрес: http://altavista.digital.com Частота модернизации: Постоянно WWW-роботом. Excite Для анализа информации Excite использует поисковую технологию Intelligent Concept Extraction, что позволяет делать запросы по образцу. Это самая популярная поисковая система в Америке. Для каждой найденной страницы она оценивает степень соответствия запросу. Базы данных: WWW-страницы по всему миру, новости, карты, "yellow pages" ("желтые страницы"), свободно распространяемое программное обеспечение, основные цитаты, программы телевидения, погоду, E - mail адреса, рейсы авиалиний. Содержание: 50 миллионов WWW-страниц и больше чем двухнедельный запас Usenet новостей. Поиск: Предлагает только S - поиск, который поддерживает некоторые опции MMS - поиска. TS - поиск: используйте плюс (+) чтобы определить, что все документы имеют данное слово, или используют минус (-) что бы уточнить, что ни один из документов не имеет данного слова. Возможно так же поддержка вoolean-операторами. Вы можете использовать "AND", "OR" and "AND NOT"(И, ИЛИ и. И НЕ) операторы и круглые скобки для группировки. Например: (digital or virtual or electronic) AND library. (цифровой или виртуальный или электронный) И библиотека. Результаты: Результаты показаны с названием документа, разряд уместности в процентах, URL - адрес, резюме программного обеспечением документа, и опция, чтобы восстановить "More Like This"(" Скорее Этот "), которая позволяет использовать документ как ваш вопрос. Адрес: http://www.excite.com/ Частота Модернизации: Постоянно - WWW-роботом. Hot Bot Для поиска в Интернете использует многопроцессорную параллельную обработку 10. млн. страниц ежедневно. Полезная сторона Hot Bot ограничение на тип страниц по средствам выбора кнопок. База данных: Расположенные по всему миру WWW-страницы. Содержание: 54 миллиона WWW-страниц (на сентябрь 1996 г.). Поиск: Предлагает S - поиск и Эксперт(Expert (Е))- поиск, поддерживает boolean-операторы (И и ИЛИ), поиск фразы, и выбор " человек "или" URL ". Е-поиск также поддерживает задание даты, местоположение (страна и т.д.) TS - поиск: использует заключение фразы в двойные кавычки (например, " слова фразы "). Результаты: Результаты показаны с названием документа, разряд уместности в проценте, URL, размер документа. Адрес: http://www.hotbot.com/ Частота модернизации: Постоянно WWW-роботом ("Slurp"). Infoseek Infoseek самая популярная поисковая машина в компьютерной индустрии. В мае 1996 она была признана как самая достоверно предоставляющая информацию машина. Привлекательность машины в том, что после отсеивания информации можно проверить найденную информацию ещё раз. Базы данных: расположенные по всему миру WWW-страницы, новости, запасает цитаты, карты, желтые страницы("yellow pages"), e mail адреса, и т.д. Содержание: Главный база данных: 50 миллионов URL-адресов. (на сентябрь 1996 г.) Поиск: предлагает только простой S - поиск, но ключевые слова поиска могут быть ограничены специфическими полями (типа в пределах заголовков документа), поиск с использованием возможностей либо с исключением определённого слова (данному слову предшествует минус"-") или с включением требуемого слова (данному слову предшествует " + "). Для дополнительной информации относительно выбора поиска, используется. Infoseek-Помощь(Infoseek Help). Результаты: Включает название документа, размер картотеки, URL, краткое резюме, извлеченное из документа, и разряд уместности в процентах. Адрес: http://www.infoseek.com/ Частота Модернизации: Постоянно WWW-роботом. Дополнительная информация: в случае большого количества информации см. http://info.infoseek.com/. Lycos Lycos – одна из первых поисковых машин. Машина удобна для работы с поиском и для одновременного просмотра сайтов. При выводе информации показывает краткий обзор, и найденные адреса. Базы данных: расположенные по всему миру WWW-страницы, звуки, картины, "top 5% sites" Содержание: 70 миллионов URL-адресов (на март 1997г.). Поиск: предлагает S - поиск и клиентурный(Custom (С)) поиск. С-поиск поддерживает boolean-операторы AND и OR (И и ИЛИ), также как некоторые другие назначения. Результаты: результаты внесены в упорядоченный список; информация включает адрес документа (URL), название, размер файла, и выдержки из файла. Адрес: http://www.lycos.com/ Частота модернизации: постоянно WWW-роботом. ПРОБЛЕМЫ И ВОЗМОЖНОСТИ ПОИСКОВЫХ СИСТЕМ. Работа многих поисковых машин считается вполне успешной. Однако все современные поисковые системы страдают некоторыми серьёзными недостатками:
в последнее время потребности в интеллектуальной помощи быстро растут. Это привело к появлению интеллектуальных агентов. Обычно интеллектуальные агенты являются основной частью поисковой машины для поиска используется искусственный интеллект. Пользователь учит агента, а затем он выходит в Интернет для поиска. Интеллектуальные агенты выполняют инструкции от имени пользователя, имеют некоторую самостоятельность. После поиска они оповещают пользователя о результатах. Агенты учатся в результате своей деятельности. Интеллектуальность – обучение на основе обратной связи по примерам ошибкам и по средствам взаимодействия с другими агентами. Простота использования – можно тренировать агента используя естественный язык. Индивидуальный подход – адаптация к предпочтениям пользователей. Интегрированность – непрерывное обучение применение уже имеющих знаний к новым ситуациям. Автономность – ощущение окружающей среды, и анализ выводов. ЗАКЛЮЧЕНИЕ. Рассмотренные мною поисковые машины далеки от совершенства. Считается, что идеальная поисковая машина должна отвечать следующим требованиям:
Масштабы информационных ресурсов и их количество постоянно расширяется. Становится ясно, что база данных не является совершенной. Интеллектуальные агенты – новое направление лежащее в основе нового поколения поисковых машин, которые могут фильтровать информацию и получать более точный результат. Internet продолжает развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает не очень легко найти необходимый документ следует также иметь в виду, что в сети наряду с давно действующими серверами возникают новые. Информационные системы, в которых представлены хранение, и обработка информации осуществляются с помощью вычислительной техники, называют автоматизированными, различные виды деятельности и наиболее буро развивающиеся отраслью индустрии информационных технологий. Список литературы.
|
Контрольная работа По информатике Тема: «Информационно поисковые языки» Целью данной работы является исследование эффективности поиска в Интернете сведений на тему «Информационно поисковые языки», в качестве... | Реферат на тему: «Информационно-поисковые системы» Вас информации. Сейчас поисковые системы все больше стараются «видеть» сайт именно глазами рядового посетителя, чтобы результат устроил... | ||
Учебно-методический комплекс образовательной профессиональной программы... Корабельные автоматизированные комплексы и информационно-управляющие системы» по дисциплине «Информационно-управляющие комплексы... | Кафедра информатики и тсо курсовая работа Поисковые каталоги. Поисковые указатели (индексы). Сбор информации поисковыми роботами. Индексация ресурсов. Исполнение запроса клиента.... | ||
Курсовая работа на тему: «Поисковые системы» по дисциплине "организация ЭВМ " Учебно-методический комплекс «Таможенное право» составлен в соответствии с требованиями Государственного образовательного стандарта... | 1. Классификационные информационно-поисковые языки Информационно-поисковые каталоги основаны на классификации сведений по определенной предметной области и исторически были первыми... | ||
Электронные информационно-справочные и документальные ресурсы Национального... Ю перспективу, является обеспечение и расширение свободного доступа заинтересованных физических и юридических лиц к научно-справочному... | К Положению о порядке получения Автоматизированные информационно-измерительные системы коммерческого учета электрической энергии (мощности) | ||
Лабораторная работа №4 по дисциплине: «Информационно-поисковые системы» Работа заключается в сравнительном изучении заданных глобальных ипс сети Интернет вербального типа | Правительство Российской Федерации Федеральное государственное автономное... Программа предназначена для преподавателей, ведущих данную дисциплину, и студентов направления 230100. 62 «Информатика и вычислительная... | ||
Методические указания к контрольной работе по дисциплине «информационно-поисковые системы» Методические указания одобрены на заседании кафедры правовой информатики ноу впо «Омский юридический институт», протокол №3 от 13.... | Методические указания к контрольной работе по дисциплине «информационно-поисковые системы» Методические указания одобрены на заседании кафедры правовой информатики ноу впо «Омский юридический институт», протокол №3 от 13.... | ||
Н. В. Максимов, И. В. Прохоров Охватывает весь спектр знаний. Дескрипторные информационно-поисковые языки. Дескрипторные информационно-поисковые языки основаны... | Программа по формированию навыков безопасного поведения на дорогах... Рабочая программа предназначена для преподавания дисциплины «Информационно-поисковые системы» студентам очной полной формы обучения... | ||
Культуры и искусств Целью данной работы является оценка эффективности поисковых стратегий в информационно-поисковых системах (ипс), в качестве исследуемых... | Опубликованных и приравненных к ним научных и учебно-методических работ Охватывает весь спектр знаний. Дескрипторные информационно-поисковые языки. Дескрипторные информационно-поисковые языки основаны... |