Скачать 311.09 Kb.
|
Поисковые сайты и их классификацияИнтернет — первый и единственный информационный объект, в ко тором потенциально возможен поиск по всему объему информации, накопленному человечеством на данный момент. Информация в гипертекстовом представлении растет на несколько миллионов веб-страниц в день. В принципе возможен глобальный поиск, но от 30 до 70% информации, размещенной в Интернете, и целые ресурсы закрыты для поисковых систем парольным входом (конфиденциальные) или динамически порождаются сервером только на основании запроса. Даже при этих ограничениях поиск очень эффективен. В обычной библиотеке информационный массив подразумевает наличие классификации и специализации знаний по областям. В Интернете нет никакого глобального каталога всех ресурсов и нет никакого главного редактора, часть информации имеет низкое качество. Поэтому там легко потратить враля впустую. Однако есть средства и методы вести эффективный поиск. Основные средства поиска информации в Интернете (см. адреса в табл. 20.2): •поисковые и метапоисковые системы (поиск конкретных документов); • индексированные каталоги (поиск тематических сайтов по структуре рубрик); • рейтинги (топы) наиболее посещаемых ресурсов; • тематические списки ссылок (тематические порталы-указатели); • сетевые энциклопедии и справочники с определениями понятий и справочными данными. Поисковая система в Интернете — специальный веб-сайт, на котором можно сделать запрос и получить ссылки на документы и сайты, соответствующие запросу. В состав поисковой системы может входить несколько мощных серверов (в системе Google - более 10 000 компьютеров). Интерфейс поисковой страницы обеспечивает возможность формулировать в строке текстовый запрос, посылать его, просматривать полученный в ответ список ссылок и переходить по их адресам. Программное обеспечение поисковой системы состоит из трех компонентов: поисковый робот, индекс системы, классификатор. Поисковый робот — программа-анализатор, которая непрерывно посещает веб-адреса в Интернете («ползает, как паук по паутине»), просматривает и исследует содержание документов, индексирует слова из текста и заносит в базу данных (обновляет ее). База данных индексов — создаваемая по результатам поиска таблица: «слово — адрес документа, где слово встречается». Поисковый робот периодически обновляет базу данных, находя новые материалы, убирая неработающие ссылки. Когда посетитель делает запрос, поиск адресов ведется не в Интернете, а в заготовленной базе данных сервера. Классификатор — программа, которая а) обрабатывает запрос пользователя, б) находит и извлекает с помощью индекса слов из базы данных ссылки, отвечающие критериям запроса, в) выводит спи сок ссылок на найденные документы в порядке убывания релевантности (определяет их соответствие, «вес», значимость и выполняет сортировку), сверху списка самые подходящие адреса. Особо мощные поисковые системы учитывают популярность сайта по числу посещений и ссылок на него с других сайтов, оценивают страницы по числу других связанных важных страниц. Алгоритмы ранжирования (оценивания) важности могут отличаться, сайт может занимать 5-е место по одним рейтингам и 30-е по другим. Поисковые системы в списке ссылок могут предложить не только прямой переход к документу и его сайту, но и текст с выделением слов, заявленных в запросе, а также сохраненную копию основного текста документа из своего архива (без рисунков и гиперссылок, иногда без форматирования). Сохраненная в архиве поисковой системы копия удобна тем, что загружается быстрее, можно получить документ, недоступный на исходном сервере, или преобразование формата .doc, .pdf в формат HTML. Метапоисковая система — система поиска, не имеющая собствен ной базы данных, но обладающая программными возможностями за прашивать данные у нескольких других поисковых сайтов, анализировать полученное, следуя собственному алгоритму обработки, предоставлять сводный результат1. 1 Метаданные - данные о данных: каталоги, справочники, реестры, базы метаданных, содержащие сведения о составе данных, содержании, статусе, происхождении, местонахождении, качестве, форматах и формах представления, условиях доступа. Метаинформация — описание информации, информация об информации. Тематический (предметный) каталог — сайт, содержащий тематические коллекции ссылок, которые отобраны и классифицированы группой профессионалов или одиночками, занимавшимися конкретным вопросом. Темы первого уровня максимально широкие: экономика, компьютеры, образование, развлечения, правительство, здоровье, общество, наука, политика, спорт, от них можно перейти к более узким темам: социальные науки, искусство, культура, библиотеки, новости, регионы и т.д. Переходя по дереву каталога и постепенно сужая область поиска, уточняют интересующую область и получают набор ссылок. Поиск по каталогам целесообразен, когда желательно получить адреса специализированных источников, где по теме собраны много документов и ссылок, когда трудно сформулировать текстовый запрос по словам или он выдает чрезмерное число ссылок, когда приходится искать общую информацию по широкой теме. В каталоге ссылки на отдельные документы и тематические веб-сайты наиболее профильные, поскольку составлением занимаются не программы, а квалифицированные специалисты-редакторы, они сопровождают их описаниями. Некоторые каталоги содержатся в поисковых системах и позволяют поиск и по ключевым словам, и по иерархическому дереву разделов. Если же необходимо найти конкретный документ, то ката лог малоэффективен. Иногда часть приводимых в тематических кол лекциях ссылок не работает. Полезно обращаться к топам (tops) — спискам наиболее посещаемых сайтов по конкретной тематике. Высокая посещаемость сайта свидетельствует о качественном содержании, сервисе. Крупные поисковые системы и каталоги ресурсов Интернета ста ли порталами — предлагают разнообразную информацию, новости, дополнительные услуги: бесплатную электронную почту, место для размещения веб-страниц, поддерживают форумы. Поисковые системы Интернета на первых позициях списка ресурсов, предлагаемых по запросу посетителя, размещают так называемые оплаченные и «управляемые результаты» (sponsored links, editorial results) и коммерческую рекламу товаров и услуг различных компаний, искусственно повышая их рейтинг. Рекламодатели покупают право контекстной рекламы на конкретные темы запросов. Оплаченные ссылки не обязательно отличаются оформлением от обычных результатов поиска. Информационный запрос, формулировка в строке поискаИнформационный запрос — входное сообщение в автоматизированную систему, содержащее требование на выдачу информации. В поисковых системах запрос представляет собой набор слов и служебных сим волов, характеризующий искомую информацию. На сайте поисковой системы поисковая страница содержит строку поиска Найти (Поиск, Искать, Search, Find), в которую требуется ввести наиболее определяющие, отличающие слова из названия или содержимого документа, или предопределить темы-рубрики для сужения области поиска. Следует подготовить правильный запрос на поиск. • Сформулировать тему в широком понимании. • Определить три-четыре ключевых слова, понятия. • Подобрать к каждому ключевому близкие по смыслу слова (или синонимы). • Выявить слова, которые помогут сузить диапазон поиска. • Построить поисковую фразу - сочетания слов друг с другом с использованием связующих операторов (AND, OR, NOT, см. подробнее далее). Лучше формулировать запрос в виде описательной фразы, такой, как «недвижимость частная собственность законодательство Россия», а запрос одним словом, типа «недвижимость» или «собственность», неэффективен по результатам: будут выданы тысячи ссылок, на просмотр и посещение которых потребуется очень много времени. Запрос можно повторить, введя дополнительные уточняющие слова, расширенные дополнительные условия, и отметить параметр Искать в найденном (Search in found). Слова, близкие по значению, надо обязательно указывать с оператором «или» (OR). Русские поисковые системы принимают запросы на русском и английском языках, учитывают морфологию — основу слов и словоформы (падежи, склонения), допускают формирование условий поиска на естественном языке: [e-mail или почтовый адрес РАО «ЕС России»]. Если дать запрос «окно», будут выданы ссылки, содержащие кроме слова «окно» также слова «окон, окнами», а на запрос «отозвал» — документы со словами «отзывали», «отозвали». В ответ на запрос поисковая система создает динамическую страницу подобранных результатов именно на конкретный запрос, имеющую динамический URL-адрес (временный). В адрес такой страницы входят параметры поиска в базе данных системы (слова) с символами ? и %. Результат выводится в виде списка ссылок (URL-адресов) документов, по каждому из которых приводится название, избранные фрагменты предложений, демонстрирующие контекст со словами за проса. Результаты сортируются по соответствию и дате. Можно настраивать число результатов, отображаемых на одной странице. Расширенный поискРасширенный поиск в поисковых системах оформляется ключевыми словами и дополнительными условиями на их сочетание в тексте и реквизиты документа, определяемыми в форме поисковой системы. Можно задавать условия на расстояния между словами в документе, отвергать тексты с определенными словами, задавать по иск в определенной доменной зоне, на конкретном сайте, по конкретным местам страниц (в теге названия, ссылках), языку документа (любой — включено по умолчанию, русский — только по кириллическим документам, английский), дате создания и др. Качество поискаПоиск по одной и той же теме рекомендуется провести в нескольких поисковых системах. Показателями качества поисковой системы являются количество страниц, проиндексированных в базе, частота обновлений базы, релевантность результатов, удобство поиска (простота). Поисковая система AlltheWeb (Весь Веб) ведет поиск по 2,7 млрд страниц, Google - по 2 млрд страниц. Эффективность поиска определяется не только числом документов, найденных поисковой машиной, но и соответствием (релевантностью), учетом не только упоминаний разыскиваемых слов в тексте, но и расстояния между словами, ранжированием (сортировкой) по дате появления (обновления) страниц. Релевантными называются документы, действительно соответствующие запросу, нерелевантными - найденные поисковой машиной по запросу, но расцениваемые как не соответствующие. Оценка релевантности субъективна, зависит от мнения пользователя о соответствии документа. Перебрав часть документов, предложенных поисковой машиной, пользователь останавливается на нескольких, информация которых удовлетворяет его ожиданиям. Если нужное содержание найдено в первом документе, полнота выдачи уже не волнует пользователя, остальные ему не нужны. Однако полнота важна при подборе списка литературы. Поиск изображений в ИнтернетеВ компьютерных информационных технологиях имидж (англ. image — образ, изображение, впечатление) — любой рисунок, фото графия, картина и т.п. Никогда ранее в истории человечества не было так много изображений, к которым можно получить доступ в одном месте и сразу. Системы поиска изображений в Интернете совершенствуются, но найти изображение труднее, чем текст. Особенность в том, что образ - не слово, не набор букв, а для поиска требуется все-таки словесное описание. Цифровые изображения на веб-страницах выполняются в файлах разных форматов, которые обозначаются расширением имени файла .GIF, .JPG, .PNG и др. Поиск изображения в поисковой системе по размеру ведут не по размеру файла, а размеру в пикселях (точках). Рисунки до 1000 и даже до 10 000 квадратных пикселей считаются мелкими, малыми; до 100 000 (300x300) - средними, а до 1 000 000 и выше - большими. По исковые системы не включают баннеры в списки графики. Яндекс (yandex.ru), Google (google.com), AltaVista.com, HotBot.com, Yahoo Surfer, WebSeek.com и другие выполняют поиск файлов с рисунками в рубриках Картинки, Рисунки, Images. По запросу предоставляются уменьшенные копии изображений - миниатюры. Имя файла рисунка может не соответствовать изображению, поэтому, просмотрев миниатюры, переходят по ссылке к рисунку в исходном размере и его странице, читают? контекст. Расширенный поиск рисунков можно вы полнить, заполнив условия в форме: искать только рисунок, учитывать размер, подпись, описание в окружающем тексте. Веб-ресурсы содержат миллиарды изображений разных размеров, форматов, тем, способов создания. Для профессиональных и личных целей можно искать иллюстрации, фотографии, научные рисунки, графику, картины. Изображение произведения искусства на веб-странице может отличаться от оригинала цветом (зависит от средств подготовки страницы, настройки монитора), кадрированием (вырезан фрагмент, применен коллаж, монтаж, объединено несколько картин). |
Программа по дисциплине. Вопросы для подготовки к государственному... Теория государства и права: Программа по дисциплине. Вопросы для подготовки к государственному экзамену для выпускников специалитета... | Вопросы к государственному экзамену Воздействие Великой Французской революции на систему международных отношений в Европе в 1789-1799 гг | ||
Вопросы к государственному экзамену по специальности «Связи с общественностью» Опредаление 10 кандидатур педагогов и руководителей для награждения отраслевами наградами | Вопросы к государственному экзамену по информатике Дискретная математика. Теория алгоритмов. Математическая логика. Численные методы. Теоретические основы информатики. Исследование... | ||
Вопросы к государственному экзамену по дисциплине “Теория государства и права” Программа предназначена на изучение предмета «Биология. Многообразие живых организмов» в образовательных учреждениях | Вопросы к государственному экзамену по специальности Сущность стратегического управления. История развития стратегического управления. Долгосрочное и стратегическое планирование. Формирование... | ||
Вопросы к государственному междисциплинарному экзамену по безопасности жизнедеятельности Цель: применение педагогом комплексных методов и приемов для формирования у дошкольников основ безопасности жизнедеятельности | Методические указания по выполнению контрольных работ для студентов... Учебно – методический комплекс «История религий» соответствует государственному образовательному стандарту по специальности 031401... | ||
Вопросы к государственному экзамену по специальности 080103. 65 «Национальная... И наступил тот месяц, и пришел тот день, и настал тот час, и свершилось событие, в которое многие верили… | Вопросы к государственному экзамену по информатике и методике преподавания информатики Информатика как наука и вид практической деятельности. Структура современной информатики. Место информатики в системе наук. Сущность... | ||
Вопросы к Государственному экзамену по психологии (общие для всех видов специализации) Новосибирской области, освоивших образовательные программы основного общего образования, с участием территориальной экзаменационной... | Кафедра международного права вопросы к итоговому государственному... Теории соотношения международного права и национального права. Прямое действие норм международного права в Российской Федерации | ||
Вопросы к государственному экзамену по социальной педагогике Самостоятельная работа студентов является важнейшей составной частью учебного процесса. В соответствии с учебным планом на самостоятельную... | Сценарий классного часа «Путешествие в страну Знаний» Теория государства и права: Программа по дисциплине. Вопросы для подготовки к государственному экзамену для выпускников специалитета... | ||
«Измерение скорости звука в воздухе методом стоячей волны» Теория государства и права: Программа по дисциплине. Вопросы для подготовки к государственному экзамену для выпускников специалитета... | Повышения ресурса и надёжности тяжелонагруженных подшипниковых узлов в энергооборудовании тэс Теория государства и права: Программа по дисциплине. Вопросы для подготовки к государственному экзамену для выпускников специалитета... |