Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией





Скачать 103.36 Kb.
НазваниеПрограмма Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией
Дата публикации21.04.2015
Размер103.36 Kb.
ТипПрограмма
100-bal.ru > Литература > Программа

EVA’99-Москва

Е.Колмановская


Yandex.Ru – поисковая машина и инструмент исследования
Елена Колмановская,

менеджер проекта Yandex

Телефон: (095) 785-25-25

E-mail: klm@comptek.ru

Internet: www.yandex.ru

www.comptek.ru

Yandex.Ru – поисковая машина в «русском» Интернете

Yandex.Ru – уникальная российская поисковая машина. Областью поиска является «русский» Интернет (имеются в виду домены 'su' и 'ru', домены бывшего СССР ('ua', 'kz' и т.д.) и сервера из других доменов, содержащие русские тексты или информацию, предназаначенную и ориентированную на Россию). Русский Интернет (называемый еще Рунет) сегодня – это около 35 тысяч серверов, более 60 Gb текстов. Число пользователей оценивается в 1,5 миллиона. Два основных языка русского Web’а – русский и английский. Рунет быстро растет, год назад было менее 5 тысяч серверов.

Программа Yandex.Ru включает сетевого агента (паука), парсер HTML и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией CompTek (кроме алгоритма Портера для английской морфологии)

Впервые Яndex был заявлен как линия полнотекстовых поисковых продуктов 18 октября 1996. Яndex расшифровывается как «языковый индекс» (или, по-английски, Yandex ­- "yet another indexer"). Интернет-поиск Yandex.Ru был открыт для публичного доступа 23 сентября 1997.

Дополнительная «головная боль» русских поисковых машин – мирное сосуществование разных кодировок русского языка. Наиболее распространены Windows-1251 и UNIX KOI8-R, затем ISO-8859-5, Alt-866 и Macintosh. Хорошо сконфигурированные сервера умеют перекодировать информацию «на лету», но, к сожалению, не все web-мастера это делают. Например, поиск русских слов в AltaVista даст разные результаты в зависимости от кодировки запроса. Русская поисковая машина должна не только распознавать текст во всех кодировках, но и понимать, когда один и тот же документ представлен по-разному, а также показывать пользователю результат в правильной кодировке. Помимо этого Yandex.Ru вычисляет код уникальности каждого документа, что позволяет разобраться не только с кодировками, но и с зеркалами сайтов.

Статистка YANDEX.RU на сегодня (Сентябрь 1999):

  • 41 635 проиндексированных Web-серверов

  • 10 949 302 проиндексированных страниц

  • более 99,12 Gb проиндексированной информации (индексная база данных менее 25 GB)

  • более 25'000 уникальных IP ежедневно

  • более 150'000 уникальных IP ежемесячно


Ядро системы Яndex

Все продукты с префиксом Яndex имеют общее системное ядро, но разные приложения.

Основные свойства ядра Яndex:

  • модуль русской морфологии (словарь на 90,000 слов, корректная работа с новыми словами, морфологический анализ и синтез, обучаемый словарь) + английская морфология

  • модуль индексации (размер индекса - 35% индексируемых текстов, то есть очень компактный, что важно для больших объемов; хранение позиции - полного адреса слова; подсветка результатов поиска в документе; скорость индексации 2MB/мин на PC; очень быстрый поиск)

  • модуль парсирования текстов (язык типа SGML)

  • развитый язык запросов (булевы операторы, расстояние между словами и предложениями, зоны текста)

  • очень умная сортировка результатов поиска по релевантности (соответствию запросу) – особенно важно для большого объема текстов и сложных запросов

  • естественно-языковый запрос, поиск похожего документа


Все русские и английские слова нормализуются при индексации и поиске. Индексируются не только слова, но и числа, и марки (смесь букв и цифр). Естественно-языковый запрос существенно упрощает работу с поисковой системой. Самый простой способ задать запрос Яndex’у – просто набрать свой вопрос в строке запроса.
Линия продуктов Яndex

Яndex.Site – средство для индексации и поиска по Web-серверу пользователя. Как бы хорошо не была продумана структура Web-сервера, жизнь обычно богаче схемы. Сервер растет, его посетителям становится все сложнее и сложнее находить нужную информацию. Хождение по страничкам может стать столь долгим, что посетитель бросит cвое занятие, не дойдя до нужного места. Яndex.Site может извлечь информацию с любого уровня за пару кликов - пользователь должен просто задать вопрос и получить результат.

Яndex.Site можно легко настроить на конкретные условия сервера - указать, какие директории и типы файлов индексировать, а какие исключить, выбрать кодировку русского языка, указать способ получения документов (прямо из директории или через Web-сервер), перестраивать ли весь индекс при новом индексировании или организовать обновление и слияние. Существует поиск в зонах (заголовках, ссылках, аннотациях) и по атрибутам (датам, ссылкам, именам). Можно организовать независимые поиски в различных разделах сайта.

Поисковй индекс может перестраиваться так часто, как это необходимо (со скоростью изменения информации). Индексация не останавливает поиска, эти два процесса прозрачны друг для друга.

Для провайдеров Интернета была сделана специальная версия Яndex.Site, поддерживающая виртуальные сервера. Для провайдеров это выглядит как одна программа Яndex.Site, но для пользователей поиск по каждому виртуальному хосту идет независимо.
Яndex.CD – поиск в статической информации

Яndex.CD по функциям аналогичен Яndex.Site. Основное отличие в том, что для работы Яndex.CD не нужен Web-сервер – поисковую часть можно установить на любой компьютор с Windows 32 и браузером Интернет (IE или Netscape версии 3.0 и выше). Тексты индексируются один раз, и индексная база прилагается к текстам. Этот продукт нашел широкое применение в издании текстов на CD.
Яndex.Lib – полнофункциональная библиотека Яndex.

Яndex.Lib – это отдельный модуль и библиотека для встраивания в оболочки и базы данных. Библиотека включает три группы функций: индексацию, поиск и подсветку. Яndex.Lib может работать одновременно с несколькими базами данных.
Яndex.Dict – модуль русской морфологии.

Яndex.Dict – это тоже библиотека, которая используется для «добавления» морфологии русского языка к уже существующим индексам. В качестве примера работы Яndex.Dict мы сделали расширение запроса к AltaVista. Простой запрос "новый русский" во всех словоформах выглядит так:

(((новый | нов | новейший) ~ русский) | ((нового | новейшего) ~ русского) | ((новому | новейшему) ~ русскому) | ((новым | новейшим) ~ русским) | ((новом | новейшем) ~ русском) | ((новые | новы | новейшие) ~ русские) | ((новых | новейших) ~ русских) | ((новыми | новейшими) ~ русскими))
Yandex.Ru – инструмент исследования русского Интернета

Поисковая машина открывает большой простор для изучения русского Интернета – и содержания, и пользователей.

Что есть в Рунете сегодня? По нашим наблюдением, информация распределена примерно следующим образом (данные на начало 1999 года):
Бизнес и маркетинг (включая рекламу и PR) – about 35%

Самовыражение (домашние страницы) -13,5 %

Интернет-жизнь (download, проекты, on-line библиотеки и т.д.) - 11,8%

Наука, медицина (школы, университеты и т.д.)- 10,2 %

Культура (театры, музеи) - 9,5 %

СМИ (газеты, журналы, радио, ТВ) - 6,7 %

Ресурсы для взрослых – 2 %

Услуги (почта, торговля, доставка) – 1,3 %

Администрация – 1 %
Кто живет в русском Интернете? Как обычно, пионерами были компьютерные и, в более общем виде, технологические компании). Затем – реклама и консалтинговые услуги. Они быстро поняли, что представительство и реклама в Интернете гораздо дешевле, чем в СМИ. Туристические агентства и гостиницы, риэлтеры, продавцы машин и оборудования уже научились использовать Интернет для привлечения новых клиентов. Пользователи Интернета сегодня составляют около трех процентов населения России, но это – его наиболее активная и образованная (по крайней мере, в техническом смысле) часть, принадлежащая к среднему классу. Исследования, сделанные недавно компаниями Gallup и Comcon, подтверждают эту информацию.
Yandex.Ru также дает возможность изучать запросы пользователей. например, мы выяснили, что слова "банк" и "курс доллара" резко выросли в запросах и обогнали стандартную пятерку чемпионов ("Москва", "секс", "порно", "Россия", "реферат") за неделю до кризиса. Теперь мы ведем анализ запросов систематически. Мы изобрели НИНИ-индекс (Непостоянство Интересов Населения Интернета). Этот индекс состоит из своего значения, 5 слов, которые наиболее выросли в запросах за поледнюю неделю по сравнению с предыдущей, и 5 слов, которые наибоее снизислисьl. Эти десять слов представляют изменение интересов. Можно изучать изменение интереса по любому набору слов, например, по фамилиям политиков (мы также публикуем Полит-НИНИ), или по торговым маркам и т.д.
Yandex.Ru – Интернет продукт общего пользования, поэтому им пользуется все население Интернета. Это не только рекламная площадка, но и место провдеения опросов. Например, мы спросили людей, какому источнику информации они доверяют. Ответы распределились так:
Интернет 35.99%

ТВ 16.99%

Газеты и журналы 10.34%

Слухи 1.50%

Ничему не доверяю 35.18%
Мы также можем узнать для каждого слова. с какими словами вместе они встречаются в запросах. Например, слово “искусство” обычно ищется в следующих сочетаниях:

боевой,

музей,изобразительный,

прикладной,

современный

декоративный

история, любовь
Культура в Интернете

В рамках этой конференции меня попросили специально рассмотреть вопрос о том, как культура представлена в Интернете. Для этого я воспользовалась тематическим делением ресурсов, осуществленным ведущими каталогами. В @Rus (бывший каталог «Ау» - www.atrus.ru/rus/) в разделе «Культура и искусство» находится 2917 ресурсов. В счетчике Рэмблера (counter.rambler.ru/top100/) – 2576 ресурсов. То есть те же 9-10% ресурсов, которые были оценены по данным Yandex.Ru.

Что в основном представлено? Наиболее естественное для Интернета содержание – тексты (библиотека Мошкова существует уже 5 лет), изображение (фото, картины) и музыка (формат mp3). Кстати, в основном собранные творческим усилием масс. Кроме этого, организации – театры, музеи, библиотеки, творческие союзы, издания – журналы, альманахи, а также информационные ресурсы – энциклопедии, афиши.

Вот список «самых-самых» ресурсов, отобранных по трем каталогам.

@Rus, составной критерий: принадлежность к элитной лиге + популярность
Библиотека Максима Мошкова http://lib.ru/

Литература http://www.litera.ru/

Центр современного искусства Сороса www.sccamoscow.ru/

Государственный академический Большой театр России http://www.bolshoi.ru/

Союз архитекторов России http://www.uar.ru/

Gumilevica: гипотезы, теории, мировоззрение http://kulichki.rambler.ru/~gumilev

Госфильмофонд http://www.aha.ru/~filmfond

Государственный Эрмитаж http://www.hermitage.ru/

Государственная Третьяковская галерея http://www.tretyakov.ru/

Государственный музей изобразительных искусств им. А. С. Пушкина http://www.museum.ru/gmii

Музей Рериха в Нью-Йорке http://www.roerich.org/ru/home_ru.html

Культура - информационное агентство http://www.guelman.ru/culture

Кирилл и Мефодий - досуг http://www.km.ru/
Вот позиции сайтов в счетчике Рэмблер – данные демонстрируют некоторую «востребованность» у пользователей, а также «народность» каталога.


  1. Music phone www.cdru.com (Музыка)

65 Referat.Ru - сервер для студентов и школьников (Образование)

74 Библиотека Максима Мошкова (lib.ru) (Литература)

80 Full Albums in MP3 (Музыка)

95 MP3 European & American Charts. Full Albums MP3. (Музыка)

100 Cyber Archive of Mp3z, Gamez, Appz (Музыка)

102 Музыка! Гитара! Блюз! Система запроросов! ЖМИ! (Музыка)
А вот данные List.Ru, упорядоченные по индексу цитирования Яndex.

Индекс цитирования (или CI, Citation Index) - принятая в научном мире мера "значимости" трудов какого-либо ученого. Величина индекса определяется количеством ссылок на этот труд (или фамилию) других ученых в их трудах.
Применительно к WWW, индекс цитирования - это мера популярности Web-страницы или Web-сайта среди создателей других Web-страниц или Web-сайтов, т.е. среди "писателей". Этим он принципиально отличается от счетчиков посещений Web-страниц или Web-сайтов (примеры - Rambler Top100, Top List, Count.ru), являющихся по смыслу мерой популярности среди "читателей". Яндекс цитирования (CY, Citation Yandex), или индекс цитирования Яndex'а для Интернет-ресурса - это количество Интернет-ресурсов, с которых есть ссылки на этот ресурс, измеренное по данным Яndex'а.
1194 Библиотека Мошкова www.lib.ru

1077 Все музеи России www.museum.ru

  1. Music.Ru www.music.ru

  1. Музыкальная Шкатулка www.cdru.com

520 http://www.mtv.com www.mtv.com

  1. Гос.Эрмитаж www.hermitage.ru

413 Современное искусство в сети www.guelman.ru
Колмановская Елена Савельевна

Менеджер проекта Яndex, окончила в 1987 году Московский институт нефти и газа по специальности Прикладная математика. Занималась анализом данных и моделированием структур во ВНИГНИ (Всесоюзном научно-исследовательском геологоразведочном нефтяном институте), в должности старшего научного сотрудника. Два года работала в США главным программистом в компании East Cost Sheet Metal Corporation. C 1996 является руководителем проекта Яndex (полнотекстовые поисковые системы с учетом морфологии русского языка). Также является автором "Сказок русского Интернета", публикуемых на поисковой машине Yandex.Ru


7 ~ 7 ~

Добавить документ в свой блог или на сайт

Похожие:

Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconСистемное программное обеспечение реферат студента 1 курса экономического факультета
ПО. Программное обеспечение современных компьютеров включает миллионы программ — от игровых до научных. Все программное обеспечение,...
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconРеферат по информационным технологиям на тему «Интернет, html и html-редакторы»
Все документы для сервиса www пишутся на html (HyperText Markup Language) языке разметки гипертекста. Последний от обычного текста...
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconКонтрольная работа по курсу «Информатика» включает следующие блоки:...
Используя алгоритмы перевода из одной системы счисления в другую, представить предложенные в вашем варианте числа в указанных системах...
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconПри оформлении авиабилетов на рейсы перевозчиков, указанных в Таблице...
Таблице 1, субагент взимает с пассажира в пользу агента оплату за услугу оформления авиабилета в размере 2% (два процента) но не...
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconСистемное программное обеспечение гр. З – 8391
Алгоритмы архивации данных (сжатие способом кодирования серий rle, алгоритм Хаффмана)
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconАлгоритмы безопасного перехода в сетях петри для лицензионной защиты программных систем
Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconМетоды и алгоритмы обработки изображений в системе телевизионного...
Специальности: 05. 13. 11 математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconАвтор программы: доктор исторических наук, профессор Лунев С. И. Общие сведения об учебном курсе
Он включает занятия по экономике и истории Индии, экономической географии, внутренней политике, внешнеэкономической и внешнеполитической...
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconДля чего предназначен модуль родительского контроля?
Интернет, локальным файлам или папкам, ресурсам локальной сети. Администратор компьютера может сам задать список запрещенных сайтов...
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconИ совершенствование подготовки учителей-словесников
«Вишневый сад»…Повсюду взор наталкивался на старые плакаты «Красуйся, град Петров», «Пушкинское кольцо Верхневолжья», «Писатели в...
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconПрограмма по формированию навыков безопасного поведения на дорогах...
Землю, то, зачем вы воплотились здесь. Да, вы поймете и даже можете попробовать поставить планку еще выше своих намерений на данное...
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconУрок «Оформление списков на Web-страницах»
Проверка знаний. Тест по теме «Структура документа html» Тест. Html «Тэги, структура документа»
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconРеферат по информатике и икт по теме: «Алгоритмы»
Я выбрал тему учебно-методического комплекса «Алгоритмы», так как она является одной из главной тем в информатике
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconПрограмма по формированию навыков безопасного поведения на дорогах...
Язык html как средство создания информационных ресурсов. Структура документа на языке html. Форматирование текста. Создание списков...
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconМетодические рекомендации по обучению базовому курсу информатики...
«Передача информации в компьютерных сетях», «Информационное моделирование», «Хранение и обработка информации в базах данных», «Табличные...
Программа Yandex. Ru включает сетевого агента (паука), парсер html и модуль индексации. Все алгоритмы и их программное воплощение было разаработано компанией  iconМетодические рекомендации дисциплины в. 1 Информационные системы...
Целями и задачами освоения дисциплины (модуля) в. 1 Информационные системы управления производственной компанией являются


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск