Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом





Скачать 300.82 Kb.
НазваниеСпециальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом
страница2/2
Дата публикации05.04.2015
Размер300.82 Kb.
ТипДиплом
100-bal.ru > Информатика > Диплом
1   2
Глава 3. Увеличение сходимости на основе метода релаксации
Рассмотрим одну из вершин графа. Пусть - ранг в вершине на -той итерации. Web-граф содержит большое число контуров, в результате чего ранг вершины на -той итерации отчасти определяется рангом этой же вершины на предыдущей итерации.

Значение, принимаемое , можно представить в виде:

(3.1)

где - ранг вершины на предыдущей итерации, - коэффициент влияния и - доля ранга, получаемая из других вершин, в том случае, если бы из web-графа были удалены все содержащие вершину контуры. Ранг вершины, не содержащейся ни в одном из контуров графа, полностью определяется рангами других вершин графа. Если бы web-граф не содержал контуров, его вершины можно было бы подвергнуть топологической сортировке и рассчитать их ранги за один проход.

Коэффициент влияния для каждой вершины можно представить в виде суммы коэффициентов влияния всех содержащих эту вершину контуров . Для всех вершин , содержащихся в контуре , определена некоторая модель, согласно которой вычисляется ранг в этой вершине. Для того, чтобы определить коэффициент влияния вершины в данном контуре, необходимо рассмотреть суперпозицию моделей всех содержащихся в нем вершин. Зафиксировав ранги всех вершин, мы получим функцию, зависящую только от ранга рассматриваемой вершины. Коэффициент при аргументе этой функции и будет коэффициентом влияния для данной вершины в этом контуре.
Для подграфа из четырех вершин, изображенного на рисунке 5, вычисление коэффициента влияния для первой вершины будет происходить следующем образом:



Рис 5. Вычисление коэффициента влияния в контуре.

Последовательность вершин и дуг образует контур.

Пусть ранг каждой вершины вычисляется с помощью модели PageRank, т.е.:

(3.2)

В этом случае ранг второй вершины на -той итерации будет содержать часть ранга первой вершины: . Ранг третьей вершины будет содержать . Ранг четвертой вершины: . И, наконец, вернется в первую вершину: . Таким образом: .

Коэффициент влияния вершины в контуре для модели PageRank может быть найден следующим образом:

(3.3)

(3.4)

Заметим, что не зависит от номера итерации.
Т.к. метод сходится, то, начиная с некоторой итерации : (3.5)

С другой стороны , следовательно, для сходимости необходимо выполнение условия: или . Таким образом, зная коэффициент влияния, мы можем на каждой итерации вычислить .


    1. Результаты численного эксперимента


Для экспериментальной оценки эффективности вышеизложенного метода, результаты его работы сравнивались с результатами метода Зейделя. Оба метода были реализованы на языке C++. Экспериментальными данными служили графы различной размерности, сгенерированные согласно копирующей модели web-графа [22]. Результаты тестирования приведены в таблице 1. В качестве модели ссылочного ранжирования была использована модель PageRank.

Так как коэффициент затухания в модели PageRank строго меньше единицы, то с ростом числа вершин в контуре коэффициент влияния стремительно убывает. Поэтому на практике достаточно ограничится рассмотрением контуров малой длины. Для проведения эксперимента были рассмотрены контуры, содержащие не более пяти вершин.

Заметим, что в модели PageRank коэффициент влияния для всех принадлежащих контуру вершин одинаков: .

Для вычисления коэффициента влияния был применен следующий метод:

Шаг 1. Все вершины графа помечаются как не просмотренные.

Шаг 2. Выбирается еще не просмотренная вершина.

Шаг 3. С помощью поиска в глубину ищется содержащий выбранную вершину контур, длиной не превосходящий заданный параметр и не содержащий ни одной уже просмотренной вершины. Как только контур обнаружен, по формуле (3.3) вычисляется коэффициент влияния вершины в контуре. Найденный коэффициент прибавляется к коэффициентам влияния всех содержащихся в контуре вершин. Шаг 3 выполняется до тех пор, пока не обнаружены все отвечающие заданным требованиям контуры. Если ни одного контура не осталось, то выбранная вершина помечается как просмотренная и алгоритм переходит к Шагу 2.

Таблица 1. Эффективность метода ранжирования на основе релаксации.

Заключение
Метод ссылочного ранжирования на основе релаксации действительно показал лучшую сходимость по сравнению с методом Зейделя. Вычисление коэффициентов влияния для всех вершин задача не менее трудоемкая, чем задача ссылочного ранжирования, но при ее решении необходимо учесть следующие особенности:

  1. Т. к. коэффициент затухания < 1, то с ростом числа вершин в контуре коэффициент влияния стремительно убывает. Поэтому на практике достаточно ограничится рассмотрением контуров малой длины.

  2. Коэффициент влияния зависит только от структуры графа (учитывая первый пункт – небольшого подграфа). Поэтому, в отличие от ранга вершины, коэффициент влияния может вычисляться непосредственно в момент внесения изменений в web-граф. В этом случае, отпадает необходимость в дополнительных вычислениях перед ранжированием – достаточно поддерживать актуальность коэффициентов влияния.

  3. Возможно использование уже вычисленного коэффициента влияния контура для расчета коэффициентов влияния содержащих его контуров.

  4. Существуют алгоритмы поиска всех контуров заданной длины, допускающие простую параллельную реализацию [15].

Значение коэффициента влияния является очень интересным показателем, который можно использовать в моделях ссылочного ранжирования или для обнаружения ссылочного спама. Его вычисление может проводиться параллельно определению компонент сильной связности или тематических групп. Данный метод может быть обобщен для любой линейной модели ссылочного ранжирования.

Несмотря на вышеперечисленные особенности, облегчающие этап предобработки, преимущество в сходимости метода на основе релаксации не настолько велико, чтобы рекомендовать его к использованию в задаче ссылочного ранжирования.

Библиография

  1. Крюков Д. «Поисковая система "Turtle". Физиология и анатомия». Stack Technologies Ltd.

  2. Прайс Г. «Невидимая паутина: Открывая источники информации, которые поисковые машины не видят» (англ. «The Invisible Web: Uncovering Information Sources Search Engines Can’t See») / Г. Прайс, К. Шерман, издательство CyberAge Books, 2001, ISBN 091096551X.

  3. Barabasi A. «Emergence of scaling in random networks» / A.L. Barabasi, A. Albert. Science, (286):509, 1999.

  4. Berkhin P. «A Survey on PageRank Computing». Internet Mathematics Vol. 2, No. 1: 73-120

  5. Bharat K. «Hilltop: A Search Engine based on Expert Documents» / K. Bharat, G. Mihaila.

  6. Brin S. «The Anatomy of a Large-Scale Hypertextual Web Search Engine» / S. Brin and L. Page.

  7. Broder. «Graph structure in the web». / R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, S. Stata, A. Tomkins, and J. Wiener. In Proceedings of the 9th WWW conference, 2000.

  8. Chang F. «Bigtable: A Distributed Storage System for Structured Data» / F. Chang, J. Dean, S. Ghemawat, W. Hsieh, D. Wallach, M. Burrows, T. Chandra, A. Fikes, R. Gruber. Google, Inc.

  9. Dean J. «MapReduce: Simplified Data Processing on Large Clusters» / J. Dean and S. Ghemawat. In OSDI’04, 6th Symposium on Operating Systems Design and Implementation, Sponsored by USENIX, in cooperation with ACM SIGOPS, pages 137–150, 2004.

  10. Dill S. «Self-similarity in the web» / S. Dill, R. Kumar, K. McCurley, S. Rajagopalan, D. Sivakumar, and A. Tomkins. In Proceedings of the 27th VLDB Conference, 2001.

  11. Farahat. A. «Authority rankings from HITS, PageRank, and SALSA: existence, uniqueness, and effect of initialization» / A. Farahat, T. Lofaro, J. C. Miller, G. RAE, L. A. Ward

  12. Haveliwala T. «An Analytical Comparison of Approaches to Personalizing PageRank» T. Haveliwala, S. Kamvar, and G. Jeh. Technical Report, Stanford University, 2003.

  13. Haveliwala T. «Computing PageRank using Power Extrapolation» / T. Haveliwala, S. Kamvar, D. Klein, C. Manning and G. Golub. Technical Report, Stanford University, 2003.

  14. Haveliwala T. «The Second Eigenvalue of the Google Matrix» / T. Haveliwala, S. Kamvar. Technical Report, Stanford University, 2003.

  15. Hongbo L. «A new way to enumerate cycles in graph» / Hongbo Liu, Jiaxin Wang.

  16. Ghemawat S. «The Google File System» / S. Ghemawat, H. Gobioff, and Shun-Tak Leung. Proc. 19th Symposium on Operating System Principles, Lake George, New York, 2003, pp. 29-43.

  17. Kamvar S. «Adaptive Methods for the Computation of PageRank» / S. Kamvar, T. Haveliwala, and G. Golub. Technical Report, Stanford University, 2003.

  18. Kamvar S. «Extrapolation Methods for Accelerating the Computation of PageRank» / S. Kamvar, T. Haveliwala, C. Manning and G. Golub. In Proceedings of the Twelfth International Conference on World Wide Web, pp. 261–270. New York: ACM Press, 2003.

  19. Kamvar S. «The Condition Number of the PageRank Problem». S. Kamvar, T. H. Haveliwala.

  20. Kleinberg J. «Authoritative sources in a hyperlinked environment, Journal of the ACM, 46 (1999), pp. 604-632.

  21. Kleinberg J. «The small world phenomenon: an algorithmic perspective».

  22. Kumar R. «Stochastic models for the web graph» / R. Kumar, P. Raghavan, S. Rajagopalan, D. Sivakumar, A. Tomkins, and E. Upfal. In Proc. of 41st FOCS, 2000.

  23. Kumar R. «Trawling the web for emerging cyber communities» / R. Kumar, P. Raghavan, S. Rajagopalan, and A. Tomkins. In Proc. of the 8th WWW Conference, pages 403-416, 1999.

  24. Lammel R. «Google’s MapReduce Programming Model — Revisited». Data Programmability Team. Microsoft Corp. 2007

  25. Lempel R. «The stochastic approach for link-structure analysis (SALSA) and the TKC effect» / R. Lempel and S. Moran. in Proceedings of the Ninth International Conference on the World Wide Web, May 2000.

  26. Mathieu F. «The effect of the back button in a random walk: application for pagerank». F. Mathieu, M. Bouklit. In Alternate track papers & posters of the 13th international conference on World Wide Web, pages 370–371. ACM Press, 2004.

  27. Page l. «The PageRank Citation Ranking: Bringing Order to the Web» / L. Page, S. Brin, R. Motwani, T. Winograd. http://google.stanford.edu/~backrub/pageranksub.ps

  28. Pandurangan G. «Using pagerank to characterize web structure» / G. Pandurangan, P. Raghavan, and E. Upfal.

  29. Pennock D.M. «Winners don't take all: Characterizing the competition for links on the web» / D.M. Pennock, G.W. Flake, S. Lawrence, E.J. Glover, and C.L. Giles. Proc. of the National Academy of Sciences, April 2002

  30. Pike R. «Interpreting the data: Parallel analysis with Sawzall» / R. Pike, S. Dorward, R. Griesemer, and S. Quinlan. Scientific Programming, 14, Sept. 2006. Special Issue: Dynamic Grids and Worldwide Computing.

  31. Watts D. «Collective dynamics of small-world networks» / D. Watts, S. Strogatz. Nature, (393):440, 1998

  32. William J. Stewart. «Numerical Methods for Computing Stationary Distribution of Finite Irreducible Markov Chains» In Advances in Computational Probability, edited by Winfried Grassmann, Chapter 4. Dordrecht: Kluwer Academic Publishers, 1999.

  33. Аналитическая компания Netcraft http://www.netcraft.com/

  34. “Региональный сетевой информационный центр” (“RU-CENTR”) http://www.nic.ru/

1 Первый каталог – Yahoo возник в апреле 1994 г.

2 Наряду с неявными, различают также явные кибер-сообщества: кольца (webrings), службы новостей и группы, образованные клиентами пиринговых сетей.

1   2

Похожие:

Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconКурсовая работа на тему: «Исследование эффективности поиска в Интернете...
Целью данной работы является оценка эффективности поисковых стратегий в информационно-поисковых системах (ипс)
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconРеферат по информатике на тему: «Символика русского народного традиционного костюма»
Целью данной работы является оценка эффективности поисковых стратегий в информационно-поисковых системах (ипс)
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconПрограмма дисциплины «История» для направления 231300. 62 и 230700....
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 231300....
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconКурсовая работа по информатике на тему: «Эффективность поиска в Интернете...
Целью данной работы является оценка эффективности поисковых стратегий в информационно-поисковых системах (ипс)
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconКультуры и искусств
Целью данной работы является оценка эффективности поисковых стратегий в информационно-поисковых системах (ипс), в качестве исследуемых...
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconПрограмма дисциплины Современные методы принятия решений  для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 010400....
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconПрограмма дисциплины «Модели корпусной лингвистики» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 010400. 68 "Прикладная...
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconПрограмма «Методы принятия решений». Гу-вшэ, 2010 г. Министерство...
Методы принятия решений для направления 010500. 62 "Прикладная математика и информатика" подготовки бакалавра
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconПрограмма по формированию навыков безопасного поведения на дорогах...
Программа предназначена для преподавателей, ведущих данную дисциплину и студентов направлений 233400. 62 «Информационные системы...
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconКибернетический подход к организации управления в корпоративных системах
Специальность: 05. 13. 10 – Управление в социальных и экономических системах (экономические науки)
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconПрограмма дисциплины «Герменевтика» для направления 010400. 68 «Прикладная...
Программа предназначена для преподавателей, ведущих данную дисциплину, и студентов направления подготовки 010400. 68 "Прикладная...
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconКонтрольная работа По информатике Тема: «Информационно поисковые языки»
Целью данной работы является исследование эффективности поиска в Интернете сведений на тему «Информационно поисковые языки», в качестве...
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconМетоды решения задач с переменной интенсивностью потоков данных на...
Специальность 05. 13. 11 Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconПрограмма дисциплины
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направлений 231300. 62 «Прикладная...
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconПрограмма дисциплины «Методы оптимизации» для направления 010400....
Федеральное государственное автономное образовательное учреждение высшего профессионального образования
Специальность “прикладная математика” Методы ссылочного ранжирования в информационно-поисковых системах. Диплом iconРабочая программа учебной дисциплины изотопная геохимия специальность:...
«Прикладная геохимия, петрология, минералогия» в течение 6 семестра после прохождения курсов «Химия», «Общая геология», «Кристаллохимия»,...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск