Программа по формированию навыков безопасного поведения на дорогах и улицах «Добрая дорога детства» 2

Скачать 365.19 Kb.

Название	Программа по формированию навыков безопасного поведения на дорогах и улицах «Добрая дорога детства» 2
страница	1/7
Дата публикации	12.05.2014
Размер	365.19 Kb.
Тип	Документы

100-bal.ru > Информатика > Документы

1 2 3 4 5 6 7

ОЦЕНИВАНИЕ СИСТЕМ РЕКОМЕНДАЦИЙ, ОСНОВАННЫХ НА МЕТОДЕ КОЛЛАБОРАТИВНОЙ ФИЛЬТРАЦИИ
*** на основе статьи J. Herlocker, J. Konstan, L. Terveen, and J. Riedl. «Evaluating collaborative filtering recommender systems», ACM Translations on Information Systems, Vol. 22(1), 2004.

Вступление

Используя мнения пользовательского коммьюнити, системы рекомендаций помогают каждому отдельно взятому пользователю более эффективно находить интересующий его контент в огромном объёме имеющейся информации. Одна из самых успешных технологий для выработки рекомендаций, названная коллаборативной фильтрацией, разрабатывалась и улучшалась в течение прошедших 10 лет, в результате чего возникло большое разнообразие алгоритмов для выработки рекомендаций. Каждый такой алгоритм имеет своих приверженцев, утверждающих, что он самый лучший для тех или иных целей. Точно установить, какой алгоритм является лучшим для тех или иных целей, трудно, так как исследователи не могут прийти к соглашению, какие атрибуты должны замеряться, и в чём измерять каждый из атрибутов. Исследователи, занимающиеся анализом научных работ, посвящённых различным алгоритмам генерирования рекомендаций, в результате могут обнаружить более десятка количественных показателей и дополнительных методов качественной оценки рекомендательных систем (РС).

Оценивание качества работы рекомендательных систем и их алгоритмов по определению очень сложно по нескольким причинам. Во-первых, разные алгоритмы могут быть хороши или плохи для разных по объёму массивов данных (баз данных). Многие алгоритмы коллаборативной фильтрации были разработаны специально для массивов данных, где пользователей намного больше, чем объектов (например, массив данных MovieLens содержит информацию по 65,000 пользователей и 5,000 фильмов). Такие алгоритмы могут быть абсолютно непригодны для массивов, где объектов намного больше, чем пользователей (например, рекомендательская система по научным работам с тысячами пользователей и десятками сотен тысяч статей). Похожее различие существует для других характеристик информационных массивов, таких как оценочная шкала, плотность оценок и др.

Вторая причина того, почему оценивать алгоритмы систем рекомендаций сложно, заключается в том, что могут различаться и цели производимой оценки. Самые ранние работы по оценке систем и алгоритмов концентрировались на «точности» алгоритмов коллаборативной фильтрации в «предсказании» непроставленных рейтингов. Однако, позднее исследователи осознали, что когда системы рекомендаций используются с целью оказания помощи пользователям в принятии решения, важнее измерить, насколько часто система приводит пользователей к неправильному выбору. Shardanand и Maes (1995) измеряли большие ошибки между реальным и предсказанным рейтингом. В другой работе рассуждалось о том, что есть другие свойства, кроме точности, которые имеют большее влияние на работу системы и удовлетворение пользователя. Ряд исследований и систем рассматривал показатели, включающие степень, с которой рекомендации охватывают весь массив объектов (Mobasher и др. 2001), степень неочевидности сделанных рекомендаций (McNee и др. 2002), и способность рекомендательных систем объяснять пользователям, почему были даны такие рекомендации (Sinha и Swearingen 2002). Несколько исследователей заявляли, что это всё детали, что основным показателем успеха систем рекомендаций должно быть удовлетворение пользователя. Коммерческие системы измеряют пользовательское удовлетворение по количеству купленных товаров (и потом не возвращённых), тогда как некоммерческие системы могут лишь только спрашивать пользователей, насколько они были удовлетворены.

Наконец, есть существенная проблема в определении того, какую комбинацию показателей использовать для сравнительной оценки. Недавно была отмечена следующая тенденция: многие исследователи обнаруживают, что их новейшие алгоритмы на массивах оценок кинофильмов выдают среднюю абсолютную ошибку в 0.73 (на пятибалльной шкале). Хотя по сравнению со старыми алгоритмами новые алгоритмы часто работают лучше, обнаруживается, что когда каждый алгоритм настроен на свой оптимум, они все демонстрируют похожие показатели качества рекомендаций. Многие учёные рассудили так, что может быть они достигают некоторого «магического барьера», где естественная вариативность может не давать им получать более точные результаты. В подтверждение этого, Hill и др. (1995) показали, что пользователи дают несоответствующие друг другу оценки, когда их просят оценить один и тот же фильм в разные периоды времени. Они предполагают, что алгоритм не может быть точнее дисперсии в пользовательских оценках одного и того же объекта.

Даже, когда отличия в точности могут быть измерены, они обычно ничтожно малы. Чувствительны ли пользователи к изменениям средней абсолютной ошибки на 0.01 на 5-ти балльной шкале? Эти наблюдения позволяют предположить, что улучшение алгоритма систем коллаборативной фильтрации может происходить не только за счёт продолжающегося улучшения показателей средней абсолютной ошибки. Может быть самые лучшие алгоритмы должны оцениваться по тому, насколько хорошо они могут представить пользователям обоснование вынесенного решения, или насколько мал должен быть массив данных, чтобы они выдали точные рекомендации. Если это так, то для оценки этих новых алгоритмов будут нужны новые показатели.

Перед оцениванием качества работы рекомендательных систем (РС) необходимо определиться со следующим:

определить перечень задач, ставящихся перед конкретной РС, в соответствии с пользовательскими целями;
выбрать подходящие массивы данных для оценки;
оценивание может производиться в режиме offline с использованием уже существующих баз данных, также может потребоваться проведение оценки в режиме online;
выбрать подходящие показатели для оценивания РС, с учётом их недостатков и преимуществ.

Для правильной оценки той или иной РС важно понимать цели и задачи, для решения которых она используется. Если рассматривать их с позиции конечного пользователя и не учитывать цели маркетологов и владельцев систем, то из научных исследований и уже внедрённых систем может выделить следующие задачи (это перечень может постоянно пополняться):
Аннотация в контексте. Первоначальным сценарием процесса рекомендования было фильтрование сообщений на структурированных форумах с целью принятия решения, какие из них стоит читать. Tapestry (Goldberg и др. 1992) и GroupLens (Resnick и др. 1994) применяли это к уже структурированным массивам сообщений. Эта задача требовала сохранения порядка и контекста сообщений, и соответствующим образом использовала предсказания для аннотирования сообщений в их контексте. В некоторых случаях «самые плохие» сообщения отфильтровывались. Этот же сценарий, который используется в РС в существующем контексте, также использовался онлайновыми РС, которые накладывают прогноз поверх существующих ссылок (Wexelblat и Maes 1999). Пользователи используют выданные прогнозы для принятия решения, какое из сообщений читать (или по каким ссылкам идти), и поэтому самым важным фактором для оценки является то, как успешно прогнозы помогают пользователям различать желаемый и нежелаемый контент. Главный критерий - в том, может ли РС генерировать прогнозы в отношении объектов, которые просматривает пользователь.
Найти хорошие объекты. Вскоре после Tapestry и GroupLens были разработаны несколько систем с большим упором на актуальное рекомендование. Ringo (Shardanand и Maes 1995) и Bellcore Video Recommender (Hill и др. 1995) представляли интерфейсы, которые предлагали своим пользователям конкретные объекты, предоставляя им ранжированный перечень рекомендуемых объектов вместе с прогнозом, насколько сильно они понравятся пользователям. Это основная задача для РС, и она снова и снова возникает в широком ряду исследовательских работ и коммерческих систем. Во многих коммерческих системах показываются самые выигрышные рекомендации, а прогнозируемые значения (величины) оценок – нет.
Хотя эти две задачи являются общими для многих систем и чаще всего рассматриваются в научной литературе, есть и другие важные задачи для РС, которые плохо описаны в научной литературе. Далее необходимо упомянуть несколько таких задач, которые были установлены в ходе интервью с пользователями и дискуссий с разработчиками РС.
Найти ВСЕ хорошие объекты. Большинство РС концентрируются на том, чтобы найти несколько хороших объектов. Это неудивительно: проблемой, которая привела к возникновению РС, была информационная перегрузка, и многие пользователи, похоже, готовы пренебречь несколькими хорошими объектами, только чтобы отфильтровать как можно больше плохих. Но если рассматривать базу судебных дел, а не фильмов, то становится очевидным, что для юристов, ищущих прецеденты, очень важно не пропустить ни одного возможного случая. Естественно, что они готовы потратить на это уйму времени и клиентских денег. Поэтому РС, применяемые в их практике, в первую очередь должны гарантировать достаточно низкое число ложно негативных заключений (т.е. небольшое число заключений, кажущихся системе абсолютно неподходящими пользователю, а на самом деле ему очень нужных) .
Последовательность рекомендаций. Такую задачу для РС можно заметить при использовании Интернет-радио Launch (launch.yahoo.com), предоставляющего пользователю возможность настраивать его в соответствии со своими предпочтениями. Его РС содержит целый ряд алгоритмов предоставления рекомендаций. Launch обладает несколькими интересными особенностями, включая желательность рекомендования уже отранжированных музыкальных композиций. Здесь возникает проблема перехода от рекомендования одной песни к рекомендованию целой последовательности музыкальных композиций, которую будет приятно прослушать. На данный момент неизвестно о каких-либо исследованиях в этом направлении или РС-системах, решающих такую задачу.
Только просматривание. Обычно РС-системы оцениваются на основе того, как хорошо они помогают пользователю принять решение о покупке/прочтении/

использовании того или иного объекта. В беседах с пользователями MovieLens, Amazon и некоторых других сайтов авторы статьи обнаружили, что многие из них пользуются РС-системой даже тогда, когда у них нет намерения приобрести вещь. Они находят для себя приятным просматривать информацию о рекомендуемых объектах. Для кого-то это развлечение, для кого-то – процесс познания. Похоже, что в большинстве случаев РС-системы используются без скрытого мотива. Для таких случаев точность алгоритмов может быть менее важна, чем интерфейс, легкость использования, уровень и характер предоставляемой информации.
Поиск надёжной РС-системы. Эта другая задача, которая была выявлена в ходе бесед с пользователями. Неудивительно, что пользователи автоматически не начинают доверять РС-системе. Многие из них «забавляются» с системой какое-то время, чтобы посмотреть, удовлетворяют ли рекомендуемые объекты их вкусам. Можно услышать много жалоб со стороны пользователей, которые ищут свои любимые (или нелюбимые) фильмы в базе MovieLens – они хотят таким образом проверить точность работы системы. Многие пользователи идут дальше - особенно на коммерческих сайтах - они меняют свой профайл, чтобы посмотреть, как изменяться предоставляемые им рекомендации. Они исследуют рекомендации, пытаясь найти какое-либо указание на погрешность. РС-система, оптимизированная на генерирование «полезных» рекомендаций (например, рекомендаций объектов, о которых пользователь ещё не знает), может не показаться заслуживающей доверия, так как она не рекомендует фильмы, которые пользователю обязательно понравятся, хотя вероятно он уже знает о них. Ничего неизвестно о каких-либо исследованиях относительно того, как сделать так, чтобы РС-система казалась пользователям надёжной, хотя существует достаточно много общих исследований, как сделать, чтобы веб-сайты заслужили доверие. (Bailey и др. 2001).
Часто оценивание РС сосредоточено на оценке качества рекомендаций; однако, если пользователи не ранжируют объекты, тогда РС на основе коллаборативной фильтрации не может выдавать рекомендации. Таким образом, оценивание того, будут ли пользователи ранжировать объекты и каковы их мотивы при этом, может оказаться важным для объявления того, что РС-система будет скорей всего успешной. Тогда перед РС-системой могут стоять следующие задачи в отношении ранжирования объектов:
Улучшение профайла – это задача ранжирования объектов, которая допускается в большинстве РС. Пользователи оценивают всё больше и больше объектов, так как они уверены, что тем самым они улучшают свой профайл потребительских предпочтений, таким образом улучшая качество получаемых рекомендаций.
Самовыражение. Некоторые пользователи могут не заботиться о качестве получаемых рекомендаций. Что для них важно, так это то, чтобы у них была возможность внести с РС свои оценки (рейтинги). Многие пользователи просто хотят иметь место для выражения своего мнения. Авторы опросили пользователей РС-системы MovieLens, которые проранжировали более 1000 фильмов (некоторые – даже 2000 фильмов). В результате проведённых интервью выяснилось, что эти пользователи ранжировали фильмы не для того, чтобы улучшить качество выдаваемых им рекомендаций. Просто им нравился процесс ранжирования. То же самое можно наблюдать на таких сайтах, как Amazon, где пользователи могут оставлять свои рецензии (отзывы) об объектах, продаваемых Амазоном. Для таких пользователей могут быть важны уровень анонимности, обеспечиваемый РС, чувство сопричастности и сама возможность внести свой вклад. Хотя сами по себе алгоритмы РС-систем могут не пробуждать у пользователей желания самовыражения, пробуждение такого желания у пользователей может способствовать увеличению информационной базы, на основе которой вырабатываются рекомендации, что в свою очередь улучшает их качество.
Помощь другим. Некоторые пользователи рады внести свои оценки (рейтинги) объектов в РС-систему, так как они уверены, что от этого пользовательское коммьюнити только выиграет. Часто они это делают также и для того, чтобы самовыразиться (см. предыдущую задачу). Однако, и то, и другое не всегда идут «рука об руку».
Влияние на других. Негативное явление, с которым сталкиваются разработчики и владельцы онлайновых сервисов с РС-системами, - наличие таких пользователей РС, которые явно стараются влиять на других пользователей, чтобы они приобрели или обратили своё внимание на те или иные объекты. Например, приверженцы определённого киножанра (или киностудий) будут чаще давать высокие оценки нужным фильмам в момент, когда они выходят в прокат, чтобы побудить зрителей пойти и посмотреть фильм. Это особенно интересная задача для проверки РС, так как разработчики могу захотеть оценить, как хорошо их система противостоит такому явлению.
Этот перечень задач (заданий), которые могут стоять перед РС-системой, далеко не полный. Это наиболее важные задачи, которые нашли своё освещение в научной литературе, а также те, что не получили такого освещения, но по мнению авторов статьи являются важными. Если рассматривать с позиции взаимодействия человека и компьютера, то существует твёрдое убеждение, что процесс оценивания качества работы РС должен начинаться с понимания пользовательских потребностей (задач), которые должна обслуживать система. Когда мы оцениваем РС с позиции выгоды для пользователя, мы также должны начинать с определения самой важной задачи, из-за которой эта РС будет использоваться. Разработчики и исследователи, оценивающие ту или иную РС, должны тщательно определяться с тем, какая из вышеперечисленных задач может подходить для их среды.
После того, как определились с задачами, которые должна решать РС, необходимо выбрать массив данных, к которому будут применяться методы оценки качества работы системы. И задачи, ставящиеся перед РС, которые будут признаны важными, могут налагать свои ограничения на информационные массивы.

1 2 3 4 5 6 7

Добавить документ в свой блог или на сайт

	Программа по формированию навыков безопасного поведения на дорогах... Проектно-образовательная деятельность по формированию у детей навыков безопасного поведения на улицах и дорогах города		Программа по формированию навыков безопасного поведения на дорогах... Цель: Создание условий для формирования у школьников устойчивых навыков безопасного поведения на улицах и дорогах
	Программа по формированию навыков безопасного поведения на дорогах... «Организация воспитательно- образовательного процесса по формированию и развитию у дошкольников умений и навыков безопасного поведения...		Программа по формированию навыков безопасного поведения на дорогах... Цель: формировать у учащихся устойчивые навыки безопасного поведения на улицах и дорогах, способствующие сокращению количества дорожно-...
	Программа по формированию навыков безопасного поведения на дорогах... Конечно, главная роль в привитии навыков безопасного поведения на проезжей части отводится родителям. Но я считаю, что процесс воспитания...		Программа по формированию навыков безопасного поведения на дорогах... Поэтому очень важно воспитывать у детей чувство дисциплинированности и организованности, чтобы соблюдение правил безопасного поведения...
	Программа по формированию навыков безопасного поведения на дорогах... Всероссийский конкур сочинений «Пусть помнит мир спасённый» (проводит газета «Добрая дорога детства»)		Программа по формированию навыков безопасного поведения на дорогах... Поэтому очень важно воспитывать у детей чувство дисциплинированности, добиваться, чтобы соблюдение правил безопасного поведения...
	Программа по формированию навыков безопасного поведения на дорогах...		Программа по формированию навыков безопасного поведения на дорогах...
	Программа по формированию навыков безопасного поведения на дорогах...		Программа по формированию навыков безопасного поведения на дорогах...
	Программа по формированию навыков безопасного поведения на дорогах...		Программа по формированию навыков безопасного поведения на дорогах...
	Программа по формированию навыков безопасного поведения на дорогах...		Программа по формированию навыков безопасного поведения на дорогах...

Программа по формированию навыков безопасного поведения на дорогах и улицах «Добрая дорога детства» 2

Вступление

Похожие: