Бизнес информатика как инструмент конкурентной разведки





Скачать 245.33 Kb.
НазваниеБизнес информатика как инструмент конкурентной разведки
Дата публикации23.12.2014
Размер245.33 Kb.
ТипДокументы
100-bal.ru > Информатика > Документы
Бизнес информатика как инструмент конкурентной разведки

доцент, к.т.н., Дудихин В.В.

Зам. зав. кафедрой прикладной информатики Финансового университета (ВЗФЭИ)

Бизнес-информатика — это наука о проектировании, разработке и применении информационных и коммуникационных систем в бизнесе.

Ключевым понятием не только бизнеса, но и рыночных отношений вообще, является понятие конкуренции.

Поэтому, для успешного ведения бизнеса в условиях конкурентной борьбы чрезвычайно важно получение полной, точной и своевременной информации.

За последние четыре тысячи лет, в рамках так называемых разведовательных технологий, был накоплен колоссальный опыт о том, как это сделать.

Значительная часть этих методов сводится к сбору, обобщению и анализу большого числа отрывочных, косвенных и неполных сведений. Из них выстраиваются возможные гипотезы о развитии ситуации, которые впоследствии оцениваются и верифицируются.

Некоторые из этих методов востребованы в бизнесе и составляют основу конкурентной разведки. Под ней понимают комплекс методов и технологий сбора и обработки данных из открытых источников, причем, делается это строго в рамках закона и с соблюдением этических норм, в отличие, например, от промышленного шпионажа.

Конкурентная разведка решает задачи:

- информационного обеспечения процесса выработки управленческих решений на стратегическом и тактическом уровне;

- раннего предупреждения о возможных рисках, выявление благоприятных для бизнеса возможностей, управления рисками

- выявление благоприятных для бизнеса возможностей;

- управление рисками с целью обеспечить эффективное реагирование компании на быстрые изменения окружающей среды и др.

Основная идея большинства их применяемых методов и приемов – интеграция информации и обработка различными способами сведений из большого числа открытых источников. Общеизвестно, что именно таким способом получают большую часть информации ведущие разведки мира.

С помощью аналитической обработки выявляются риски, моделируются угрозы и сценарии развития кризисов, идентифицируются факторы, действующие на их приближение и развитие. Основной задачей становится предвидение момента, места и вероятности наступления ситуации, связанной с повышенным риском для бизнеса, с целью концентрации необходимых сил и средств, для принятия превентивных мер.

Данный вопрос следует рассматривать через призму Business Intelligence - комплекса методов, технологий и программных продуктов, позволяющих собирать, обрабатывать и анализировать исходные данные о факторах и событиях, оказывающих влияние на какую-либо деятельность (в частности, бизнес), с целью получения на их основе качественно новой информации и знаний.

Этот вид деятельности несколько отличается, от конкурентной разведки, которая концентрируется на сравнительном анализе возможностей собственного бизнеса и бизнеса реальных или потенциальных соперников, и от информационно-аналитической деятельности, подразумевающей тотальный анализ сведений в некоторой искусственно ограниченной предметной области.

Обычно различают следующие типы информационных систем, применяемых для решения таких задач:

Информационно-поисковые системы — продукты, основной функцией которых является накопление и оперативный полнотекстовый поиск документальной информации. В этих системах часто присутствуют дополнительные возможности, как поиск с учетом морфологии языков, словарей синонимов и даже фонетический поиск.

Системы анализа текстовой информации рассматривают тексты документов как структурированные последовательности связанных терминов, что повышает избирательность поиска. Вместо отдельных терминов пользователи таких систем оперируют понятием «тема», что позволяет не только более качественно проводить отбор документов, но и выполнять аналитическую обработку.

Лингвистические процессоры ориентированы на преобразование входящего потока документов (неструктурированных или частично структурированных) в структурированный массив, отражающий характеристики объектов и их взаимосвязи при помощи алгоритмов морфологического, синтаксического и семантического анализа. Они, как правило, не предоставляют пользователям готовых прикладных возможностей, но применяются для автоматической обработки больших массивов входящих документов.

Системы визуализации структурированной информации предназначены для агрегирования и отображения информации, полученной из различных источников (реляционных баз данных, структурированных файлов), и кроме функций визуализации предлагают набор функций поиска информации, ее редактирования, формирования специализированных отчетов и синхронизации с источниками информации (в том числе и в режиме реального времени).

Системы анализа структурированной информации обладают возможностями аналитической обработки (логический вывод, поиск фактов и ситуаций, выявление похожих объектов и ситуаций, контекстный анализ, поиск неявных связей и др.) с использованием данных, полученных из разнородных источников. При этом в автоматическом или автоматизированном режиме проводится анализ не только отдельных терминов или объектов, как в случае систем анализа текстовой информации, но также их логически взаимосвязанных комбинаций.

В таблице приведена классификация лишь некоторых доступных на российском рынке систем бизнес-аналитики



Классификация согласно статьи Александрова А. Аналитика по-русски, «Открытые системы» , № 08, 2007

Известно, что примерно 85% новых знаний аналитики получают, изучая тексты. Поэтому, в ближайшем будущем наиболее востребованными станут системы с максимально автоматизированными ETL-процессами структурирования контента (extract, transfer, load — «извлечение, преобразование, загрузка»). Они должны обладать функциями оперативного анализа информации. К наиболее актуальным средствам интеллектуального анализа текстов относятся

- технологии выделения фактографической информации об объектах с учетом анафорических ссылок на них (ссылочные местоимения на объект, поименованный в тексте);

- нечеткий поиск; - тематическое и тональное (точное и полное) рубрицирование;

- кластерный анализ хранилищ и подборок документов;

- выделение ключевых тем; построение аннотаций;

- построение многомерных частотных распределений документов и их исследование с помощью OLAP-технологий;

- использование методов интеллектуального анализа текста для определения направления исследования больших подборок документов и извлечения новых знаний.

В современных системах как правило используется двухфазная технология аналитической обработки.

В первой фазе (ETL) производится автоматизированный анализ отдельных документов, структуризация их контента и формирование хранилищ исходной и аналитической информации.

Во второй фазе (OLAP, Text Mining, Data Mining) — извлечение в оперативном режиме знаний из хранилища или из полученной по запросу подборки документов.

Применение методов искусственного интеллекта упрощает аналитику процесс порождения гипотез и вырабатывать предложения по проведению дальнейших исследований.

Например, типичная технология анализа взаимосвязей различных проблем содержит следующие фазы:

- получение подборки документов по запросу;

- получение ее семантической карты;

- просмотр документов о связи выделенной пары тем;

- кластерный анализ этих документов;

- анализ документов нужных кластеров;

- резюме о структуре связи тем.

Типичная технология анализа динамики развития проблемы включает следующие фазы:

- получение подборки документов по запросу;

- получение двумерного частотного распределения рубрик-проблем по регионам;

- выделение значимой проблемы в исследуемом регионе;

- получение частотного распределения рубрики-проблемы в регионе по времени;

- анализ документов в пиковые периоды времени;

- кластерный анализ этих документов;

- предложения по нормализации проблемы.

К примеру, многие ежедневно ездят на работу по Москве, но эти факты еще не свидетельствуют о наличии связи между ними, однако если два дипломата работали в одно время в небольшой стране, то с большой вероятностью следует, что они могли быть знакомы. Система должна уметь предлагать аналитику такого типа гипотезы.

В рамках короткого доклада невозможно охватить все вопросы, связанные с этой темой. Поэтому автор рассмотрит в некой ретроспективе лишь некоторые конкретные, на его взгляд достаточно любопытные программно-технические решения из арсенала средств бизнес-информатики для конкурентной разведки, с которыми у него в прошлом имелся опыт работы. В них применяются самые различные технологии начиная с text-mining и до методов контент – анализа

Тренд и Монитор (ООО Вербин и партнеры)

Одной из первых систем мониторинга Интернет-пространства был комплекс программных продуктов «Монитор» и «Тренд» созданный еще в прошлом веке. Он состоял из двух частей. Программный пакет «Монитор» собирал информацию в специализированную базу данных, а «Тренд» собственно и производил автоматический мониторинг возникновения угроз банкам.

Области применения ИАС «Тренд»

1. Деловая разведка- изучение конкурентов.

2. Внешняя и внутренняя безопасность - исследования характера и источника угроз, утечек конфиденциальной информации, конфликтных и кризисных явлений в коллективе, экономического состояния, выявление возможных хищений и финансовых махинаций персонала и т.д.

3. Маркетинг - исследования тенденций процессов и состояния рынка, положения на нем компании, эффективности рекламной политики, вероятности победы в аукционах и т.д.

4. Исследования политической, экономической и социальной ситуации в стране и регионах, заблаговременное выявление негативных тенденций и кризисных ситуаций.

5. Выборные и PR- кампании - подготовка вариантов, оценка эффективности, прогноз результатов.

6. Выявление подготовки к совершению террористических актов и других преступлений на значимых объектах или направленных против руководителей органов государственной власти и управления и коммерческих структур.

Система сигнализирует о возможных конфликтных и кризисных явлениях, оценивала экономическое состояние и перспективы изучаемых объектов в следующих системах координат..

- наблюдается тенденция в сторону к… или от...;

- тенденция на таком-то уровне вероятности, случайна или неслучайна;

- будет усиливаться или ослабляться и в такой-то срок достигнет критической величины…

Идея работы системы - в языковых формах, с помощью которых пишутся тексты, так или иначе, отражается объективная реальность и возможные тенденции ее развития.

Если компания крупная, то, конкурентами, чтобы осуществить «наезд», заранее начинается PR-подготовка. Существует определенные сценарии, «логика наезда». Например летом 2000 года в офисе ТНК случились одни из первых «маски-шоу». Используя публикации о ТНК за период несколько недель, которые предшествовали этому событию, была создана модель образа ситуации, которую авторы назвали «преднаезд». После стали использовать ее применительно к другим компаниям. И выяснилось, что прогноз работает с угнетающей точностью. Так в ситуации с ЮКОСом все было ясно более чем за месяц с вероятностью 90%.

Из опыта использования фильтров, можно сказать, что если значение рейтинга риска по какой-то компании (речь идет о крупных коммерческих структурах, о которых часто пишут СМИ) приближается к 70%, то это достаточно опасно. Понятно, что могут влиять всякие случайные факторы, но если значение риска, индицируемый системой становится больше 70%, то можно смело делать неутешительный (радостный?) вывод.

С его помощью «Тренда» успешно решались маркетинговые задачи. Например, детально мониторился табачный рынок России - в автоматическом режиме получать отчеты о том, куда движется рынок, какие новые брэнды выводятся, как меняется стратегия отдельных игроков, какую ценовую политику они выстраивают.

Некоторые эксперты с помощью «Тренда» пытались делать весьма экзотические и рискованные прогнозы. Например, оценивать вероятность заказного убийства, назначение анализируемой персоны на тот или иной пост и т.п.. Естественно, с точки зрения математики тут далеко не все корректно, но даже при таком «варварском» использовании, довольно часто система давала сбывающие прогнозы..

Работа этой системы перекликается с более ранними попытками по статистической оценке косвенной информации выносить суждения о перспективах развития сложных организационных систем.

Программная система «Avalanche» (Андрей Мосалович и Ко)

Эта система была разработана в России по заказу Гарвардского Университета (США) достаточно давно, еще в начале этого века. Она хорошо себя зарекомендовала на практике и эффективно используется до сих пор. Ее работа основывается на: системе автономных интеллектуальных поисковых роботов, и технологии создания так называемых «умных» папок и встроенной базе данных.

Сначала прописываются Интернет-адреса источников контента. Указывается позиции, с которых происходит считывание, глубина переходов по страницам и ссылкам. Система работает не только с отдельными страницами сайтов, но и с поисковыми машинами и удаленными базами данных в которые транслируется поисковый запрос.

Работа начинается с запуска робота (файл avalanche_spider.exe).





Сами рубрики создаются по желанию пользователя на основе формирования поисковых запросов.



Паук начинает обход заданных ссылок на необходимую глубину. После окончания запускается непосредственно «Avalanche».



Данный программный пакет, в зависимости от комплектации, обладает большим количеством дополнительных полезных опций.

«Галактика-Zoom» (Компания Галактика)

Среди информационно-аналитических систем первого поколения следует отметить программный продукт «Галактика-Zoom». Он позволяет пытаться оперативно составлять отчеты, описывающие ситуацию и тенденции ее развития в политической, экономической, социальной и других сферах.

Система содержит: программу предварительной обработки поступающих в систему данных, их рубрикации, индексирования и построения информационных портретов объектов; сервер приложений, обеспечивающий предоставление информации по запросам пользователей; АРМ пользователей системы с Web-интерфейсом.

Данные в систему импортируются из различных источников и обрабатываются специализированными модулями-конвертерами, после чего происходит преобразование к единому формату хранения и размещение в системной базе данных. Затем проводится морфологический анализ, полнотекстовое индексирование документов, строятся информационные портреты документов, выделяются основные темы, документы классифицируются и кластеризуются. Выполнение поисковых и аналитических запросов осуществляется с использованием функций формирования и итеративного уточнения информационных портретов запросов и искомых документов.

«Галактика ZOOM» в режиме реального времени представляет ситуацию во многих ее проявлениях, порою отмечая нюансы, явно не присутствующие в отдельно взятых документах. С ее помощью вполне возможно, при определенных навыках, оперативно составлять отчеты, описывающие ситуацию и тенденции ее развития в политической, экономической, социальной и других сферах.









Разработки компании RCO (Russian Content Optimizer)

Эта компания в прошлом была подразделением ООО "Гарант-Парк-Интернет". Сегодня, будучи самостоятельной, она представляет потребителю целую линейку программных продуктов (около двух десятков), которые стали основой для довольно большого количества информационно-аналитических систем, представленных на рынке.

"ЭР СИ О" успешно выполняло и выполняет проекты для Газпрома, Минюста, Банка России, РосФинМониторинга, ФСБ, Роснауки, Филип Моррис. Мы являемся технологическими партнерами и поставщиками решений для Oracle, Microsoft, IBM. Для выполнения проектов в части работы с неструктурированными данными ее привлекают крупнейшие системные интеграторы, такие как IBS, Армада, NVision, Крок, Форс, РДТех.

Компоненты анализа текста, входящие в линейку продуктов RCO, были использованы в таких программных продуктах как ClaraBridge (компании «ClaraView», «VDI-EPAM»), X-Files, Аналитический курьер (компании «Ай-Теко», «Белый ветер»), КРИТ, РОТУРА (компания «Смартвейр»), Семантический архив (компания «Аналитические бизнес решения»), Медиалогия (компания «Медиалогия»), Дозор-Джет (компания «Инфосистемы Джет»). Всего более 100 государственных и коммерческих организаций являются конечными пользователями лингво-аналитических продуктов RCO.

В состав семейства продуктов компании входят:

RCO Fact Extractor — мультиплатформный модуль анализа текстов на естественном языке;

RCO Fact Tuner — графическое средство настройки правил анализа текстов, используемых Fact Extractor. Правила формулируются и сохраняются в виде текстовых файлов на специализированном языке;

RCO KAOT - документальная информационно-аналитическая система, ориентированная на поиск и рубрикацию документов на основе средств синтаксического анализа и выделения ключевых тем, а также аналитическую обработку на основе статистического анализа ключевых тем. В своем классе продукт отличается высокой точностью поиска.

Мне лично наиболее симпатичен тот их проект, с которым у меня имелся опыт работы: RCO Fact Extractor Desktop

Это персональное приложение, которое предназначено для аналитической обработки текста на русском языке и выявления фактов различного типа, связанных с заданными объектами – персонами и организациями.

Основная сфера применения программы – это задачи из области компьютерной разведки, требующие высокоточного поиска информации, например, автоматический подбор материала к досье на целевой объект или же мониторинг определенных сторон его активности, освещаемых в СМИ.

Программа позволяет не только найти фрагменты текста, в которых говорилось, например, о поездках персоны, ее встречах, заключении договоров, сделках купли-продажи, но и точно определить все места поездок, визави и контрагентов, наименование товаров и прочее.

Медиалогия

С помощью этой системы можно проводить достаточно широкий спектр исследований, особенно в области PR. Например, анализировать позиции в СМИ определенных компаний, скажем, как смотрится Вымпелком на фоне своих конкурентов (МегаФон, Скай Линк, Tele2,).

При анализе доступны несколько тысяч традиционных федеральных, региональных, отраслевых, зарубежных традиционных СМИ, входящих в базу данных системы «Медиалогия». Кроме того телевидение, радио, информагентства и интернет.

Информационное поле исследуется по количественным и качественным параметрам, включая:

количество упоминаний в главной роли (упоминания, непосредственно посвященные компании);

оценку позитивного, негативного или нейтрального характера упоминаний;

Вычисляется индекс информационного благоприятствования - качественный показатель оценки присутствия объекта в СМИ, учитывающий влиятельность источников, заметность сообщений, яркость статей и характер упоминания.

Результаты обычно представляются в виде графиков, представленных ниже













Перечисляются наиболее яркие информационные поводы.

«Аналитический курьер»

Системный интегратор, компания «Ай-Теко» предлагает на рынке систему «Аналитический курьер», включающую в себя подсистему полнотекстового индексирования и поиска; набор автоматов для структуризации полнотекстовой информации; набор Web-приложений, реализующих прикладные функции.

Для хранения документов и информации о них в системе применяется реляционная СУБД. «Аналитический курьер» позволяет в автоматизированном режиме накапливать отдельные документы, подборки документов, ресурсы Сети.

Для каждого документа устраняется омонимия, местоимения заменяются соответствующими им существительными, определяются ключевые темы, выполняются статистическая рубрикация и кластеризация, а также аннотирование. На основе связей между документами строится семантическая карта массива документов.

«Аналитический курьер» — развитая система анализа текстовой информации, поддерживающая работу с многоязычными источниками информации, имеющая удобный интерфейс поиска документов и личные папки пользователей с индивидуальными настройками.

Автоматическое аннотирование

Открытые источники информации делают доступными огромное количество публикаций и тем самым ставят проблему эффективной работы с большими объемами документов.

Предоставление сжатого смысла первоисточников в виде аннотаций в несколько раз повышает скорость анализа. Однако, наш опыт показывает, что аннотации — статичный результат, он используется при анализе «бумажных» документов, а при анализе коллекций электронных документов более наглядное и структурированное представление содержания одного или коллекции электронных документов дает интерактивная семантическая карта взаимосвязей тем документов.

Современные системы аналитической обработки текстовой информации обладают средствами автоматического составления аннотаций. При этом существует два подхода к решению этой задачи



Рис. 3. Пример двумерного частотного распределения публикаций о политических проблемах по регионам

В первом подходе программа-аннотатор извлекает из первоисточника небольшое количество фрагментов, в которых наиболее полно представлено содержание документа. Это могут быть предложения, содержащие термы запроса; фрагменты предложений с окружением термов несколькими словами и др. В более развитых системах выделяются предложения, прямо содержащие ключевые темы документа (но не кореферентные ссылки на них).

При втором подходе аннотация представляет собой синтезированный документ в виде краткого содержания. Аннотация, сформированная в соответствии с первым подходом, качественно уступает получаемой при синтезе. Для повышения качества аннотирования необходимо решить проблему обработки кореферентных ссылок в русском языке. Еще одной проблемой, возникающей при синтезе аннотаций, является отсутствие средств семантического анализа и синтеза текста на русском языке, поэтому сервисы аннотирования ориентированы либо на узкую предметную область, либо требуют участия человека.

Большинство программ-аннотаторов построены по принципу выделения фрагментов текста. Так, исследовательская система eXtragon ориентирована на аннотирование Web-документов. Для каждого предложения документа вычисляется вес на основе информации о ключевых словах, значимых словосочетаниях, их месте в тексте и присутствии в запросе, после чего предложения ранжируются, и из нескольких фраз с максимальным весом составляется реферат.

В системе «Аналитический курьер» аннотация документа автоматически формируется из его фрагментов, а ее объем зависит от главных тем документа и настроек. В аннотацию по объектам или проблемам могут включаться анафорические предложения документа. Кроме этого, имеется компонент создания общей аннотации на основе взаимосвязей тем в семантической сети этой подборки документов.

Тематическое рубрицирование и тональность

Технология автоматического рубрицирования используется при наличии сложившейся иерархии понятий в прикладной области.

Технология основана на использовании метода распознавания образов применительно к текстам.

Направления развития модели тематического рубрицирования связаны как с методами классификации, так и с методами выделения характерной лексики в корпусе обучающих рубрикатор документов для ее последующей классификации.

Так, в системах «Аналитический курьер» и в модуле рубрицирования компании «Гарант-Парк-Интернет» каждый рубрикатор представлен в виде вероятностной нейросети.

Эксперт предварительно создает типичные для рубрики коллекции документов, затем рубрикатор «обучается» на этих примерах и ставится на поток документов.

Еще одна задача классификации текста — рубрицирование тональности публикаций. Система должна определять эмоциональную окраску сообщений, как общую, так и по отношению к объектам документа.

Нейросетевая модель, применяемая обычно при тематическом рубрицировании, здесь не работает.

Каким бы хорошим словарем ни обладала система, главные проблемы классификации состоят в наличии инверсии смысла (тональности) и наличии анафорических ссылок на целевой объект, с которыми связана тональная лексика (например, во фразе «неэффективно борется с уличной преступностью» присутствует кратная инверсия тональности «борется с» но «неэффективно»).

Специальный семантический анализ должен выделять те семантические роли слов, которые имеют отношение к эмоциональной окраске нужного объекта. Полнота определения тональности определяется качеством идентификации объектов в предложении. Правильное разрешение кореферентных ссылок на объект анализа повышает количество выделяемых упоминаний объекта и фактов, а значит, полноту анализа, на 30-80% в зависимости от содержимого фактов. На рынке сегодня почти нет систем, которые выполняли бы функцию тонального рубрицирования.

Динамический анализ тематической структуры публикаций

В отличие от авторубрицирования, выполняемого в фоновом режиме, анализ тематической структуры полученной подборки документов производится оперативно.

Этот метод, кластерный анализ, используется при анализе новых проблем или событий, в которых тематическая структура динамична и еще неустойчива. При большом числе публикаций по проблеме важно выделить основные, репрезентативные группы тем — кластеры. Так, в новостном потоке «Яндекс.Новости» сообщения автоматически группируются в кластеры, соответствующие событиям.

Нужно помнить о том, что в обработке страниц поисковыми сайтами участвует малая часть всего текста сообщения, что приводит к существенному шуму в аналитической обработке. Однако, в отличие от новостных сайтов, цель которых — краткое изложение новостей дня, в информационно-аналитических системах пользователю необходимо разобраться в архиве, собираемом зачастую в течение нескольких лет.

К примеру, в программе «Аналитический курьер» при объединении документов в кластер учитывается общность лексики и значений полей карточки. Кластеры могут пересекаться, что указывает на взаимосвязь их тем, можно погружаться в список документов любого кластера и в отдельные документы.

Семантические карты подборки документов

Кластеризация позволяет разделять подборку документов на статистические смысловые группы, однако зачастую аналитику нужен более тонкий инструмент для обнаружения редких, но важных связей между темами подборки.

В этом случае объектом анализа является семантическая карта взаимосвязей тем документов, а не сами документы.

Карта представляет собой ориентированный граф, размеры узлов и толщина линий связи на котором соответствуют относительному весу тем и связей в подборке.

Связи могут быть либо типизированными (определен семантический тип связи), либо логическими (установлен факт их наличия).

Направление стрелки связи показывает причинно-следственную связь между темами — на более частную тему указывает стрелка.

Толщина стрелки между темами отражает ее важность. В вершинах и связях находятся гиперссылки, ведущие к связанному набору документов.

Выбрав узел на карте аналитик погружается в темы, непосредственно связанные с темой узла, как бы увеличивая масштаб карты и центрируя карту на теме. При этом состав тем карты изменится, появятся темы, наиболее тесно связанные с выбранной. Этот метод анализа часто используется также для совместного анализа нескольких карт, поиска похожих ситуаций или семантических шаблонов в различных картах и другие задачи.

На рис. 4 представлен пример семантической карты.



Пример семантической карты верхнего уровня

X-Files

Данная система содержит полнотекстовую подсистему индексирования и поиска; набор автоматов для структуризации полнотекстовой информации; набор приложений, реализующих прикладные функции системы и доступных посредством Web-интерфейса.

Исходные документы накапливаются в хранилище, а затем в фоновом режиме обрабатываются процессами-автоматами, которые выделяют из их текстов описания объектов и фактов. Функции ввода и хранения документов аналогичны функциям системы «Аналитический курьер».

X-Files относится к классу систем накопления и анализа информации по различным информационным объектам (сбора и ведения досье). Отличительными особенностями продукта являются средства работы с многоязычными источниками информации и механизмы генерации отчетов-досье по интересующим объектам. Однако возможности адаптации системы к русскоязычным текстам несколько ограничены.

КРИТ

Компания «Смартвейр» предлагала систему КРИТ (коллектор рассеянной информации в текстах), представляющую собой клиентское Windows-приложение без собственной БД.

Пользователи системы указывали параметры подключения к источникам данных — полнотекстовым документам, и в соответствии с запросом пользователя выполняется поиск с подсветкой ключевых слов из запроса. В выборке документов выделялись объекты и связи, результаты отображались в графическом и табличном виде.

Специализированная поисковая система SCAI4Twi

Несколько особняком от рассмотренных ранее информационных систем занимают свою нишу на рынке системы контент – анализа типа VAAL. Система SCAI4Twi создается компанией «Информационно-Лингвистическая Инициатива» на основе развития идей положенных в основу VAAL. Эта разработка получила статус проекта инновационного центра Сколково.

Scai4Twi – это инструмент профессионального контент-анализа микроблогов Twitter. По утверждению авторов его функционал качественно превосходит имеющиеся не только в России, но и за рубежом аналитические и прогностические системы на основе микроблоггинга.

Twitter для стартового продукта, выбран потому, что именно микроблоги сегодня являются наиболее быстро растущим сегментом текстового веба. Одновременно они наиболее оперативно реагируют на любые события и изменения, практически не подвергаются никакой цензуре, включая, кстати, и самоцензуру, и в силу этого представляют собой идеальное информационное поле для извлечения фактов, определения тенденций, проведения событийного и средового анализа.

В настоящее время продукт реализован для русскоязычного и англоязычного сегментов Twitter. Принципиально может быть расширен и на другие языковые сегменты. Кроме того, очевидно, предлагаемый подход может быть применен не только к анализу Twitter, но и открытых страниц соцсетей, полноценных блогов, социальных СМИ и т.п.

Все существующие инструменты анализа Twitter-пространства (анализ по ключевым словам, кластерам, темам и др.) включают так называемый эмоциональный анализ, который сводится к двоичному отображению отношений. В большинстве случаев эти сервисы показывают отношения – положительное или отрицательное, максимум, вводится третье отношение – нейтральное.

Scai4Twi является продолжением развития системы ВААЛ, ее распространением на анализ Интернет-источников. Интерес к пользователям социальных сетей вызван тем, что они оперативно реагируют на события окружающей жизни и столь же оперативно делятся полученными впечатлениями. Поскольку размещаемые тексты сообщений не подвергаются практически никакой цензуре, они являются весьма ценным материалом для контент-анализа с целью получения выводов о протекающих социальных процессах, возникающих тенденциях, отношении людей к тем или иным предметам и явлениям, их участии в политической жизни и многом другом.

Кроме микроблогов отдельных физических лиц, в социальной сети Twitter представлены также основные средства массовой информации, компании, политические партии и объединения. Анализ размещаемой ими информации также представляет большой интерес с точки зрения проекции на социальные процессы.

Система Scai4Twi позволяет по различным критериям накапливать в текстовых базах данных на локальном компьютере сообщения Твиттера с целью последующего применения к ним методов классического контент-анализа. Система Scai4Twi предназначена для использования

- социологами для проведения конкретных исследований;

- социальными психологами для отслеживания и оценки общественных настроений;

- образовательными заведениями, в которых читают курс методов социологических исследований;

- журналистами, которые всегда хотят держать руку на пульсе общества;

- сотрудниками спецслужб, которые также хотят держать руку на пульсе общества

- рекламистами для анализа и коррекции отношения к брендам;

- сотрудниками PR-компаний;

- озабоченными своим будущим политиками;

- студентами и аспирантами, пишущими нестандартные дипломы и диссертации;


Пользователям системы ВААЛ хорошо известно понятие категории. Это группы слов, объединенные в один список по тому или иному признаку. Например, категории слов с позитивной окраской, с негативной окраской, с агрессивной окраской, категории слов – названий наркотиков, матерных выражений и пр. Назначение категорий заключается в том, чтобы использовать их для оценки интересующих нас текстов.

Категории в Scai4Twi, как и в ВААЛе, делятся на системные и пользовательские. Системные категории составлены экспертами и включены в комплект поставки. Пользовательские категории формирует сам пользователь в зависимости от решаемых им задач.

В комплект поставки Scai4Twi включены следующие системные категории:

Категории семантического дифференциала: позитив, негатив, сила, слабость, активность, пассивность.

Категории репрезентативных систем НЛП: зрительная, рациональная, слуховая, чувственная.

Категории систем ценностей: гностические, практические, эстетические, этические.

Категории мотивов: власти, достижения, физиологический.

Категории валентности: общая, положительная, отрицательная.

Категории потребностей: общая, внешняя, внутренняя.

Дополнительные категории: агрессивность, глупость, ум.

Список системных категорий не является окончательным и будет пополняться.В системе Scai4Twi предусмотрены следующие виды анализа.

Поисковый анализ (онлайн)

- Выделение новых тем (онлайн)

- Анализ трендов (оффлайн)

- Анализ связей между категориями (оффлайн)

- Выделение тем (оффлайн)

В качестве иллюстрации к анализу трендов приведем скриншот сравнительных оценок выраженности мотива Власти в твиттах трех влиятельных либеральных СМИ – газеты «Ведомости», «Новой газеты» и радиостанции «Эхо Москвы».



Вполне возможно, что Scai4Twi значительно превосходит возможности и функционал уже имеющихся отечественных и зарубежных сервисов и программ. В ближайшее время новый продукт будет запущен в коммерческую эксплуатацию и станет доступен как в виде сервиса, так и программы для индивидуальных и корпоративных пользователей. Этот отечественный продукт без сомнения станет мощным инструментом в арсенале конкурентной разведки.

Литература

1. Дудихин В.В. Конкурентная разведка в Интернет.NT Press, М: 2004

2. Дудихин В.В. История становления российских поисковых Интернет-систем и перспективы их развития. Материалы МНПК ВЗФЭИ, Экономика, наука, образование: проблемы и пути интеграции, том 2, М., 2010

3. Ющук Е.Л. Конкурентная разведка: Маркетинг рисков и возможностей, Вершина, М., 2006

4. Александров А. Аналитика по-русски, «Открытые системы» , № 08, 2007

5. Ильин Н., Киселев С., Рябышкин В., Танков С., Технологии извлечения знаний из текста, «Открытые системы» , № 06, 2006

Добавить документ в свой блог или на сайт

Похожие:

Бизнес информатика как инструмент конкурентной разведки iconПрограмма дисциплины «Управление портфелем проектов как инструмент...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 080500. 68 «Бизнес-информатика»...
Бизнес информатика как инструмент конкурентной разведки iconПрограмма дисциплины «Анализ неструктурированной информации» для...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 38. 04. 05 «Бизнес-информатика»...
Бизнес информатика как инструмент конкурентной разведки iconПрограмма по формированию навыков безопасного поведения на дорогах...
На тему “Применение инструментов конкурентной разведки для анализа конкурентоспособности компании”
Бизнес информатика как инструмент конкурентной разведки iconПрограмма дисциплины «Методология и практика ит-консалтинга» для...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 080500. 68 «Бизнес-информатика»...
Бизнес информатика как инструмент конкурентной разведки iconПрограмма дисциплины «Методология и практика ит-консалтинга» для...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 080500. 68 «Бизнес-информатика»...
Бизнес информатика как инструмент конкурентной разведки iconПрограмма дисциплины «Анализ неструктурированной информации» для...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 080500. 68 «Бизнес-информатика»...
Бизнес информатика как инструмент конкурентной разведки iconПрограмма дисциплины «Системы имитационного моделирования» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 080500. 68 «Бизнес-информатика»...
Бизнес информатика как инструмент конкурентной разведки iconПрограмма дисциплины «Информационные системы целевого управления»...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 080500. 68 «Бизнес-информатика»...
Бизнес информатика как инструмент конкурентной разведки iconПрограмма дисциплины Информационные технологии управления знаниями...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 080500. 68 «бизнес-информатика»...
Бизнес информатика как инструмент конкурентной разведки iconУчебно-методический комплекс по дисциплине «бизнес-планирование»
Разработка основных разделов бизнес-плана: план маркетинга. Производственный план предприятия как раздел бизнес-плана. Организационный...
Бизнес информатика как инструмент конкурентной разведки iconРабочая программа Учебной дисциплины Научно-исследовательский семинар...
Программа составлена в соответствии с Федеральным государственным образовательным стандартом высшего профессионального образования...
Бизнес информатика как инструмент конкурентной разведки iconПамятка для студентов направления 080200 «Менеджмент» по изучению...
Бизнес в России – исторический аспект. Бизнес и его психологические предпосылки. Бизнес как юридически законная деятельность. Бизнес...
Бизнес информатика как инструмент конкурентной разведки iconПрограмма дисциплины «Современный финансовый менеджмент»  для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 080500. 68 «Бизнес-информатика»...
Бизнес информатика как инструмент конкурентной разведки iconПрограмма дисциплины Мобильные приложения Для направления специальности...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 080500. 68 «Бизнес-информатика»...
Бизнес информатика как инструмент конкурентной разведки iconПрограмма дисциплины Мобильные приложения Для направления специальности...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 080500. 68 «Бизнес-информатика»...
Бизнес информатика как инструмент конкурентной разведки iconПравительство Российской Федерации Нижегородский филиал
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 080500....


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск