Разработка методов обеспечения безопасности использования информационных технологий, базирующихся на идеях стеганографии

Скачать 1.43 Mb.

Название	Разработка методов обеспечения безопасности использования информационных технологий, базирующихся на идеях стеганографии
страница	3/10
Дата публикации	01.08.2013
Размер	1.43 Mb.
Тип	Автореферат

100-bal.ru > Информатика > Автореферат

1 2 3 4 5 6 7 8 9 10

1.3 Обзор известных методов стегоанализа текстовых файлов
В данном разделе главы мы рассмотрим обратную стеганографии задачу – стегоанализ. Целью которого является выявление факта наличия встроенного секретного сообщения в контейнере. Здесь будут рассматриваться только методы, обнаруживающие сгенерированный искусственный текст.

В качестве критерия оценки эффективности методов стегоанализа часто используют точность обнаружения – вероятность правильного распознавания содержимого контейнера. Также активно используются вероятности ошибочных срабатываний метода. Существует два рода ошибок:

Ошибка I рода – случай, когда метод принимает пустой контейнер
(без секретного сообщения) за заполненный (с секретным сообщением).

Ошибка II рода – случай, когда заполненный контейнер принимается
за пустой.

Как уже было отмечено, методы, генерирующие текст подобный естественному, имеют один существенный недостаток − получается бессмысленный стеготекст. Задача определения осмысленности текста
не может быть решена с помощью компьютера и требует участия человека. Однако учитывая большой объем передаваемых сообщений в сети,
это не всегда возможно. Поэтому особенно актуальна задача разработки новых подходов, позволяющих эффективно работать без привлечения человека.

Большинство методов стегоанализа текстовых данных, использующих статистические свойства контейнера, применяют один из популярных методов классификации Support Vector Machines (SVM), реализованный, например, в специальной утилите LIBSMV (доступной по адресу [11]).
На рис. 1.4 показан принцип работы метода.

На первом этапе происходит сбор статистических характеристик контейнеров и обучение SVM. На вход программе подаются два контейнера, A и B – пустой и заполненный соответственно. Производится анализ и расчет заданных статистических характеристик, соответствующих пустому
и заполненному контейнеру. На втором этапе осуществляется классификация. На вход подается подозрительный контейнер и найденные статистические характеристики. Аналогично с этапом обучения происходит сбор характеристик и определяется, к какому из контейнеров (пустому или заполненному) исследуемый ближе. При подходящем выборе статистических характеристик контейнера, данный метод классификации показывает достаточно высокую эффективность.

Этап 1. Обучение

A

SVM

B

Набор статистических характеристик

контейнера A,

контейнера B

Этап 2. Классификация

SVM

С

Набор хар- актеристик

Ответ:

С - (пуст или заполнен)
Рис. 1.4. Принцип работы метода Support Vector Machines
Метод, предложенный в работе [12], использует частоту встречаемости слов и ее дисперсию в анализируемом тексте. По полученным данным
с помощью SVM классификатора определяется факт наличия стеготекста, сгенерированного программными средствами [8], [9] или [10] в контейнерах размером 5Кб и более. Сумма ошибок I и II рода не превосходят 7.05%.

Метод, предложенный в работе [13], базируется на анализе статистической зависимости слов в тексте. Такая зависимость известна для стеготекста, обычного текста. С помощью специального алгоритма производится сбор статистических характеристик подозрительного контейнера и, используя SVM классификатор, определяется наличие стеготекста, сгенерированного программными средствами [8], [9] или [10]
в контейнере. В табл. 1.1 показана эффективность работы метода.

Таблица 1.1. Эффективность работы метода, базирующегося на анализе статистической зависимости слов в тексте

Размер контейнера	5 Кб	10 Кб	20 Кб	30 Кб	40 Кб
Точность обнаружения	87.39%	95.51 %	98.50 %	99.15 %	99.57 %

Наиболее эффективным при малых размерах входных данных является метод, опубликованный в работе [14]. Здесь используется прогнозирование для выявления искусственной природы текста, порожденного программой [8]. Сначала, производится анализ слов первой части текста, и составляется прогноз каждого последующего слова из второй части. Если в подавляющем большинстве случаев прогноз оказывается успешным, то это означает,
что мы имеем дело с естественным текстом. Частые ошибки
при прогнозировании могут свидетельствовать о наличии искусственного текста. Точность обнаружения стеготекста составляет 99.61% при размере контейнера в 400 байт и более.
Таблица 1.2. Наиболее эффективные методы обнаружения искусственного текста

Метод стегоанализа	Атакуемая стегосистема	Размер контейнера (байт)	Точность обнаружения
Meng P. и др. 2008 [14]	Nicetext	400	99.61%
Chen Z. и др. 2008 [12]	Texto	5000	92.95%
Chen Z. и др. 2008 [12]	MCB	5000	92.95%

Итак, подытожим результаты. В табл. 1.1. представлены наиболее эффективные методы стегоанализа текстовых данных, полученных
с помощью генерации стеготекста.

1.4 Описание предлагаемого подхода и построение схемы стегоанализа
1.4.1 Описание предлагаемого подхода

В настоящей работе предлагается новый метод, основанный
на подходе, предложенном Б. Я. Рябко [15], отличающийся от других тем, что для выявления факта наличия стеготекста используется сжатие данных. Идея подхода состоит в том, что внедряемое сообщение нарушает статистическую структуру контейнера, повышая
его энтропию. Следовательно, заполненный контейнер будет «сжиматься» хуже, чем незаполненный. В отличие от предыдущих аналогов, данный подход обладает рядом преимуществ:

Анализ занимает сравнительно мало времени (порядка
0.1-0.5 с на современных персональных компьютерах).
Для проведения анализа не требуется словарей синонимов или правил грамматики языка, занимающих большой объем памяти.

Теперь рассмотрим основную идею предлагаемого метода
на следующем примере:

Пусть существуют контейнеры и , пустой и заполненный соответственно. Размеры контейнеров до и после сжатия архиватором следующие:

Возьмем – подозрительный контейнер. Допишем в конец контейнеров и , сожмем и сравним получившиеся длины сообщений
после сжатия.

Таблица 1.3. Размеры контейнеров до и после сжатия

Контейнер	Размер добавленной части, байт
Контейнер	До сжатия	После сжатия
	500	300
	500	320

Таблица 1.4. Размер добавляемой части до и после сжатия

Исходный контейнер	Добавляемый контейнер	Размер, байт
Исходный контейнер	Добавляемый контейнер	До сжатия	После сжатия
		50	45
		50	20

Исходя из полученных данных, представленных в табл. 4, можно утверждать, что контейнер является статистически зависимым относительно контейнера , что обеспечивает хорошее сжатие. И наоборот, является независимым относительно , так как сжатие намного хуже. Следовательно, контейнер является стеготекстом. На этом принципе строится атака на широко известную стегосистему Texto.
1.4.2 Построение схемы стегоанализа

В этом разделе главы будет рассмотрен процесс построения стегоанализа. В предыдущем разделе мы описали следующий подход, использующийся для стегоанализа, изображенный на рис. 1.5.

К двум специальным контейнерам (A и B) пустому и заполненному соответственно, добавляется содержимое подозрительного контейнера. Далее производится сжатие архиватором, и по размерам полученных контейнеров определяется наличие стеготекста.

+

C

сжатие

a

с₁

b

c₂

A

B

Рис. 1.5. Схематичное изображение принципа работы предлагаемого стегоанализа

Очевидно, что на эффективность работы разрабатываемого метода стегоанализа могут влиять:

Содержимое специальных контейнеров
Размер специальных контейнеров
Размер подозрительного контейнера
Используемый архиватор

Теперь рассмотрим метод подробнее по пунктам:

Влияние содержимого специального контейнера может быть обусловлено тем, что любой искусственный текст, рассматриваемый
как битовая последовательность, содержит особые битовые последовательности, характерные только для стеготекста. Аналогичная ситуация может быть и с естественным текстом. Соответственно, при анализе специального контейнера будет выявлено характерное распределение вероятностей битовых серий. Предполагается, что если подозрительный контейнер является статистически зависимым от специального контейнера (то есть они оба порождены искусственно или естественно), то имеет место такое же распределение вероятностей, что обеспечит хорошее сжатие добавляемой части. Следовательно, при отсутствии статистических зависимостей между контейнерами, распределение вероятностей добавляемой части будут другим, что означает – сжатие будет плохим. Идея использования архиватора для установления статистической зависимости между контейнерами не новая и уже применялась в ряде работ, например [15,16].

В некоторых трудах, посвященных стегоанализу, в частности [17], утверждалось, что научные тексты отличаются от текстов художественной литературы по многим статистическим свойствам. Предугадать заранее, какой именно специальный контейнер нам нужен, не представляется возможным. Следовательно, содержимое специального пустого контейнера мы будем подбирать эмпирически.

При выборе размера специального контейнера необходимо учитывать то, что архиватору требуется достаточное количество текста для анализа, чтобы выявить основные серии бит, характерные для естественного
или искусственного текста. В нашей работе размер был зависим от длины анализируемого контейнера, и превосходил его в 10 раз.

При выборе длины подозрительного контейнера следует руководствоваться следующими принципами. Считается, что стегоанализ является более эффективным, если требуется меньший объем входных данных. Следовательно, необходимо стремиться к уменьшению длины анализируемого контейнера. Однако архиватору необходим достаточный объем добавляемой части для проведения стегоанализа. Слишком короткий текст не будет отражать реальные статистические особенности характерные для естественного или искусственного текста.

Выбор архиватора также влияет на эффективность нахождения повторяющихся серий бит в тексте, и, соответственно, влияет на качество стегоанализа. Во многих работах, посвященных стегоанализу, производится нахождение статистических закономерностей характерных только
для искусственного или естественного текста. В настоящей работе выявляется только факт взаимосвязи контейнеров одного типа при помощи архиватора.

1.4.3 Определение параметров алгоритма стегоанализа

В этом разделе главы мы уточним некоторые параметры разрабатываемого алгоритма. В частности, нам необходимо установить используемый архиватор и содержимое специальных контейнеров. Для этого введем некоторые обозначения:

− исходный размер специального контейнера.

− размер анализируемого контейнера.

− размер специального контейнера после сжатия.

− сумма размеров специального и анализируемого контейнера.

− размер сжатого специального и анализируемого контейнеров после слияния.

− коэффициент сжатия специального контейнера.

− коэффициент сжатия специального и анализируемого контейнеров после слияния.

Будем использовать следующую функцию:

, (1)

где – специальный контейнер, – анализируемый контейнер,
– используемый архиватор, и коэффициенты сжатия, соответствующие заданным контейнерам , и архиватору . Данная функция отражает изменение коэффициента сжатия специального контейнера до и после слияния.

Приступим к процессу выбора параметров работы алгоритма. Для этого будем рассматривать изменение значений функции при различных контейнерах и архиваторах. Нам необходимо найти такие значения параметров, для которых множество значений функции , соответствующее пустым контейнерам, не пересекалось с множеством, соответствующим заполненным контейнерам. Наличие пересечений означает то,
что мы не сможем однозначно отличить стеготекст от естественного текста.

Возьмем , , , – был взят произвольный стеготекст, полученный с помощью программы Texto.
– был взят произвольный естественный текст³ (Simple).

На следующем рис. 1.6, показаны два графика зависимости значений функции , при выбранных фиксированных параметрах, для 100 случайно отобранных файлов, содержащих стеготекст, сгенерированный при помощи Texto, и 100 файлов содержащих обычный текст.

Обозначим заполненный и пустой контейнеры и сооветственно, где номер файла.

Рис. 1.6. Графики функции и , при Кбайт, Кбайт.
Среднеквадратическое отклонение значений стеготекста и обычного текста составляет и соответственно. Математическое ожидание и .

Мы видим, что предположение о влиянии содержимого специального контейнера на степень сжатия добавляемого текста подтверждается.
Для высокой эффективности разрабатываемого стегоанализа необходимо, чтобы множества значений , соответствующих тексту и стеготексту, никогда не пересекались. Однако в нашем случае мы не можем гарантировать, что они не пересекутся, так как было рассмотрено всего 100 контейнеров. Мы можем говорить лишь о малой вероятности наступления такого события.

На следующем рисунке изображена другая пара графиков при выбранном значении .
Рис. 1.7. Графики функции и , при Кбайт, Кбайт.
Среднеквадратическое отклонение значений стеготекста и обычного текста составляет и соответственно. Математическое ожидание и .

Из графиков, представленных на рис. 1.7 видно, что множества значений функции для стеготекста от обычного текста пересекаются.
Это указывает на возможные ошибки при стегоанализе. Таким образом,
мы делаем вывод, что для построения анализа при выбранном параметре следует использовать в качестве специального контейнера − .

Теперь рассмотрим следующую пару рисунков, при .
Рис. 1.8. Графики функции и , при Кбайт, Кбайт.
Здесь на рис. 1.8 и . и .
Рис. 9. Графики функции и , при Кбайт, Кбайт.

Здесь на рис. 1.9 и .
и .

Графики, соответствующие архиваторам GZIP и ZIP, практически совпадают. Как и в предыдущем случае, при следует выбирать
в качестве специального контейнера .

Рассмотрим другую пару графиков, представленных на рис. 1.10
и рис. 1.11.
Рис. 1.10. Графики функции и , при Кбайт, Кбайт.
Здесь на рис. 1.10 и . и .

В отличие от предыдущих случаев выбранный архиватор BZIP2 обеспечивает малые значения и , как в случае выбора параметра , так и . Можно сказать, что значение функции
существенно зависит от происхождения текста (искусственный
или естественный). При этом влияние вида обычного текста (научный, художественный, …) является незначительным.
Рис. 1.11. Графики функции и , при Кбайт, Кбайт.
Здесь на рис. 1.11 и .
и .

Итак, мы будем использовать параметры и
по следующим причинам:

При выборе архиватора BZIP2 значения функции существенно зависят только от происхождения текста. Любые другие влияющие факторы могут потребовать корректировки схемы анализа,
что является нежелательным.
При выборе контейнера разность между и больше, чем при , что дает возможность в дальнейшем уменьшать размер анализируемого контейнера при сохранении уровня вероятности появления ошибок стегоанализа.

1.4.4 Поиск оптимальных параметров работы алгоритма

Эффективная работа алгоритма стегоанализа предполагает низкую вероятность ошибки при малых объемах входных данных. В предыдущем разделе размер входных данных был достаточно большим и составлял Кбайт. Для повышения эффективности работы метода мы будем уменьшать размер анализируемого контейнера и соответственно значение . Повышение эффективности ограничено некоторым минимальным размером анализируемого контейнера, при котором значения функций соответствующее естесственному тексту и стеготексту начинают пересекаться.

Рис. 1.12. Графики функции и , при Кбайт, Кбайт.

Рис. 1.13. Графики функции и , при Кбайт, Кбайт.

Рис. 1.14. Графики функции и , при Кбайт, Кбайт.

Рис. 1.15. Графики функции и , при Кбайт, Кбайт.

Рис. 1.16. Графики функции и , при Кбайт, Кбайт.

Рис. 1.17. Графики функции и , при Кбайт, байт.
Мы видим, что при указанных параметрах множества значений
для текста и стеготекста пересекаются. В ходе исследования был найден такой контейнер , полученный с помощью программы Nicetext, позволивший продолжить уменьшение размера анализируемого контейнера.
Рис. 1.18. Графики функции и , при Кбайт, байт.
Рис. 1.19. Графики функции и , при Кбайт, байт.
В конечном итоге был найден контейнер , обеспечивающий наиболее высокую эффективность работы анализа.
Рис. 1.20. Графики функции и , при Кбайт, байт.
В ходе дальнейших экспериментов при других наборах данных было установлено, что для стегоанализа следует использовать пару значений: и .

Например, на следующих рис. 1.21 и рис. 1.22 представлены графики значений функции и для 1000 пустых и 1000 заполненных контейнеров. (Для наглядности значения отсортированы по возрастанию.)
Рис. 1.22. Графики функции и для контейнеров .

Рис. 1.23. Графики функции и для контейнеров .

Из графиков становится видно, что если выполняется условие:
, то следует считать, что анализируемый контейнер пуст, иначе – заполнен.

Итак, мы выяснили, что в качестве архиватора следует использовать BZIP2, и минимальный размер анализируемого контейнера составляет 400 байт. В ходе ряда экспериментов на разных наборах данных было установлено, что для стегоанализа следует использовать пару значений:
и .

Таким образом, построенная схема стегоанализа состоит из нескольких шагов:

В специально подобранные контейнеры ( и )⁴ дописывается содержимое анализируемого контейнера .
Производится сжатие полученных контейнеров с помощью архиватора BZIP2.
Производится расчет значений
и .
Исходя из полученных значений ( и ) осуществляется определение факта наличия или отсутствия стеготекста в контейнере.

1.5 Экспериментальная проверка эффективности разработанной схемы стегоанализа
Для сравнения нового метода с ранее известными аналогами, необходимо определить эффективность разработанного метода экспериментально. В качестве критерия эффективности возьмем процентное отношение числа правильных распознаваний содержимого контейнера
к общему количеству попыток.

Для эксперимента была сформирована выборка, состоящая из 10000 случайно отобранных файлов содержащих обычный текст и 10000 содержащих стеготекст. Каждый файл, содержащий стеготекст, был получен с помощью программы Texto следующим образом. На вход программе подавался файл, содержащий псевдослучайную последовательность (имитирующий зашифрованное сообщение). На выходе программы создается файл содержащий стеготекст.

Для каждого файла выборки производился стегоанализ с помощью разработанного программного средства, рассчитывались характеристики,
по которым определялось наличие стеготекста. Были получены следующие результаты:
Таблица 1.5. Результаты работы программы.

Содержимое контейнера	Количество правильных определений	Количество неправильных определений
Обычный текст	10000	0
Стеготекст	9998	2

Таким образом, результаты эксперимента показывают, что ошибка I рода составляет 0,02%, ошибка II рода отсутствует.

Теперь рассмотрим диаграмму эффективности работы стегоанализа, когда размер анализируемого контейнера байт, представленную на рис. 1.24.

В таком случае, естественный текст продолжает распознаваться
без ошибок, а для искусственного текста вероятность ошибки возрастает
по мере уменьшения размера контейнера. Однако из рис. 1.24 видно,
что при байт предложенный метод быстро деградирует.
Рис. 1.24. Диаграмма точности работы метода при уменьшении размера контейнера.
Теперь сравним разработанный метод с существующими аналогами (Chen Z. и др. 2008(1) [12], Chen Z. и др. 2008(2) [13]). Ниже на рис. 1.25,
был построен график зависимости точности обнаружения от размера контейнера, различных схем стегоанализа.
Рис. 1.25. Сравнительные графики эффективности работы методов стегоанализа контейнеров, полученных с помощью программы Texto.

Таким образом, мы видим, что предложенный метод позволяет эффективно решать задачу обнаружения скрытой информации в текстовые контейнеры. Ошибка I рода составляет 0,02%, ошибка II рода отсутствует, для текстовых фрагментов размером 400 байт, полученных с помощью программы Texto. Более того, анализ контейнера занимает сравнительно мало времени (порядка 0.1-0.5 сек) на современных персональных компьютерах.
Выводы
Итак, в данной главе был построен метод стегоанализа текстовых данных базирующийся на сжатии. В ходе эксперимента было установлено,
что предложенная схема позволяет эффективно обнаруживать стеготекст
при малых объемах входных данных. По результатам проверки эффективности работы метода был сделан вывод о том, что разработанный алгоритм превосходит другие современные аналоги.

1 2 3 4 5 6 7 8 9 10

	Российской федерации Курс призван дать понимание принципов построения и функционирования сети Интернет, а также базирующихся на ней информационных технологий....		Аналитический доклад Совету глав правительств СНГ о текущем состоянии,... В настоящее время эффективное информационное взаимодействие невозможно представить без использования информационных технологий, телекоммуникационных...
	Information technology. Security techniques. Methodology for it security evaluation Информационная технология. Методы и средства обеспечения безопасности. Методология оценки безопасности информационных технологий		Выпускная работа по «Основам информационных технологий» На современном этапе ни одни исследования в науке невозможно представить без использования информационных технологий. Данный реферат...
	Основные направления внедрения средств информационных и коммуникационных... Зация образования – это процесс обеспечения сферы образования методологией и практикой разработки и оптимального использования современных...		Доклад по теме: «Внедрение технологий глонасс в интересах обеспечения... «Внедрение технологий глонасс в интересах обеспечения безопасности граждан и социально-экономического развития Костромской области....
	Применение информационных технологий на уроках английского языка... Возможности использования информационно-коммуникативных технологий в обучении английскому языку 17		Методические рекомендации по организации месячникамедиабезопасности... Мешиона от 24. 10. 13 №397-у «О проведении Интрнет-уроков «Имею право знать!», в целях обеспечения информационной безопасности обучающихся,...
	Исследование и разработка методов и средств обеспечения информационной... Работа выполнена на кафедре прикладной информатики Московского государственного университета геодезии и картографии (миигаиК)		Применение информационных технологий на уроках истории и обществоведения... Возможности использования информационно-коммуникативных технологий в обучении истории 17
	Программа по формированию навыков безопасного поведения на дорогах... Изучение и разработка новых методов подготовки к егэ в 11 классе с учетом использования современных технологий		Программа по формированию навыков безопасного поведения на дорогах... Изучение и разработка новых методов подготовки к егэ в 11 классе с учетом использования современных технологий
	Эффективность использования информационных технологий в исследованиях... Специальность 23. 00. 01 – теория и философия политики, история и методология политической науки		Рабочая программа учебной дисциплины «Информационные системы в экономике» Сформировать у студентов знаний и навыков в области использования информационных технологий и информационных систем для решения экономических...
	Методические рекомендации по государственной регистрации и учету... «Центр информационных технологий и систем органов исполнительной власти» (далее – фгну цитиС) в целях формирования национального...		Приходько Юлия Алексеевна Приложение №2 Белгородский региональный... Необходимость внедрения новых информационных технологий в процесс обучения математики

Разработка методов обеспечения безопасности использования информационных технологий, базирующихся на идеях стеганографии

Похожие: