WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

На правах рукописи

Семенова Мария Александровна

МОДЕЛЬ И МЕТОД ГРАДУИРОВАННОЙ ФИЛЬТРАЦИИ

«СПАМА»

Специальность 05.13.19.

Методы и системы защиты информации,

информационная безопасность

Автореферат

диссертации на соискание ученой степени

кандидата технических наук

Санкт-Петербург 2009 2

Работа выполнена на кафедре «Безопасные информационные технологии» Государственного образовательного учреждения высшего профессионального образования «Санкт-Петербургского государственного университета информационных технологий, механики и оптики»

(ГОУВПО «СПб ГУ ИТМО»).

Научный руководитель: Доктор технических наук, профессор Осовецкий Леонид Георгиевич

Официальные оппоненты: Доктор технических наук, профессор Фетисов Владимир Андреевич Кандидат технических наук, профессор Звонов Валерий Степанович

Ведущая организация: ЗАО «Эврика» г. Санкт-Петербург

Защита состоится " 15 " декабря 2009 г. в 12 часов 00 минут на заседании диссертационного совета Д 212.227.05 при Санкт-Петербургском Государственном университете информационных технологий, механики и оптики, по адресу: 197101, Санкт-Петербург, Кронверкский пр., д. 49.

С диссертацией можно ознакомиться в библиотеке СПб ГУ ИТМО.

Автореферат разослан "12" ноября 2009г.

Ученый секретарь Диссертационного совета Д 212.227. кандидат технических наук доцент _ Поляков В.И.

Общая характеристика работы

АКТУАЛЬНОСТЬ ТЕМЫ

Распространение писем, в число которых входит и большой объем нежелательной корреспонденции («спама»), приняло в сети «Интернет»

угрожающие размеры и стало серьезно мешать работе этой сети. В среднем прием «спама» достигает до 100 писем в день. В настоящее время создание модели фильтрации, которая бы позволила снизить ошибочные срабатывания фильтра, представляет собой самую трудную часть фильтрации. Итак, центральная технология для фильтрации сообщения – правильная оценка количества слов, по которым будут производиться дальнейшие расчеты «спамерности» поступившего сообщения. В зависимости от того, какие данные, будут содержаться по данным словам в частотных словарях, будет зависеть и результат фильтрации.




Таким образом, работа, посвященная разработке модели и метода градуированной фильтрации «спама», АКТУАЛЬНА и представляет научный и практический интерес.

Значимость и актуальность предопределили выбор направления исследования, цели и задачи работы.

ЦЕЛИ И ЗАДАЧИ ДИССЕРТАЦИИ

Целью диссертационной работы является разработка модели и метода градуированной фильтрации «спама» для улучшения качества и увеличения достоверности фильтрации нежелательной корреспонденции.

Поставленная цель исследования определяет необходимость решения нижеследующих основных задач.

1. Проведение анализа предметной области для установления существующих и разрабатываемых подходов к вопросу «антиспамовой» защиты.

2. Определение критериев качественного функционирования системы фильтрации нежелательной корреспонденции.

3. Создание модели и метода фильтрации нежелательной корреспонденции, которые удовлетворят выбранным критериям.

4. Создание инструментально-технологического комплекса, предоставляющего возможность использования предложенного метода фильтрации «спама».

5. Проведение исследования экспериментального использования предложенных модели и метода градуированной фильтрации В соответствии с целями и задачами диссертационного исследования определены его предмет и объект.

ПРЕДМЕТ ИССЛЕДОВАНИЯ

Предметом исследования диссертационной работы является комплекс вопросов, связанных с разработкой модели и метода фильтрации нежелательной корреспонденции, а также оценка использования данных модели и метода.

ОБЪЕКТ ИССЛЕДОВАНИЯ

В качестве объекта исследования выступают современные технологии фильтрации «спама».

МЕТОДОЛОГИЧЕСКАЯ ОСНОВА ИССЛЕДОВАНИЯ

Методологической основой исследования являются труды отечественных ученых и специалистов по проблемам национальной, экономической и информационной безопасности, руководящие документы Гостехкомиссии России, законодательные акты Российской Федерации, энциклопедическая и справочная литература, материалы периодической печати, а также опыт организации работы по обеспечению «антиспамовой»

защиты.

ОСНОВНЫЕ НАУЧНЫЕ ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА

ЗАЩИТУ

корреспонденции («спама»);

2. Метод градуированной фильтрации «спама» отличающийся от существующих методов новым способом нахождения количества слов для оценки письма и улучшенным способом вычисления коэффициентов «спамерности»;

3. Критерии качественного функционирования системы фильтрации нежелательной корреспонденции;

4. Результаты сравнительного анализа использования модели и метода градуированной фильтрации «спама».





НАУЧНАЯ НОВИЗНА И ТЕОРЕТИЧЕСКАЯ ЗНАЧИМОСТЬ

Научная новизна и теоретическая значимость работы определяются авторской разработкой модели и метода градуированной фильтрации нежелательной корреспонденции и заключаются в следующем:

1. Определение критериев качественного функционирования автоматизированной системы фильтрации «спама».

2. Разработка новой модели градуированной фильтрации нежелательной корреспонденции («спама»), позволяющей уменьшить количество ложных тревог и пропуска «спама».

3. Разработка нового метода градуированной фильтрации нежелательной корреспонденции («спама»), который, в отличие от известных подходов, позволяет повысить качество оценки данных за счет учета следующих параметров (количества писем, в которых встречались слова определенной категории; частоты использования слов, в письмах определенной категории; использования слов, впервые встретившихся в проверяемом письме и не существовавших до этого в базе).

4. Разработка нового способа нахождения эвристического коэффициента (основанного на количестве слов для анализа письма) и оценки нахождения «спама» с учетом нового расчета коэффициентов «спамерности».

ПРАКТИЧЕСКАЯ ЦЕННОСТЬ

Практическая ценность работы состоит в том, что разработанные модель и метод градуированной фильтрации «спама» позволяют оценить уровень защиты от «спама», что было подтверждено проведенными исследованиями и практическими применениями полученных результатов в рамках работ на 3 различных серверах. Практическую ценность также определяет возможность использования разработанного инструментальнотехнологического комплекса, реализующего представленный метод градуированной фильтрации «спама» и одобренного пользователями почтовых систем.

Материалы диссертации могут быть использованы при разработке методических материалов для учебного процесса в вузах соответствующего профиля.

АПРОБАЦИЯ РАБОТЫ

Основные положения диссертации докладывались на научнопрактических конференциях Санкт-Петербургского государственного университета информационных технологий, механики и оптики.

ВНЕДРЕНИЕ РЕЗУЛЬТАТОВ

Результаты работы использованы в учебном процессе кафедры БИТ СПбГУ ИТМО по специальности 090103 по дисциплинам «Введение в специальность» и «Теория информационной безопасности и методология защиты информации» и кафедры «Прикладной информатики» АНО ВПО «Международного банковского института» по специальности 351400 по дисциплине «Прикладная информатика в экономике».

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

По материалам диссертации опубликованы шесть печатных работ, в том числе, три входящие в список рекомендованных ВАК для кандидатских диссертаций.

СТРУКТУРА И ОБЪЕМ ДИССЕРТАЦИИ

Диссертация состоит из введения, четырех глав, заключения, списка литературы, списка публикаций, приложений. Материал изложен на страницах машинописного текста, содержит 36 рисунков и 10 таблиц, список литературы состоит из 59 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы и научная новизна, сформулированы цели и задачи диссертации, аргументируется практическая ценность полученных научных результатов и представлены основные положения, выносимые на защиту.

В первой главе рассмотрены системный подход к обеспечению фильтрации нежелательной корреспонденции, наиболее распространенные виды «спама», способы распространения и причины возникновения почтового «спама», а также причиняемый от этого ущерб. Кроме того, описаны существующие алгоритмы фильтрации «спама» используемые в «антиспамовой» защите, их недостатки.

Самый большой поток «спама» распространяется через электронную почту (e-mail). В настоящее время доля вирусов и «спама» в общем трафике электронной почты составляет по разным оценкам 70-95%.

Причиняемый вред, заключается в том что «спам» может выступать переносчиком троянских программ и компьютерных вирусов, так как злоумышленник делает рассылку этих программ с целью получения доступа к компьютерным системам, выведения их из строя или получения конфиденциальных данных.

Далее описаны методы борьбы с нежелательной электронной корреспонденцией.

В последнее время все больше пользователей в борьбе с нежелательной корреспонденцией используют «антиспамовые» фильтры.

Во многих почтовых программах в последнее время кроме стандартных папок появилась такая папка, как «спам», в которую должна отсортировываться вся нежелательная корреспонденция. Эта сортировка возможна как вручную, так и при помощи самодельной системы фильтров.

ПО автоматизированной фильтрации используют два основных подхода:

анализируется содержание письма и делается вывод, «спам» это или применяются различные методы для опознавания отправителя как «спаммера», не заглядывая в текст письма.

Проблемой при автоматизированной фильтрации является то, что она может по ошибке отмечать полезные сообщения как «спам». Поэтому многие почтовые сервисы не стирают те сообщения, которые фильтр счёл «спамом», а помещают их в отдельную папку.

Кроме того, в данной главе рассмотрены методы автоматизированной фильтрации нежелательной корреспонденции.

Существует множество алгоритмов фильтрации на основе анализа содержания письма. Некоторые реализуются в программных средствах, которые на сервере или после «скачивания» писем на компьютер пользователя анализируют заголовки сообщений, их содержание.

В основе метода статистической фильтрации лежит механизм разбиения входящих писем на слова («токены»). Берется архив старых вручную отсортированных сообщений и передается программе обучения. Она составляет частотные словари для каждой папки сообщений.

Когда словари заполнены, вычисление вероятности принадлежности конкретного нового письма к тому или иному типу производится по схеме представленной на рисунке 1.

Рис.1. Схема процесса фильтрации спама на основе Байесовского Вычисление вероятности принадлежности конкретного нового письма к тому или иному типу производится по соотношению Байеса для каждого слова этого нового письма. Суммированием и нормализацией вероятностей слов получают вероятность для всего письма. Как правило, вероятность принадлежности к одному из типов намного выше, чем к другим. Вот в эту папку сообщение и отправляется.

В других существующих алгоритмах для расчета «спамерности»

применяется приведенная выше методика с использованием следующих правил:

для анализа сообщений используются не все слова, а 15, 25 или слов, для которых коэффициент «спамерности» слов наиболее сильно отклоняется от нейтрального значения 0,5;

если ранее слово встречалось менее чем в пяти письмах, оно впервые встретившимся словам в некоторых алгоритмах присваиваются коэффициенты 0.5 или 0.4.

Преимущества методов автоматической фильтрации (использующих фильтры) по сравнению с другими методами фильтрации «спама»

заключаются в следующем:

просмотр полного нежелательного сообщения, а не только ключевых слов или известных подписей;

непрерывное изучение нового «спама» и новых приемлемых набор данных уникален для каждой организации;

многоязычность.

При всех явных достоинствах фильтров, описанных в данной главе, существуют и некоторые недостатки, такие как: необходимость переобучения, ложные срабатывания и другие (вызванные ограниченным количеством слов). Различают два вида ложных срабатываний: это неверное зачисление письма в «спам» и неверное причисление письма к «не-спаму».

Во второй главе описаны разработанные модель и метод градуированной фильтрации «спама», в которых для расчета общей оценки письма, используется новый способ нахождения количества слов для оценки письма и новый способ вычисления коэффициентов «спамерности», позволяющие улучшить качество фильтрации. Данный метод позволяет накопить достаточно информации для эффективной фильтрации электронной почты и тем самым устранить в какой-то степени вышеописанные недостатки фильтрации.

Сформулированы исходные положения метода градуированной фильтрации «спама».

Данный метод нацелен на решение следующих двух проблем.

1. Повышение качества оценки данных (градуирования), т.е. проблемы, связанной с градуированием соотношения «спама» и «не-спама».

2. Анализ «токенов», впервые встретившихся в проверяемом письме и не существовавших до этого в базе.

В основе метода градуированной фильтрации лежит механизм разбиения входящих писем на слова, на основе которых составляются частотные словари. Ниже представлена схема составления частотных словарей по методу градуированной фильтрации «спама» (см. рис. 2) Рис. 2 Схема заполнения частотных словарей по методу В процессе заполнения частотных словарей по методу градуированной фильтрации «спама» вычисляются следующие значения: частота использования слов в письмах «спама» («не-спама»); относительная частота появления данного слова в словаре «спама» («не-спама»); коэффициент «спамерности» слова; количество писем «спама» («не-спама»), в которых встретилось данное слово.

Когда словари заполнены, фильтрация на основе метода градуированной фильтрации «спама» производится по схеме представленной на рисунке 3.

Рис.3. Схема процесса фильтрации писем на основе метода градуированной Каждое новое письмо, поступающее через фильтр, разбивается на слова. Далее эти слова анализируются с помощью частотных словарей с целью определения исторических данных (данных, находящихся в частотных словарях). Если же такого слова не было ни в одном из словарей, то автоматически устанавливается коэффициент, равный 0,5, а по мере накопления статистики это значение будет выходить на свой естественный уровень. После этого необходимо произвести выборку слов, по которым будут производиться дальнейшие расчеты. Согласно методу градуированной фильтрации «спама» это кол-во слов вычисляется как среднее количество слов, для которых коэффициент «спамерности» слова попадает в указанный пользователем интервал, т.е. наиболее сильно отличается от нейтрального значения 0,5. После этого рассчитывается суммарный коэффициент «спамерности» (коэффициент, определяющий вероятность того, что письмо является «спамом») и коэффициент «не-спамерности» для слов определенных на предыдущем шаге. Затем вычисляется общая оценка письма, по соотношению Байеса, но с подстановкой новых вероятностей нахождения «спама» в письме. После этого выполняется оценка письма, по шкале, заданной пользователем.

функционирования системы фильтрации «спама»: P = P + P ; P + P

О С Н СО СН

где: PO – общее количество писем; PС – реальное кол-во писем «спама»;

PСО – найденное кол-во писем «спама»; PН – реальное кол-во писем «не-спама»; PСН – кол-во нормальных писем зачисленных в «спам» (ложные тревоги);

K 1 представляет собой K CH – количество ложных тревог (письма ошибочно классифицированные как «спам») K 2 представляет собой K СО – количество пропущенных писем K 3 – качество фильтрации (зависимость результата фильтрации от фактора ложного выявления и пропуска «спама»); K 3 = K СН K СО Суть метода фильтрации состоит в применении математических соотношений, приведенных ниже, к входящим письмам. Эти соотношения позволяют вычислить вероятность успешного совершения некоторого события на основании статистики совершения этого события в прошлом.

Применительно к «спаму», принцип работы классификатора построенного на основе метода градуированной фильтрации можно описать следующими соотношениями:

Пусть письмо содержит «не-спамерности» отдельных слов p ds1... p dsk.

Тогда общая оценка письма может быть вычислена по следующим где: P - вероятность того, что сообщение является «спамом», S - суммарный коэффициент «спамерности» сообщения, G - суммарный коэффициент «не-спамерности» сообщения, K - заданный пользователем порог [0, 1].

Для вычисления вероятностей p si и p dsi используется так называемый процесс «обучения», во время которого анализируются заранее классифицированные письма.

Подсчет «спамерности» и «не-спамерности» в общем случае осуществляется по следующим соотношениям:

S = ps1 * ps2 * ps3 *...* ps(k1) * psk (2) ; G = pds1 * pds2 * pds3 *...* pds(k1) * pdsk (3) Для корректного соотношения «спама» и «не-спама» и в дальнейшем оценки категории письма (градуирования) будем вычислять «спамерность»

по соотношению вычисления вероятностей, которое при нулевой частоте использования дает нейтральный результат, а при пересчете всех величин после определения категории письма, выйдет на свой естественный уровень.

Коэффициенты «спамерности» и «не-спамерности» слов из рассматриваемого письма будут рассчитываться следующим образом:

где: n si - количество ранее обработанных сообщений «спама» со словом i, n dsi - количество ранее обработанных сообщений «не-спама» со словом i, p dsi - коэффициент «не-спамерности» для i - го слова, p si коэффициент «спамерности» для i - го слова.

В методе градуированной фильтрации «спама» также предусмотрен расчет относительной частоты появления данного слова в словарях, т.е.

степень возможности появления данного слова в конкретном словаре. Для анализа полученных данных пользователем, предусмотрена визуализация данных, отражаемая в относительной частоте появления данного слова в словарях.

Данная величина рассчитывается по следующему соотношению:

где: - относительная частота появления «спама»; относительная частота появления «не-спама»; sk - частота k -го слова в письмах «спама»; dsk - частота k -го слова в письмах «не-спама».

Помимо математических соотношений для расчета общей оценки письма, описаны правила, используемые при фильтрации сообщений, заключающиеся в следующем:

для анализа сообщений используются среднее количество слов, наиболее сильно отличающихся от значения 0,5;

новое слово, не встречавшееся ранее, получает стартовую «спамерность» 0,5 за счет использования вышеприведенного соотношения (4);

используются «токены» с малой частотой нахождения в сообщениях, т.к. их «спамерность» вычисляется по соотношению (4).

Процесс вычисления количества слов участвующих в дальнейших расчетах коэффициентов «спамерности»/ «не-спамерности» и определения категории письма представлен на рисунке 4.

Рис.4. Процесс вычисления количества слов участвующих в дальнейших расчетах по методу градуированной фильтрации «спама»

Далее приведены обоснования использования модели и метода градуированной фильтрации «спама».

Данный метод фильтрации позволяет автоматически настроить фильтры согласно особенностям индивидуальной переписки, а при обработке учитывает признаки как «плохих», так и «хороших» фильтров.

Статистика архива позволяет автоматически анализировать почтовый поток и периодически корректировать работу уже созданного фильтра. Этот факт позволяет назвать данную систему самообучающейся. Благодаря этому свойству системы практически исключены ошибочные срабатывания фильтра и, следовательно, потери важной информации.

Кроме того, в данной главе был проведен анализ оценок нахождения «спама» с помощью различных алгоритмов с учетом эвристического коэффициента. В результате данного анализа было подтверждено, что ограниченное количество слов для оценки не может дать точного результата.

Вместе с тем, произведен анализ оценок нахождения «спама» посредством различных алгоритмов с учетом использования различных способов расчета коэффициентов «спамерности». В результате анализа полученных результатов на этапе выбора эвристического коэффициента, в зависимости от способов расчета коэффициентов «спамерности», можно говорить о том, что при использовании алгоритмов, в которых игнорируются впервые встретившиеся слова, невозможно получить наиболее точную оценку письма. Это объясняется тем, что при расчете количества слов для оценки письма будет использоваться гораздо меньшее количество слов.

В третьей главе описан имитационный технологический комплекс поддержки метода градуированной фильтрации «спама».

Описана структура, реализующая разработанные алгоритмы.

Особенностью технологии автоматизированной фильтрации «спама»

является возможность индивидуальной автоматической настройки фильтра, что является важным преимуществом, поскольку разные люди или же компании используют в электронной переписке разную лексику.

Основными этапами работы с инструментально-технологическим комплексом «контр-спам» являются нижеследующие.

1. «Обучение» автоматизированной системы фильтрации «спама».

2. Работа с автоматизированной системой фильтрации «спама».

Автоматизированная система фильтрации «спама» определяет частоту вхождения слов и фраз в каждом почтовом сообщении и ведёт базу данных частотных словарей, на основе которых определяет вероятность принадлежности сообщения к «спаму». После обработки каждого электронного сообщения обновляются частотные словари. За счет этого выполняется динамическая подстройка автоматизированной системы фильтрации к постоянно меняющемуся потоку сообщений.

Процесс заполнения частотных словарей по методу градуированной фильтрации «спама» состоит из следующих этапов:

1. выделение писем относящихся к «спаму»(«не-спаму»);

2. разделение указанных писем на слова;

3. подсчет количества одинаковых слов, встретившихся в письмах категории «спама»(«не-спама»);

4. расчет относительной частоты появления данного слова в словаре «спам»(«не-спама»);

5. расчет коэффициента «спамерности» слова;

6. подсчет количества писем, в которых встретилось слово определенной категории.

Процесс фильтрации по методу градуированной фильтрации «спама»

состоит из следующих этапов:

1. сообщение разделяется на отдельные слова;

2. сравнение слов, находящихся в фильтруемом письме, с частотными словарями для определения его исторических данных;

3. определение количества слов, по которым будет произведена оценка 4. расчет суммарного коэффициента «спамерности» и «неспамерности» для слов, выбранных в пункте 3;

5. оценка письма;

6. определение, к какой категории отнести письмо на основании шкалы заданной пользователем («порог для оценки письма») и значения оценки письма, полученной в пункте 5.

В данном разделе приведены функциональные возможности работы инструментально-технологического комплекса «контр-спам».

Далее представлен механизм управления автоматизированной системой фильтрации «спама».

Основу механизма управления составляет заполнение частотных словарей по методу градуированной фильтрации «спама», которое в свою очередь состоит из ряда процессов, позволяющих выполнить данную функцию. После того, как будут заполнены частотные словари, и перед тем, как переходить непосредственно к фильтрации сообщений, необходимо задать порог коэффициента «спамерности» слова, для определения количества слов для оценки письма, а также «порог для оценки письма», т.е.

значения по шкале от [0; 1], в пределах которых будет оцениваться категория письма. После этого можно переходить ко второму основному процессу, т.е.

к фильтрации входящего потока сообщений по методу градуированной фильтрации «спама».

Кроме того, приведено описание интерфейсов: механизма управления «обучением» частотных словарей (рис. 5а), механизма управления фильтрацией входящего потока сообщений (рис 5б). А также описан механизм управления корректировкой частотных словарей.

Рис.5. Интерфейсы механизма управления «обучением» и механизма фильтрацией входящего потока сообщений исследование модели и метода градуированной фильтрации «спама».

Целью экспериментального исследования являлась проверка эффективности использования модели и метода градуированной фильтрации «спама».

Задачи экспериментального исследования сводились к следующему:

1) проверка опытно-экспериментальным путем эффективности использования предложенной во второй главе модели и метода градуированной фильтрации «спама»;

2) разработка рекомендаций по работе с автоматизированной системой фильтрации «спама».

В ходе исследования эффективности использования предложенных модели и метода градуированной фильтрации «спама» возникла необходимость отслеживания динамики изменения значений величин в частотных словарях, степени корректной фильтрации входящих сообщений в зависимости от различных устанавливаемых значений порога коэффициента «спамерности» слова и порога оценки письма при работе с автоматизированной системой фильтрации «спама».

Произведено исследование динамики изменения значений величин в частотных словарях инструментально-технологического комплекса «контрспам» на одинаковом количестве писем, а также произведен анализ результатов исследования.

рис. 6. По горизонтали откладывается количество слов в рассматриваемом письме, а по вертикали F, т.е. вероятность того, что слово является «спамом»/ «не-спамом».

Рис.6. Заполнение частотных словарей для равного количества писем Опытно-экспериментальные исследования подтвердили, что с увеличением числа писем определенной категории изменяется соотношение относительной частоты для всех слов, находящихся в рассматриваемом письме и частотных словарях, а также значение вероятности принадлежности слов к определенным категориям.

Однако бывают случаи, когда значения вероятности снижается, а потом вновь увеличивается (случай "редко встречающиеся слова в словаре «спама»" на представленном рисунке), а это происходит из-за того, что после обработки каждого письма все его значения пересчитываются и при рассмотрении последующего письма рассматриваемое слово может встретиться чаще или реже, чем в предыдущем письме. Но в конечном итоге слова, относящиеся к «спаму»/ «не-спаму» будут преобладать в письмах данной категории.

Далее проведено исследование степени корректной фильтрации входящего потока в инструментально-технологическом комплексе «контрспам» в зависимости от значения порога коэффициента «спамерности» слова на базе трех различных серверов, а также проведен анализ результатов экспериментального исследования.

Результаты исследования фильтрации входящего потока сообщений представлены на рис. 7. Всего входящих писем 419, 209 из которых являлись «спамом», 210 «не-спамом». Пороги коэффициента «спамерности» были установлены: начальный – 0.4; конечный – 0.6, а пороги для оценки письма равными: начальный – 0.4; конечный – 0. Рис. 7. Процентное соотношение найденного «спама» и «не-спама»

автоматизированной системой фильтрации «спама», использующей модель и метод градуированной фильтрации «спама» в зависимости от порога По результатам анализа результатов на этапе фильтрации входящего потока сообщений можно говорить о том, что система во всех трех случаях не смогла распознать лишь 1% писем, а количество ложных срабатываний и пропуска «спама» оказалось равным 5%.

Также проведено исследование степени корректной фильтрации входящего потока сообщений в инструментально-технологическом комплексе «контр-спам» в зависимости от значения порога для оценки письма.

Результаты исследования фильтрации входящего потока сообщений представлены на рис. 8. Всего входящих писем 419, 209 из которых являлись «спамом», 210 «не-спамом». Пороги коэффициента «спамерности» были установлены: начальный – 0.4; конечный – 0.6, а пороги для оценки письма равными: начальный – 0.35; конечный – 0.65.

Рис. 8. Процентное соотношение найденного «спама» и «не-спама»

автоматизированной системой фильтрации «спама», использующей модель и метод градуированной фильтрации «спама» в зависимости от порога для По результатам анализа полученных результатов на этапе фильтрации входящего потока сообщений можно говорить о том, что система во всех трех случаях не смогла распознать лишь 1 % писем, а количество ложных срабатываний и пропуска «спама» оказалось равным 6 %.

Изменение порога коэффициента «спамерности» слов, а также порога для оценки письма приводит, в основном, к увеличению количества писем, у которых невозможно определить категорию.

Результаты исследования фильтрации входящего потока сообщений с измененным порогом коэффициента «спамерности» представлены на рис. 9.

Всего входящих писем 117, 53 из которых являлись «спамом», 64 «неспамом». Пороги коэффициента «спамерности» были изменены на:

начальный – 0.2; конечный – 0.8.

Рис. 9. Процентное соотношение найденного «спама» и «не-спама»

автоматизированной системой фильтрации «спама», использующей модель и метод градуированной фильтрации «спама» в зависимости от измененного Результаты исследования фильтрации входящего потока сообщений с измененным порогом оценки письма представлены на рис. 10. Всего входящих писем 117, 53 из которых являлись «спамом», 64 «не-спамом».

Пороги оценки письма были изменены на: начальный – 0.2; конечный – 0.8.

Рис. 10. Процентное соотношение найденного «спама» и «не-спама»

автоматизированной системой фильтрации «спама», использующей модель и метод градуированной фильтрации «спама» в зависимости от измененного По результатам анализа полученных результатов на этапе фильтрации входящего потока сообщений в зависимости от изменения порогов коэффициента «спамерности» увеличилось количество писем с неопределенной категорией с 1% до 17% для «хороших» писем и с 0% до 23% для писем «спама», а в случае изменения порога оценки письма можно говорить о том, что увеличилось количество писем с неопределенной категорией с 1% до 11% для «хороших» писем и с 1% до 19%.

Оптимальными считаются следующие значения: начальный порог варьируется 0.3 – 0.4; конечный порог варьируется 0.6 – 0.7.

По результатам проведенного эксперимента на этапе фильтрации входящего потока сообщений можно говорить о том, что в ходе эксперимента были получены результаты, подтверждающие целесообразность использования модели и метода градуированной фильтрации «спама».

Опытно-экспериментальные исследования также подтвердили, что с изменением порогов «спамерности» слов, а также порогов оценки письма результаты существенно изменяются. Кроме того, в ходе исследования были определены диапазоны значений порогов коэффициентов «спамерности» слов и порогов оценки письма, в результате использования которых автоматизированная система фильтрации «спама» достигает наилучших результатов.

В ЗАКЛЮЧЕНИИ ПРИВЕДЕНЫ ОСНОВНЫЕ РЕЗУЛЬТАТЫ

ДИССЕРТАЦИОННОЙ РАБОТЫ:

1. Проведен анализ предметной области и установлены существующие и разрабатываемые подходы к вопросу «антиспамовой» защиты.

2. Определены критерии качественного функционирования системы фильтрации нежелательной корреспонденции.

3. Разработана модель градуированной фильтрации нежелательной корреспонденции («спама»), позволяющая снизить долю пропущенного «спама» и ложных тревог.

4. Предложен метод фильтрации нежелательной корреспонденции, позволяющий улучшить качество фильтрации за счет нового способа нахождения эвристического коэффициента и нового способа расчета коэффициентов «спамерности».

5. Разработан инструментально-технологический комплекс, предоставляющий возможность использования предложенного метода фильтрации «спама».

6. Проведено исследование экспериментального использования предложенной модели и метода градуированной фильтрации «спама».

В ПРИЛОЖЕНИЯХ ПРИВЕДЕНЫ ИСХОДНЫЕ ТЕКСТЫ

КОМПЛЕКСА И АКТЫ О ВНЕДРЕНИИ.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. В.А. Семёнов, М.А. Семёнова, М.В. Лекомцева статья «Организация борьбы с преступлениями в сфере банковского кредитования»

// Научно-технический Вестник СПбГУ ИТМО. Выпуск 40. Научная школа «Информационная безопасность, проектирование, технология элементов и узлов компьютерных систем». Труды молодых ученых.

СПбГУ ИТМО 2007. стр. 252-257.

2. Семёнова М.А., Семёнов В.А. статья «Комплексные решения в области соблюдения мер обеспечения информационной безопасности в банковской сфере» // Научно-технический Вестник СПбГУ ИТМО. Выпуск 51. Научные школы в СПБГУ 3. Семёнова М.А., Семёнов В.А. статья «Метод градуированной фильтрации нежелательной корреспонденции («спама»)», // Научно-технический Вестник СПбГУ ИТМО. Выпуск № 05(63), 4. М.А. Семёнова, В.А. Семёнов статья «Метод автоматической фильтрации при борьбе со «спамом», // Известие вузов.

5. М.А. Семёнова, В.А. Семёнов «Метод градуированной фильтрации в борьбе со «спамом» // XIV международная научно-практическая конференция «Теория и технология программирования и защиты информации» 20 мая 2009г., Санкт-Петербург – Сборник научных 6. Семёнова М.А., Семёнов В.А. статья «Современные методы и средства сетевой защиты. Межсетевые экраны», // Сборник трудов VI Всероссийской Межвузовской конференции молодых ученых, выпуск 6 «Информационные технологии», безопасность и противодействие терроризму, защита информации, СПб: СПбГУ Тиражирование и брошюровка выполнены в Центре "Университетские Телекоммуникации".

Санкт-Петербург, Кронверкский пр., 49. Тел. (812) 233-46-69.

Лицензия ПДЛ №69-182 от 26.11.96 Тираж 100 экз.



 
Похожие работы:

«ЧЕРНЯЕВ АЛЕКСЕЙ НИКОЛАЕВИЧ СОЗДАНИЕ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ ОПЕРАТИВНОГО УПРАВЛЕНИЯ РЕЖИМАМИ РАБОТЫ ЭЛЕКТРОСТАНЦИИ Специальность 05.13.06 – Автоматизация и управление технологическими процессами и производствами (в энергетике) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва 2011 2 Работа выполнена на кафедре Автоматизированных систем управления тепловыми процессами Московского энергетического института (технического университета)....»

«МОКШАНЦЕВ АЛЕКСАНДР ВЛАДИМИРОВИЧ МОДЕЛИ И АЛГОРИТМЫ ПОДДЕРЖКИ ПРИНЯТИЯ УПРАВЛЕНЧЕСКИХ РЕШЕНИЙ ПРИ ПОИСКЕ ПОСТРАДАВШИХ ПОД ЗАВАЛАМИ Специальность: 05.13.10 Управление в социальных и экономических системах (технические наук и) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва – 2013 Работа выполнена в учебно-научном комплексе автоматизированных систем и информационных технологий Академии Государственной противопожарной службы МЧС России....»

«Ягодка Евгений Алексеевич ПОДДЕРЖКА ПРИНЯТИЯ УПРАВЛЕНЧЕСКИХ РЕШЕНИЙ О СООТВЕТСТВИИ ОБЪЕКТА ЗАЩИТЫ ОБЯЗАТЕЛЬНЫМ ТРЕБОВАНИЯМ ПОЖАРНОЙ БЕЗОПАСНОСТИ Специальность: 05.13.10 – Управление в социальных и экономических системах (технические наук и) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва 2014 2 Работа выполнена в НИО организации надзорной деятельности (ОНД) учебно-научного комплекса (УНК) ОНД ФГБОУ ВПО Академия Государственной...»

«Четвёркин Илья Игоревич Автоматизированное формирование базы знаний для задачи анализа мнений Специальность 05.13.11 — математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей Автореферат диссертации на соискание учёной степени кандидата физико-математических наук Москва — 2013 Работа выполнена на кафедре алгоритмических языков факультета вычислительной математики и кибернетики...»

«Проценко Евгений Александрович МОДЕЛЬ И МЕТОД АНАЛИЗА ЭФФЕКТИВНОСТИ СИСТЕМ ЗАЩИТЫ ИНФОРМАЦИИ САЙТОВ ОРГАНОВ ВЛАСТИ РОССИЙСКОЙ ФЕДЕРАЦИИ Специальность 05.13.19. Методы и системы защиты информации, информационная безопасность АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук САНКТ-ПЕТЕРБУРГ 2008 2 Работа выполнена на кафедре Безопасные информационные технологии Государственного образовательного учреждения высшего профессионального образования...»

«Гасникова Евгения Владимировна Концепция равновесия макросистемы и е теоретико-игровые аспекты с приложениями к математическому моделированию транспортных потоков Специальность 05.13.18 – математическое моделирование, численные методы и комплексы программ Автореферат диссертации на соискание учной степени кандидата физико-математических наук Москва – 2012 1 Работа выполнена на кафедре анализа систем и решений Московского физико-технического института (государственного...»

«МАЛАХОВА Анна Ивановна МОДЕЛИ И МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОЙ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ В ОРГАНИЗАЦИОННОМ УПРАВЛЕНИИ ПРОГРАММНЫМИ ПРОЕКТАМИ Специальность 05.13.01 Системный анализ, управление и обработка информации (в промышленности) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Уфа – 2013 Работа выполнена на кафедре технической кибернетики ФГБОУ ВПО Уфимский государственный авиационный технический университет Научный руководитель д-р техн. наук,...»

«Котенко Денис Алексеевич МЕТОД ОЦЕНКИ РИСКА ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ НА ОСНОВЕ СЦЕНАРНОГО ЛОГИКО-ВЕРОЯТНОСТНОГО МОДЕЛИРОВАНИЯ Специальность 05.13.19 - Методы и системы защиты информации, информационная безопасность АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Санкт-Петербург 2010 2 УДК 004.056 Работа выполнена на кафедре Безопасные информационные технологии Государственного образовательного учреждения высшего профессионального образования...»

«Кречетова Светлана Юрьевна РАЗРАБОТКА АЛГОРИТМОВ И ПРОГРАММНОГО КОМПЛЕКСА ДЛЯ РЕШЕНИЯ ЗАДАЧ ГРОЗОВОЙ ПОЖАРООПАСНОСТИ ЛЕСНЫХ МАССИВОВ ГОРНОГО АЛТАЯ 05.13.18 – Математическое моделирование, численные методы и комплексы программ Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Барнаул, 2007 Работа выполнена на кафедре математического анализа ГОУ ВПО Горно-Алтайский государственный университет Научный руководитель : доктор...»

«Елсаков Сергей Михайлович Однородные алгоритмы многоэкстремальной оптимизации и модели липшицевых целевых функций 05.13.18 – Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Челябинск – 2011 Работа выполнена в Южно-Уральском государственном университете. Научный руководитель — доктор технических наук, профессор Ширяев Владимир Иванович. Официальные оппоненты : доктор...»

«Поляков Сергей Владимирович Математическое моделирование с помощью многопроцессорных вычислительных систем процессов электронного транспорта в вакуумных и твердотельных микро- и наноструктурах Специальность 05.13.18 Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора физико-математических наук Москва 2010 Работа выполнена в Институте математического моделирования РАН Официальные оппоненты : доктор...»

«ЛЫСОВ Владимир Анатольевич ФОРМАЛИЗАЦИЯ ПРОЦЕДУР ПРОЕКТИРОВАНИЯ ТЕХНОЛОГИЧЕСКИХ ПРОЦЕССОВ ГЛУБОКОЙ ВЫТЯЖКИ 05.13.12 – Системы автоматизации проектирования (машиностроение) Автореферат диссертации на соискание учной степени кандидата технических наук Оренбург – 2013 Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Оренбургский государственный университет Научный руководитель доктор технических наук,...»

«БЛИЗНЮК Алексей Владимирович РАЗРАБОТКА И РЕАЛИЗАЦИЯ WEB-СЕРВИСОВ ДЛЯ СРАВНЕНИЯ И ОБРАБОТКИ ВИДЕОИЗОБРАЖЕНИЙ 05.13.11 – Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Санкт-Петербург 2010 Работа выполнена на кафедре информатики математико-механического факультета Санкт-Петербургского...»

«Голиков Александр Николаевич МОДЕЛИРОВАНИЕ ЭЛЕКТРОН-ФОНОННОГО РАССЕЯНИЯ В НАНОПРОВОЛОКАХ НА ОСНОВЕ КУСОЧНО-ПОЛИНОМИАЛЬНОГО ПРИБЛИЖЕНИЯ ФУНКЦИЙ ДВУХ ПЕРЕМЕННЫХ С МИНИМИЗАЦИЕЙ ВРЕМЕННОЙ СЛОЖНОСТИ Специальность: 05.13.18 – Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Таганрог – 2012 2 Работа выполнена в ФГБОУ ВПО Таганрогский государственный педагогический институт имени А.П....»

«Литманович Андрей Михайлович Исследование и разработка оптико-электронных информационноуправляющих систем на основе метода теневой локации. Специальность: 05.13.06 - „„Автоматизация и управление технологическими процессами и производствами (в приборостроении) Автореферат диссертации на соискание ученой степени кандидата технических наук Москва – 2012 г. Работа выполнена на кафедре Системы автоматического управления и контроля национального исследовательского университета...»

«СЕДЫХ ИЛЬЯ АНАТОЛЬЕВИЧ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА ОЦЕНКИ И МОНИТОРИНГА НАДЕЖНОСТИ ДЛЯ АВТОМАТИЗИРОВАННОГО ДИСПЕТЧЕРСКОГО УПРАВЛЕНИЯ ТРУБОПРОВОДНЫМ ТРАНСПОРТОМ ГАЗА Специальность 05.13.06 – Автоматизация и управление технологическими процессами и производствами (промышленность) (технические наук и) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва – 2011 Работа выполнена в Российском государственном университете нефти и газа имени...»

«ГРИШИНА Елена Евгеньевна МЕТОД НЕЛИНЕЙНОГО ОБЪЕМНОГО СИНГУЛЯРНОГО ИНТЕГРО-ДИФФЕРЕНЦИАЛЬНОГО УРАВНЕНИЯ РЕШЕНИЯ ОБРАТНОЙ ЗАДАЧИ ОПРЕДЕЛЕНИЯ ЭФФЕКТИВНОЙ ДИЭЛЕКТРИЧЕСКОЙ ПРОНИЦАЕМОСТИ ТЕЛА В ВОЛНОВОДЕ Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ Автореферат диссертации на соискание ученой степени кандидата физико-математических наук КАЗАНЬ 2013 Работа выполнена на кафедре математики и суперкомпьютерного моделирования в ФГБОУ ВПО...»

«Карайчев Глеб Викторович РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДА ВЕСОВЫХ ФУНКЦИЙ ДЛЯ РЕШЕНИЯ ЗАДАЧ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ПРИ ВЫЯВЛЕНИИ АНОМАЛЬНОЙ СЕТЕВОЙ АКТИВНОСТИ Специальность 05.13.19 Методы и системы защиты информации, информационная безопасность АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Ростов-на-Дону – 2011 Работа выполнена на кафедре Информатики и вычислительного эксперимента факультета Математики, механики и компьютерных наук...»

«АФАНАСЬЕВ Анатолий Михайлович МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПРОЦЕССОВ ТЕПЛО- И МАССОПЕРЕНОСА ПРИ СУШКЕ ЭЛЕКТРОМАГНИТНЫМ ИЗЛУЧЕНИЕМ Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук Новочеркасск 2010 2 Работа выполнена на кафедре теоретической физики и волновых процессов в ГОУ ВПО Волгоградский государственный университет Научный консультант : доктор...»

«Яруткина Ирина Александровна Математическое моделирование распространения диссипативных и дисперсионно управляемых солитонов в импульсных волоконных лазерах 05.13.18 – Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Новосибирск – 2014 Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте вычислительных технологий Сибирского отделения...»








 
© 2013 www.diss.seluk.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Методички, учебные программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.