Системы контроля контента корпоративной почты

Александр Прохоров

Методы борьбы со спамом

   Юридические

   Организационные

   Технические

Решения от ведущих производителей

   OrangeBox Mail

   Этапы анализа содержания

   Комплексный анализ содержания

   Контроль отправителя

   Контроль на основе глобальной спам-базы данных

   Контроль за текстами

   Контроль за порнографическими фотографиями

   Проверка всех URL-ссылок из текста письма

   Контроль за вложением (attachment)

   Контроль за вирусами

   Решение OrangeBox Mail для ISP

   Kaspersky Anti-Spam

   Основные преимущества фильтра Kaspersky Anti-Spam

   Методы фильтрации спама

 

Рекламные материалы о семинаре по борьбе со спамом были разосланы 6 млн. потенциально заинтересованных компаний.
Современный анекдот

Коммуникация на базе электронной почты — важнейшая составляющая современного бизнеса. Примерно 25% рабочего времени сотрудников организаций приходится на работу с e-mail. При этом 30% всей получаемой почты составляют письма, которые не имеют ни малейшего отношения к бизнесу. Похоже, что уникальные возможности Интернета по одновременной доставке сообщений сотням тысяч получателей не только представляют собой мощное средство ведения бизнеса для компаний, но и оборачиваются для них большой головной болью.

Вряд ли сегодня найдется кто-либо, не знакомый с понятием «спама», однако некоторые определения все же считаем нужным напомнить.

Спам (или Junk e-mail) — это массовая рассылка незапрашиваемых (unsolicited) электронных сообщений коммерческого (unsolicited commercial e-mail, UCE) или некоммерческого (unsolicited bulk e-mail, UBE) характера.

Грань между спамером и лицом, рассылающим рекламу по определенному листу потенциально заинтересованных клиентов, достаточно условна. Тем не менее общеизвестно, что навязчивость рассылки может быть снижена, если в поле Subject будет помещено уведомление о том, что данное сообщение носит рекламный характер, а в тексте письма содержатся сведения о том, какие действия должен предпринять получатель, чтобы в дальнейшем отказаться от подобной рассылки (opt-out).

Однако спамер обычно принимает все меры, чтобы избежать ответственности за послание — прибегает к фальсификации адреса отправителя путем использования адреса третьего лица и к фальсификации заголовков сообщения. В последнее время в связи с фильтрацией почты на предмет спама спамеры модифицируют свои сообщения таким образом, чтобы обмануть антиспамерские фильтры. В результате на разбор завалов ненужных сообщений уходит драгоценное рабочее время сотрудников, причем в потоке спама можно не заметить и стереть нужное послание, а главное — пользователи электронной почты вынуждены оплачивать провайдерам время, потраченное на получение чужой рекламы.

Однако организация несет потери не только вследствие получения спама — в среднем каждый сотрудник отправляет (читает) в день 2,5 письма, не имеющих никакого отношения к его работе. И если для сотрудника эти письма не являются спамом, то для организации эта почта тоже лишняя.

Конфликт между сотрудником и работодателем может быть вызван тем, что для организации к нежелательной почте относится более широкий спектр писем, нежели для сотрудника. Действительно, большинство сотрудников получение подборки карикатур не воспринимают как нежелательную почту — это возможность отвлечься, а кроме того, подобное письмо можно легко разослать всем своим коллегам, а те, в свою очередь, отправят его коллегам по бизнесу и пр., тогда как для работодателей речь идет об упущенном времени их персонала.

Проблему для работодателя также представляет любая личная почта, которую работники уж никак не считают спамом, но которая тоже отвлекает их от работы, тормозит рабочий процесс и внешне не отличима от деловой почты. Нельзя забывать и о том, что 30% сотрудников в своих частных письмах вольно или невольно передают информацию конфиденциального характера.

Однако контроль за содержанием личной переписки — довольно щекотливый момент. С одной стороны, каждый человек имеет право на тайну личной переписки, а с другой — корпорация имеет право на контроль за утечкой корпоративной информации, а также не обязана оплачивать личную переписку своих сотрудников.

Прибавьте сюда также тот факт, что 66% всех компаний вместе с вложениями в электронные письма получают вирусы, и вам станет понятно, насколько серьезной является проблема контроля содержания корпоративной почты. Масштабы этого явления поистине впечатляют.

Ежедневно в мире отправляется более 33 млрд. электронных писем; ожидается, что к 2005 году этот объем увеличится до 61 млрд. По данным аналитических компаний (Ferris, Gartner и IDC — рис. 1), в 2002 году 25% всех писем приходилось на спам, 12,5% — на так называемые fun-письма («священные письма», карикатуры, анекдоты и т.п.). Примерно столько же (12,5%) составляла личная переписка сотрудников, и только 50% переписки относилось непосредственно к профильному бизнесу компаний. Сегодня положение только ухудшается — каждое второе письмо является для компаний отвлекающим от профильной деятельности балластом, но ситуация станет еще более плачевной к 2006 году, когда на долю профильного бизнеса будет приходиться не более 40% (рис. 1).

Из-за спама корпорации несут огромные потери. Только в США связанные с этим ежегодные убытки достигают 10 млрд. долл. На рис. 2 представлены данные Ferris Research, согласно которым 3,9 млрд. долл. составляют потери, обусловленные упущенной производительностью пользователя (cost of lost user productivity), а 4,4 млрд. долл. — размер потерь, связанных с использованием IT-ресурсов (consumption of IT-resources), которое включает амортизацию оборудования и лишний трафик, а также услуги по поддержке (Help Desk cost). Согласно данным Еврокомиссии (European Commission), в Европе в 2003 году ожидаются аналогичные убытки от спама.

В начало В начало

Методы борьбы со спамом

Говоря о борьбе со спамом, традиционно выделяют юридический, организационный и технический методы.

Юридические

Учитывая общественную опасность спама, некоторые государства приняли законы, направленные на ограничение незапрашиваемых массовых почтовых рассылок. В большинстве юридических норм относительно регулирования незапрашиваемой почты фигурирует запрещение фальсификации заголовков писем, использования адресов третьих лиц, неправильного адреса отправителя. Прописывается необходимость указания «ADV» (реклама) в поле Subject, а также требование поддержки работающего бесплатного механизма прекращения подписки (opt-out).

С учетом огромного числа спамеров (большинство из которых — это мелкие предприниматели или частные лица) очевидно, что отследить конкретного из них и предъявить ему претензии — дело непростое. В России проблема юридического преследования спамеров еще очень далека от разрешения.

Организационные

Организационные меры борьбы со спамом (в данной статье мы прежде всего говорим о защите корпоративных интересов) заключаются в обеспечении четкой политики, устанавливающей правила использования e-mail на рабочем месте. Только наличие заранее оговоренных строгих правил позволит избежать конфликта между работодателем и работником. При этом существуют общепринятые нормы поведения, снижающие риск попадания корпоративных e-mail-адресов в спамерские листы (не следует отвечать на письма спамеров, пользоваться услугами спамеров, использовать в личной переписке, чатах и т.п. корпоративный адрес и т.д.).

Технические

Технические средства борьбы с нежелательной почтой заключаются в программной реализации политик компании на базе учета внешних и внутренних рисков и внедрения расширяемого решения, позволяющего обеспечить в электронных письмах защиту от нежелательного контента как на уровне Интернета, так и на уровне интранета.

При этом если еще сравнительно недавно программные методы борьбы сводились к довольно примитивной фильтрации почты по ключевым словам и были под силу даже небольшим клиентским приложениям, то постепенно спамеры научились достаточно легко обходить подобные фильтры.

Спам представляет собой явление, развивающееся как по охвату аудитории, так и по способам внедрения в почтовый ящик. Здесь уместно привести несколько примеров из личного опыта автора.

На рис. 3 показано письмо, которое пришло автору во время работы над данной статьей. Такое послание легко проходит сквозь фильтр, построенный по принципу поиска ключевых слов. Настроив свой фильтр на блокировку писем с ключевой фразой «изучайте английский», вы не сможете отсечь письмо, в котором русская буква «и» изменена на английскую «u»: «uзучайте англuйскuй язык с намu».

Более совершенный алгоритм заключается в анализе сочетания слов текста. На рис. 4 приведено послание, в котором в текст письма помещены нечитаемые символы и цифры. Цель та же самая — обмануть системы фильтрации.

Наиболее простой и радикальный метод (подобные письма автору приходят достаточно часто) состоит в том, что вместо текста в письме лежит картинка с отсканированным текстом.

Из приведенных примеров видно, что современная система контроля содержания почты должна быть высокоинтеллектуальной системой многофакторного контроля.

Сегодня бизнес-организации и Интернет-провайдеры готовы приобретать достаточно дорогие высокоинтеллектуальные комплексы, способные значительно сократить процент нежелательной почты. О том, какие методы используются в этих решениях, мы расскажем на примере решений ведущих разработчиков в этой области.

Решения от ведущих производителей

OrangeBox Mail

ОrangeBox Mail — это разработка немецкой компании Cobion (www.cobion.com), занимающейся корпоративными системами безопасности контента, в том числе системами контроля содержания корпоративной почты. Схема работы ОrangeBox Mail показана на рис. 5. Cуть ее состоит в том, что входящий и исходящий корпоративный трафик подвергается многофакторному анализу на предмет опасности контента.

Анализ возможен на уровне заголовка, тела письма и приложений. Особенностью данного решения является распознавание действительной природы контента (True nature of content) и доставка писем в соответствии с политикой компании. Рассмотрим принцип работы данной системы подробнее.

Этапы анализа содержания

Процедура определения содержания имеет несколько стадий. На первой стадии определяются тип файла (zip, html, doc...) и характер содержания (текст, изображение, видео, аудио). Затем идет детальный анализ e-mail и вложений и, наконец, определяется процедура (доставить, блокировать и т.п.) в зависимости от правил политики компании.

Политика компании оформляется в виде системы правил, которые определяют, кто, где и когда имеет право получать тот или иной контент и как система должна реагировать на поступление письма того или иного содержания. Например, последовательность действий может быть следующей: пришедшее письмо распознается как письмо, имеющее личный характер, далее определяется, кому оно адресовано; если данный сотрудник имеет право получать личную почту на данный ящик, то письмо передается адресату, если нет, то сотруднику, например, поступает сообщение о том, что в его адрес было получено письмо личного содержания, которое он сможет забрать в такой-то папке, и что он должен уведомить отправителя, чтобы тот отсылал ему письма по другому адресу.

Иными словами, на каждое письмо может быть настроена своя система реагирования в зависимости от настроек корпоративных политик. Письмо может передаваться адресату, блокироваться, перемещаться в отдельную папку, сопровождаться оповещением руководства о нарушениях и т.п.

Комплексный анализ содержания

Анализ производится на уровне письма и на уровне вложений — анализируются текст, графика и ссылки.

Система имеет целый ряд модулей контроля (рис. 6): Attachment Checker (контроль вложений), Message Fields Checker (контроль полей письма), Important Documents (контроль за важными документами), Key Words Search (контроль по ключевым словам), Media Type (определение типа среды), Porn Detector (детектор порнографии), Source Code Detector (детектор исходного кода), Spam Detector (детектор спама), Text Categories (определение категории текста), URL Checker (контроль URL-адресов ссылок из текста письма), Virus Detector (детектор вирусов).

В каждом письме производится контроль в заголовке, в теле письма и в приложении.

На рис. 7 приведен пример контроля конкретного письма от владельцев порнографического сайта. На рисунке видно, что система имеет десятиуровневую защиту от спама. Зачем нужно так много уровней? Как любая система интеллектуального анализа, система OrangeBox Mail выдвигает гипотезу «спам или не спам?» и собирает статистику. При этом здесь, как и в любой системе, принимающей решение на базе статистических данных, возможны два вида ошибок. Первая ошибка состоит в том, что ненужное письмо будет ошибочно пропущено, а вторая заключается в том, что нужное письмо будет отклонено как спам. Вторая ошибка, так называемый оверблокинг (over-blocking), — намного более неприятная вещь, поскольку приводит к ситуации, когда нужное бизнес-письмо может оказаться в корзине. В лучшем случае в подобной ситуации можно упустить нового клиента, а в худшем это может привести к срыву важного контракта и т.п. Оверблокинг весьма вероятен не только если контроль осуществляется лишь по ключевым словам, но даже если статистика о принадлежности к спаму набирается по двум-трем параметрам. Автору известен пример, когда письмо не проходило к адресату только потому, что в теле письма несколько раз попадалось слово «реклама».

И только если количество параметров не менее десятка — ошибка практически исключена. Принцип прост — чем больше слоев контроля, тем меньше вероятность оверблокинга.

Теперь вернемся к конкретному примеру (см. рис. 7) и рассмотрим последовательно механизмы различных методов контроля.

Контроль отправителя

Первое, с чего начинается контроль, — анализ отправителя. Отправитель «Cora» занесен в систему внешнего черного списка (External Blackhole List), но может быть также указан во внутреннем черном списке (Internal Blackhole List).

Контроль на основе глобальной спам-базы данных

Далее идет анализ на основе глобальной спам-базы данных (Global Spam Database), которая обновляется посредством 800 коллекторов спама (SpamCollectors), ежедневно позволяющих анализировать около 16 тыс. электронных писем.

На рис. 8 показана схема обновления глобальной спамовой базы данных (Global Spam Database). Происходит постоянный сбор спама с помощью коллекторов, его анализ и категоризация в корпоративном центре (Cobion Global Data Center).

Создаются цифровые отпечатки (образцы спама разных категорий), которые впоследствии используются для сравнения с письмами клиентов Cobion, что, в свою очередь, позволяет определить принадлежность к одной из категорий спама. Для того чтобы предоставлять клиентам свежую информацию о новых образцах спама, идет перманентное обновление данных через систему SpamLearn. На момент написания статьи в базе было зарегистрировано 180 тыс. спамеров. Обновление спамовой базы данных осуществляется каждые 10 минут, а обновление для клиента происходит 4 раза в день.

Контроль за текстами

Текстовый контроль осуществляется по ключевым словам и текстовым категориям. Контроль по ключевым словам производится не только по отдельным словам, но и по парам слов. Например, если попадается слово «конфиденциальный», то в окружении этого слова будет вестись поиск слова «контракт», и если такая пара имеется, то будет сделано предположение, что в письме могут передаваться конфиденциальные данные.

Более сложным текстовым контролем является контроль по текстовым категориям. Текст здесь рассматривается как некоторый объект, категорию которого необходимо определить (бизнес, медицина, порнография, оружие и т.п.). Строится гистограмма в координатах: количество слов (Number of words) — слова (Words) (рис. 9). В этом случае, даже если слово «sex» встречается в обоих текстах одинаковое количество раз, профиль гистограммы используемых слов позволяет определить, где имеет место медицинский текст, а где — порнографический.

Контроль за порнографическими фотографиями

В принципе, система распознает не все порнофотографии, а только те, на которых присутствует лицо обнаженной натуры. Идентификация порноматериалов происходит следующим образом: вначале идет распознавание лица; если лицо на фото найдено, то система анализирует, сколько процентов всего изображения оно занимает, а на последней стадии вычисляется процент изображения кожи на всей фотографии. Так, из фотографий, изображенных на рис. 10, система может пропустить письмо с первым фотоснимком и запретить с последним. При этом предоставлена возможность настраивать жесткость контроля системы (степень обнажения изображенного на снимке человека).

Проверка всех URL-ссылок из текста письма

Проверку всех URL-ссылок из текста письма иллюстрирует рис. 11. Все известные Cobion ссылки классифицированы по 58 категориям. Система (OrangeFilter) содержит более 20 млн. URL-адресов, что соответствует объему в 2,3 млрд. проанализированных Web-страниц. В месяц индексируется 120 млн. изображений и страниц текста.

Контроль за вложением (attachment)

OrangeBox Mail осуществляет распознавание 80 стандартных типов данных. Производит анализ размера файла, автоматическую распаковку, обеспечивает распознавание переименованных расширений (false file extension) и т.д.

Контроль за вирусами

Система обеспечивает возможность подключения ведущих антивирусных сканеров, предоставляет различные варианты для обработки зараженных писем (извещение, удаление атачмента, удаление письма, хранение в отдельной папке и т.д.).

Решение OrangeBox Mail для ISP

Для ISP проблема спама очень актуальна. Значительная часть трафика идет на доставку спама, что вызывает недовольство заказчиков. Постепенно все больше провайдеров предоставляют услугу «Spam-free email accounts» и, таким образом, подобная услуга становится ожидаемой. Схема установки OrangeBox Mail может быть различной (табл. 1). В случае предоставления услуги индивидуальным пользователям, как правило, все настройки политики безопасности осуществляются на стороне ISP и делаются одинаковыми для всех клиентов. В случае корпоративных клиентов возможна индивидуальная настройка для каждого клиента, вплоть до схемы, когда ISP-выступает в роли реселлера, который устанавливает продукт на площадке конкретного заказчика (см. табл. 1, пункт 5).

Kaspersky Anti-Spam

Принимая во внимание, что корпоративные антиспамовые продукты должны обеспечивать комплексный анализ содержания, не подлежит сомнению, что анализ текстов играет наиболее важную роль. А это, в свою очередь, означает, что подобный анализ обладает национальной спецификой.

Отечественные языковые фильтры на русских текстах успешно конкурируют с западными решениями, которые изначально разрабатывались под западный рынок.

Из отечественных решений наиболее заметным является Kaspersky Anti-Spam, последняя версия которого появилась в конце сентября этого года. Сегодня это единственная система полномасштабной защиты от русскоязычного спама, что делает данный продукт уникальным для российских условий.

Kaspersky Anti-Spam — это совместная разработка компаний «Лаборатория Касперского» (www.avp.ru) и «Ашманов и партнеры» (www.ashmanov.com). Данный альянс возник неслучайно. «Лаборатория Касперского» — ведущий российский разработчик антивирусных систем — обладает большим опытом построения систем безопасности, а компания «Ашманов и партнеры» имеет солидные наработки в области анализа естественных языков.

Фильтр Kaspersky Anti-Spam — это серверная программа, которая устанавливается на входе в корпорацию и фильтрует входящий поток почты. Фильтр предназначен для использования в небольшой или средней компании, имеющей собственный почтовый сервер. Kaspersky Anti-Spam предназначен для распознавания и фильтрации нежелательных почтовых сообщений в процессе приема электронной почты по протоколу SMTP, то есть до того, как сообщения будут доставлены в почтовый ящик конечного получателя. Фильтр является полнофункциональной серверной почтовой программой, работающей на платформе UNIX (FreeBSD 4.x и Linux).

Основные преимущества фильтра Kaspersky Anti-Spam

К достоинствам решения Kaspersky Anti-Spam следует отнести использование эвристических лингвистических методов анализа содержания почтовых сообщений (контентная фильтрация), постоянное ведение и ежедневное обновление базы данных специализированной лингвистической лабораторией; объединение всех методов фильтрации (по «формальным»1 признакам и по содержанию) в едином модуле, возможность их комбинирования и централизованное управление всеми правилами фильтрации через единый Web-интерфейс (рис. 12, 13).

Методы фильтрации спама

Фильтр Kaspersky Anti-Spam объединяет известные формальные методы с методами контентной фильтрации, осуществляющими распознавание сообщений по их содержанию на основе эвристического поиска ключевых терминов и нечеткого сравнения с письмами-образцами.

Kaspersky Antispam использует четыре основных метода:

1. Списки. Проверяется, входят ли адрес и IP-адрес отправителя в черные списки, которые ведут провайдеры и различные общественные организации (так называемые Real-time Black Lists, RBL). Администратор системы может также вести свои белые списки («списки друзей»), от которых почта всегда принимается.

2. Формальные признаки письма. Отсутствие адреса отправителя, отсутствие или слишком большое число получателей, отсутствие IP-адреса в системе Интернет-адресов DNS и т.п. Кроме того, производится фильтрация по размеру и формату сообщения.

3. Содержание письма. Проверяется наличие в письме признаков спамерского содержания: определенного набора и распределения по письму специфических словосочетаний. При этом фильтр Kaspersky Anti-Spam анализирует текст не только самого письма, но и вложения.

4. Сигнатуры (образцы). По каждому спамерскому письму может быть автоматически создана так называемая лексическая сигнатура, позволяющая распознать это письмо даже с небольшими модификациями.

Принципиальной особенностью данного фильтра является возможность распознавания нежелательных сообщений путем анализа их содержания. Фильтр осуществляет автоматическую рубрикацию сообщений, то есть отнесение входных сообщений к одной или к нескольким категориям на основе смыслового анализа их текста.

Результатом работы фильтра Kaspersky Anti-Spam для конкретного сообщения является список категорий, к которым данное сообщение может быть отнесено с указанием степени достоверности для каждой категории.

Фильтрация осуществляется на пяти языках: русском, английском, французском, немецком и испанском. В продукте реализованы революционные технологии лингвистического анализа текстов, позволяющие отсекать до 95% спама из корпоративной электронной почты.

Kaspersky Anti-Spam осуществляет контентную фильтрацию всех элементов электронного письма, то есть фильтрацию на основе смыслового анализа текста. Высокая эффективность программы достигается благодаря регулярному пополнению базы контентной фильтрации.

По результатам проверки каждое письмо получает специальную метку, соответствующую уровню его принадлежности к спаму. Письмо, прошедшее фильтрацию и отнесенное к той или иной категории, может быть доставлено по назначению, перенаправлено на какой-либо определенный адрес или удалено (рис. 14).

Настройка параметров Kaspersky Anti-Spam может быть реализована с помощью модуля управления, который позволяет определять списки адресов электронной почты и IP-адресов, используемых при фильтрации, и способы обработки сообщений, прошедших фильтрацию, а также устанавливать настройки системы автоматического обновления базы контентной фильтрации.

***

Мы рассказали об основных принципах построения корпоративных антиспамовых продуктов на примере двух наиболее популярных на российском рынке решений; ознакомиться с параметрами других продуктов позволяет табл. 2.

КомпьютерПресс 11'2003

Наш канал на Youtube

1999 1 2 3 4 5 6 7 8 9 10 11 12
2000 1 2 3 4 5 6 7 8 9 10 11 12
2001 1 2 3 4 5 6 7 8 9 10 11 12
2002 1 2 3 4 5 6 7 8 9 10 11 12
2003 1 2 3 4 5 6 7 8 9 10 11 12
2004 1 2 3 4 5 6 7 8 9 10 11 12
2005 1 2 3 4 5 6 7 8 9 10 11 12
2006 1 2 3 4 5 6 7 8 9 10 11 12
2007 1 2 3 4 5 6 7 8 9 10 11 12
2008 1 2 3 4 5 6 7 8 9 10 11 12
2009 1 2 3 4 5 6 7 8 9 10 11 12
2010 1 2 3 4 5 6 7 8 9 10 11 12
2011 1 2 3 4 5 6 7 8 9 10 11 12
2012 1 2 3 4 5 6 7 8 9 10 11 12
2013 1 2 3 4 5 6 7 8 9 10 11 12
Популярные статьи
КомпьютерПресс использует