Отечественному спаму — отечественный антиспам

Александр Прохоров

Решения на базе антиспам-фильтра «Спамтест»

Описание технологии «Спамтест»

Kaspersky Personal Security Suite

Kaspersky Anti-Spam Enterprise/ ISP Edition

Решения на базе антиспам-фильтра «Спамооборона»

Описание технологии «Спамооборона»

«Спамооборона» для компаний

«Спамооборона» для пользователей Яндекса

«Спамооборона» для всех

По разным данным, сумма ущерба, наносимого российским пользователям спамом, оценивается в пределах от 30 до 60 млн. долл. У проблемы борьбы со спамом существует множество аспектов: юридический (правовые вопросы в области ограничения спама), моральный (формирование отношения в обществе к спамерам), процедурный (вопросы усложнения рассылки почты), технический (фильтрация почты). В данной статье мы подробнее остановимся именно на последнем вопросе.

егодня существует целый ряд технологий, позволяющих фильтровать спам:

списки (черные, белые, RBL (Сервисы RBL (Realtime Blackhole List) — средство борьбы со спамом. Первый RBL-сервис появился в 1997 году. Данная технология подразумевает наличие списка так называемых плохих IP-адресов, доступ к которому осуществляется в реальном времени по протоколу DNS. Использующие RBL почтовые серверы в момент приема очередного сообщения запрашивают сервис (или несколько RBL-сервисов) о том, является ли IP-адрес отправителя письма плохим, и на основании ответа RBL либо принимают, либо отвергают это письмо ));
формальные признаки письма — (отсутствие адреса отправителя, отсутствие или слишком большое число получателей, отсутствие IP-адреса в системе Интернет-адресов DNS и т.п., а также фильтрация по размеру, формату сообщения);
содержание письма (лингвистическая эвристика);
сигнатуры (образцы) и др.

Поскольку до сих пор не изобретен идеальный метод фильтрации, решения, построенные на той или иной технологии, не могут считаться эффективными. Сегодня для достижения высокого уровня фильтрации и низкого уровня ошибок необходимо использовать все существующие методы (рис. 1). Следует также отметить, что спам постоянно меняется, поэтому необходимо использовать новые, разнообразные и независимые методы распознавания нежелательной почты. По меткому выражению, прозвучавшему на одной из презентаций «Лаборатории Касперского», «антиспам — это процесс, а не программа в коробке».

Рис. 1. Для достижения высокого уровня фильтрации и низкого уровня ошибок необходимо использовать разные методы

Поэтому в данной статье мы будем говорить о решениях, использующих фильтрацию на базе целого комплекса технологий и постоянного анализа спама.

Очевидно также, что поскольку речь пойдет об отечественных пользователях, мы в первую очередь должны говорить о тех технологиях, которые позволяют фильтровать сообщения на русском языке, и в связи с этим следует прежде всего обратить внимание на решения отечественных компаний — «Лаборатории Касперского» (основанные на технологии «Спамтест», приобретенной у компании «Ашманов и партнеры») и «Яндекс» (базирующиеся на технологии «Спамооборона»).

Решения на базе антиспам-фильтра «Спамтест»

Описание технологии «Спамтест»

Сильная сторона технологии «Спамтест» заключается в том, что она объединяет три важных составляющих:

использование контентной фильтрации;
объединение всех методов фильтрации в едином модуле;
постоянное обновление базы данных специализированной лингвистической лабораторией.

«Спамтест» использует большой набор методов фильтрации.

Согласно эвристическим методам проверяется наличие в письме признаков спамерского содержания: определенного набора и распределения по письму специфических словосочетаний. В соответствии с сигнатурными методами выполняется проверка по определенной сигнатуре. По спамерскому письму может быть автоматически создана лексическая сигнатура, позволяющая распознать это письмо даже с небольшими модификациями (в пределах 5-10%).

Используемые формальные методы подразумевают, что письмо проверяется на вхождение адреса отправителя и IP-адреса отправителя в черные списки. Также проверяются формальные признаки, позволяющие определить наличие спамерского письма: отсутствие адреса отправителя, отсутствие или слишком большое число получателей, отсутствие IP-адреса в системе Интернет-адресов DNS и т.п.

Кроме того, применяется фильтрация графических вложений: вложенные в сообщение графические файлы сравниваются с содержимым базы данных, что позволяет отсечь «графический спам».

«Спамтест» обнаруживает и подавляет типичные способы обхода контентных фильтров: случайные последовательности и тексты в сообщении, смешение английских и русских букв в слове, невидимый текст и т.д.

Для больших потоков почты (миллионы сообщений в день) поддерживается автоматическое детектирование массовых рассылок, что позволяет обнаружить факт массовой рассылки до того, как образцы спама попадут в лингвистическую лабораторию.

«Спамтест» работает не только с текстом письма, но и с почтовыми вложениями в форматах Plain Text, HTML, Microsoft Word, RTF.

Для анализа почтовых сообщений по содержанию «Спамтест» использует специализированные лингвистические данные, которые автоматически обновляются до трех раз в час.

Круглосуточная лингвистическая лаборатория, анализирующая спам в реальном режиме времени, выпускает обновления баз каждые 20 минут — практически уникальный показатель для антиспамового решения. Фильтр имеет очень высокую производительность (до 2 млн. сообщений в сутки на среднем сервере Intel Pentium 2,4 Mhz 1Gbyte RAM), что позволяет использовать его на самых больших публичных сервисах.

База фильтрации содержит данные трех типов:

рубрикатор (иерархический список категорий спама);
семантические образы категорий (наборы словосочетаний с весами);
сигнатуры сообщений-образцов.

В настоящее время база фильтрации содержит около 60 тыс. терминов.

Критерии оценки качества работы спам-фильтров — полнота и точность фильтрации. Под полнотой подразумевается процент обнаруженного спама, под точностью — количество ложных срабатываний.

«Спамтест» позволяет отсеивать 85-95% спамерских писем при уровне ложных обнаружений в 0,001-0,005% (1-5 писем на 100 тыс. сообщений).

Повышение уровня распознавания спамерских писем выше указанного нежелательно именно в связи с недопустимостью ложных обнаружений.

Значительно снизить риск ложных срабатываний позволяет так называемый белый список, то есть список друзей, куда пользователь может добавить всю свою адресную книгу, в том числе всех сотрудников, деловых партнеров, подписные рассылки, прессу и пр.

На базе технологии «Спамтест» построен целый ряд решений «Лаборатории Касперского». У компании существует бесплатный публичный сервис http://www.spamtest.ru/service.html, решение для домашних пользователей, а также решение для корпоративных клиентов и Интернет-провайдеров.

Kaspersky Personal Security Suite

Разработчик: «Лаборатория Касперского» (www.kaspersky.ru)

Kaspersky Personal Security Suite ведет обработку сообщений на английском, русском, испанском, французском и немецком языках. Программа анализирует входящую почту и автоматически сортирует нежелательные сообщения по категориям:

SPAM (достоверный спам);
FORMAL (формальное сообщение, созданное, например, почтовым роботом);
OBSCENE (сообщение, содержащее ненормативную лексику);
PROBABLE SPAM (возможный спам).

К категории вероятного спама (PROBABLE SPAM) отнесены те письма, в нежелательности которых фильтр не уверен. Для того чтобы эффективно проверять входящую почту, фильтр использует целый ряд простых стандартных и собственных технологий. Важной частью продукта является база, хранящая образцы нежелательных писем. Обновление базы может осуществляться через Интернет или из папки на локальном диске пользователя. Объем ежедневных обновлений базы в среднем составляет около 100 Кбайт.

Лингвистическое сравнение осуществляет интеллектуальное ядро продукта — «Спамтест». Для того чтобы письмо было признано нежелательным, не требуется его полной идентичности одному из образцов, хранящемуся в базе. Сравнение производится по более тонким признакам, учитывающим шаблоны и сигнатуры нежелательных писем, а также их характерные, типичные черты.

Помимо технологий собственной разработки, Kaspersky Personal Security Suite предлагает стандартные методы: углубленный анализ формальных атрибутов письма и возможность составления белых и черных списков.

При первом запуске Kaspersky Personal Security Suite предлагает импортировать адресную книгу Microsoft Outlook в белый список, что довольно логично. В дальнейшем белые и черные списки могут редактироваться и обновляться.

Kaspersky Anti-Spam Enterprise/ ISP Edition

Разработчик: «Лаборатория Касперского» (www.kaspersky.ru)

Kaspersky Anti-Spam Enterprise/ISP Edition адресован корпоративным клиентам и Интернет-провайдерам.

Программа осуществляет распознавание и фильтрацию нежелательных почтовых сообщений в процессе приема электронной почты по протоколу SMTP (протокол, используемый для пересылки электронной почты между серверами), то есть до того, как сообщения будут доставлены в почтовый ящик получателя.

В программе реализована многоуровневая система анализа входящей корреспонденции:

письмо анализируется по формальным признакам: электронные адреса отправителя и получателя, IP-адрес отправителя, размер и формат сообщения и т.п.;
производится анализ распределения в тексте письма слов или словосочетаний, характерных для спама;
содержание письма также проверяется интеллектуальным лингвистическим ядром «Спамтест», которое осуществляет нечеткое распознавание писем по образцу. Для каждого письма, классифицированного как спам, автоматически создается лексическая сигнатура (шаблон), которая в дальнейшем позволяет распознать это письмо, даже если оно будет несколько отличаться от шаблона;
программа использует черные списки третьих сторон (RBL (Realtime Blackhole List) — лист IP-адресов, владельцы которых отказываются остановить распространение спама).

Для работы с письмами на разных языках в программе применяются встроенные модули лингвистической поддержки для русского, английского, немецкого, французского и испанского языков.

Следует отметить, что, как и в случае с антивирусными продуктами, эффективность фильтрации спама зависит от объема и частоты пополнения лингвистической базы. База обновляется каждые два часа, к тому же администратор может добавлять в нее собственные шаблоны спам-писем.

Kaspersky Anti-Spam позволяет выявлять относящиеся к спаму сообщения, которые не распознаются стандартными методами фильтрации. Например, программа способна распознать такие уловки, как удвоение букв, замена отдельных букв на латиницу, вставка в слова пробелов и точек и т.п., а также обнаруживать так называемые HTML-трюки (невидимый текст, текст-подложка, шрифт различного размера и т.д.).

В качестве примеров внедрения решения Kaspersky Anti-Spam можно указать Mail.Ru (более 14 млн. почтовых ящиков, примерно 300 Гбайт трафика в день, 15 млн. писем в день).

Решения на базе антиспам-фильтра «Спамооборона»

нтиспам-фильтр «Спамооборона» разрабатывается компанией «Яндекс» (http://www.yandex.ru).

Описание технологии «Спамооборона»

Фильтр «Спамооборона» обладает многокомпонентной системой анализа содержимого письма. Для того чтобы эффективно бороться с трюками спамеров, выявляя характерные особенности оформления и содержимого писем, письмо разделяется на «чистую» составляющую, воспринимаемую человеком, и «грязную», содержащую невидимый для пользователя текст и бессмысленные данные (информационный шум).

Одновременно с этим происходит анализ технической информации о письме — проверяется достоверность информации об отправителе, анализируется подлинность заголовков письма, учитываются особенности настройки сетей и почтовых систем отправителей.

Поставщиком данных для системы правил является обновляемая база знаний, которая включает данные RBL (Яндекс поддерживает собственный RBL), шинглы (Шингл — это специальным образом рассчитываемая метрика письма, позволяющая выявлять массовые рассылки. Алгоритм расчета шинглов основан на определении уникальных характеристик схожих сообщений) и наборы эвристик. Причем формирование базы знаний происходит в реальном времени автоматически, без участия человека.

Решение «спам — не спам» принимается с учетом значимости сработавших правил, каждое из которых по отдельности не обладает достаточным весом (рис. 2).

Рис. 2. Решение «спам — не спам» принимается с учетом значимости сработавших правил

В «Спамообороне» активно используются алгоритмические и лингвистические разработки, работающие в поисковой машине Яндекс.

«Спамооборона» выявляет свыше 90% спама при единицах ложных срабатываний на 100 тыс. сообщений. Персональные настройки системы позволяют улучшить точность фильтрации.

Антиспам-фильтр «Спамооборона» существует в виде разных решений — для компаний, для пользователей почтовой службы Яндекс и как бесплатный публичный сервис (для любых пользователей) (рис. 3).

Рис. 3. Варианты использования антиспам-фильтра «Спамооборона»

«Спамооборона» для компаний

«Спамооборона» для компаний — это корпоративный программный продукт. Технологически это тоже решение, что защищает пользователей «Яндекс.Почта». Оценив эффективность фильтра на столь масштабном проекте, компания «Яндекс» создала версию программы для своей внутренней почты, а затем и для внешних пользователей, от которых регулярно поступали запросы.

«Спамооборона» устанавливается на почтовый сервер, после чего все письма, определенные этой программой как спам, будут иметь соответствующий заголовок. По этому признаку письма можно легко сортировать — например складывать спам в отдельную папку. При этом ни одно письмо не теряется, происходит лишь разметка сообщений.

Система осуществляет комплексный анализ всех возможных данных о письме, анализируя тысячи его характеристик. Каждое правило имеет определенный весовой коэффициент, для принятия решения «спам — не спам» веса сработавших правил суммируются. В случае если общий набранный балл превышает заданный порог, система считает письмо спамом. Такой подход делает продукт очень устойчивым: решение принимается только по совокупности множества признаков. Более того, новые виды спама успешно определяются большим набором уже существующих правил. Убедившись в качестве определения спама, пользователи часто используют более жесткие настройки — сообщения, набравшие высокий «спам-балл», могут быть отвергнуты при приеме. Причем такая настройка может быть как общесистемной, так и касаться лишь отдельных ящиков.

«Спамооборона» постоянно обучается, то есть база знаний, на основе которой принимаются решения, регулярно обновляется. Данные о новых видах спама, массовых рассылках и источниках их распространения автоматически поставляются службой «Яндекс.Почта». Доступ к обновлениям также является гибкой процедурой — администратор может выбрать загрузку всех данных на свой сервер или настроить обращение к северу базы знаний «Спамообороны» при проверке каждого письма. Первый способ позволяет достичь максимальной производительности «Спамообороны» при большом потоке писем, второй поможет сберечь интернет-трафик, который неизбежно создается при получении обновлений.

Кроме этого, система обладает множеством других полезных настроек. Конечно, доступен механизм белого списка. Его заполнение может происходить автоматически при отправке письма «наружу». В дальнейшем письма, полученные с известных адресов, вызывают срабатывание соответствующего правила, компенсирующий («отбеливающий») вес которого может быть задан администратором. Существует общий режим работы белого списка, при котором учитывается адрес внешнего корреспондента, а также персональный — проверяются пары адресов «отправитель—получатель».

«Спамооборона» допускает наличие сетей, почта из которых будет доставляться получателям без проверки, что очень удобно при распределенной сетевой инфраструктуре. При большом потоке писем из дружественных сетей эта возможность позволяет снизить нагрузку на сервер фильтрации.

Решение обладает следующими особенностями:

стабильно выявляется свыше 90% спама;
вероятность ложного срабатывания составляет порядка 10-5;
учет персональной информации позволяет минимизировать количество ошибок фильтра;
решение «спам — не спам» принимается на основе комплексной оценки нескольких тысяч параметров письма с учетом их значимости, что делает фильтр устойчивым к новым видам спама;
база знаний «Спамообороны» поддерживается в актуальном состоянии системой автоматических обновлений, данные для которой поставляются службой «Яндекс.Почта» круглосуточно;
эффективно определяется как иностранный, так и русскоязычный спам.

«Яндекс», создавая фильтр для российских компаний, опиралась на принцип: «фильтровать спам должно быть выгоднее, чем его получать». В результате решение оказалось весьма доступным по цене.

«Спамооборона» для пользователей Яндекса

Если ваш почтовый ящик находится на Яндексе, то вся приходящая к вам почта проходит проверку на спам и вирусы автоматически.

На «Яндекс.Почта» письма проходят три уровня фильтрации.

На первом этапе отбрасывается явный спам — сообщения, приходящие от неадминистрируемых (взломанных, открытых) почтовых серверов. Важно, что отвергнутые письма не исчезают бесследно — почтовый сервер отправителя получает квитанцию с указанием причины отказа в доступе. Администратор сервера может связаться с Яндексом и обсудить проблему.

Затем каждое письмо проверяется антивирусной программой DrWeb (http://www.drweb.ru). При этом зараженные письма, не содержащие ничего, кроме самого вируса, отбрасываются, а зараженные письма с текстом помечаются «Проверить на вирусы».

Последним работает фильтр, помещающий в папку «Рассылки+Спам» подозрительно похожие письма, разосланные по слишком большому списку адресов, а также письма, в которых программа «Спамооборона» обнаружила признаки спама.

«Яндекс.Почта» фильтрует не только входящую, но и исходящую корреспонденцию. Блокируются массовые рассылки и письма с вирусами.

«Спамооборона» для всех

Если вы не пользуетесь почтовым ящиком на «Яндекс.Почта» и у вас не установлен корпоративный почтовый сервер «Спамооборона», вы можете настроить сквозную проверку всей своей почты через бесплатный публичный сервис «Спамообороны».

Каждый пользователь сервиса получает специальный почтовый адрес: ваш_логин@so.yandex.ru. По этому адресу необходимо пересылать всю корреспонденцию с официального адреса. После проверки на спам и вирусы вся почта будет переслана на указанный вами секретный адрес. Более подробную информацию можно получить по адресу: http://so.yandex.ru/all/index.xml.

По материалам Spamtest.ru, «Лаборатории Касперского» и компании «Яндекс».

КомпьютерПресс 10'2005

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12