Найти и уберечь: методы идентификации и защиты конфиденциальных данных

Денис Зенкин

Контентная фильтрация: историческое наследие

Детерминистская фильтрация: никаких «угадаек»

Третье поколение DLP: технологический бутерброд

Любая компания обрабатывает то или иное количество конфиденциальной информации, которая не должна просочиться наружу. Эта информация может быть записана как на бумажных, так и на цифровых носителях, может иметь различный формат и кодировку, храниться в структурированной базе данных или в разных фрагментах «голого» текста. Но независимо от того, в каком виде представлена информация, ее необходимо защищать.

Универсального ответа на вопрос, как это сделать, не существовало никогда. Более того, защитить информацию полностью невозможно даже теоретически. Действительно, как, например, избежать утечки, которую можно совершить с помощью ресурсов человеческой памяти? Никак. Этот риск можно лишь минимизировать, если хорошо относиться к своим сотрудникам и давать им широкие возможности профессионального развития.

С развитием информационных технологий в целом и компьютеров в частности проблема утечки информации выходит на новый уровень. Теперь данные необязательно выносить на бумажке — достаточно отправить электронное письмо, скачать информацию на флэшку или на какой-нибудь файлообменный ресурс. Возможностей (или, как говорят профессионалы, каналов) утечки сегодня стало значительно больше, и закрыть каждый из них значительно труднее.

С научной точки зрения существует два способа борьбы с утечками информации в эпоху цифрового общества. Ручной способ предполагает мониторинг трафика по различным каналам непосредственно специалистом, а потому он абсолютно неприемлем практически ни для кого. Трудно даже представить, сколько потребуется сотрудников для чтения всей исходящей корреспонденции фирмы, которые при этом не допускали бы ошибок, а также сами не занимались воровством информации. Следовательно, единственным разумным способом борьбы является технический контроль, предполагающий внедрение специальных информационных систем. Умные западные аналитики даже придумали для таких систем специальные термины, один их которых — Data Leak Prevention, DLP — мы будем использовать в данной статье.

Что же представляет собой любая DLP-система? Фактически это автоматизированный сотрудник службы безопасности, который читает трафик по различным каналам и выносит вердикт, является ли этот трафик конфиденциальным. Другими словами, в сердце DLP-решения лежит некий интеллектуальный алгоритм, который на основе содержания документа определяет его значимость. На данный момент существует сразу несколько основных подходов к реализации такого алгоритма (см. таблицу).

Конечно же, тип используемого алгоритма не является единственной характеристикой системы. Разные решения могут поддерживать различные каналы утечки и типы файлов, иметь или не иметь единый интерфейс управления, а также централизованный архив событий и инцидентов. Тем не менее именно алгоритм фильтрации является смыслом каждого из обозначенных продуктов. Его можно назвать научной составляющей DLP, в то время как остальные параметры являются лишь прикладной функциональностью.

Контентная фильтрация: историческое наследие

Из таблицы следует, что подавляющее большинство современных систем используют алгоритмы анализа, основанные на технологии контентной фильтрации. Все эти методы построены на глубоком изучении контента, то есть смыслового содержания документа.

Современные методы контентной фильтрации действуют по единой схеме. Вначале они преобразуют файл в специализированный формат, удобный для подачи его на вход алгоритма. Фактически данный процесс эквивалентен экспорту «голого» текста из имеющегося документа.

Затем наступает основной этап работы — собственно анализ контента передающегося файла. Тут появляются различные варианты, отражающие суть происходящего анализа. На данный момент существует несколько популярных технологий фильтрации, каждая из которых имеет как преимущества, так и определенные недостатки. Например, самый распространенный метод цифровых отпечатков обеспечивает сравнительно высокую точность, однако требует предварительного сбора отпечатков. А эффективность морфологического анализа прямо пропорциональна размеру и качеству словарной базы, собранной на начальном этапе реализации проекта.

Однако независимо от конкретной технологии суть контентной фильтрации остается неизменной. Каждый раз, проверяя исходящий документ, система пытается угадать, является ли он конфиденциальным. Как следствие, основной недостаток контентной фильтрации очевиден — он заключается в сравнительно невысокой точности всех современных алгоритмов. По оценке компании Gartner (Hype Cycle For Information Security 2007), точность нынешних методов контентной фильтрации не превышает 80%.

«Отмечу, что результаты Gartner указывают сразу на две проблемы DLP-решений, построенных на контентной фильтрации, — рассказывает менеджер проектов по информационной безопасности компании «УСП КомпьюЛинк» Александр Юрков. — Первая проблема тривиальна — невысокая точность фильтрации не позволяет обнаружить все конфиденциальные документы, покидающие корпоративную сеть. Однако существует и обратная сторона медали — низкая точность приводит к высокому числу ложных срабатываний системы, когда вполне легальные документы признаются строго секретными. И эти ложные срабатывания вполне способны вызвать настоящую панику у штатного офицера безопасности».

На этом, впрочем, проблемы контентной фильтрации не заканчиваются. Практически все имеющиеся технологии бесполезны для противодействия хорошо обученному или мотивированному инсайдеру, который может использовать сразу несколько специальных методов обхода системы. Пожалуй, одним из самых простых методов является стеганография (незаметное встраивание конфиденциального документа в несекретный файл), не фильтруемая ни одним из современных алгоритмов.

Кроме того, подавляющее большинство механизмов фильтрации является ресурсоемким и потому, как правило, реализуется на специальном сервере. Такой подход автоматически сопровождается проблемами, связанными с копированием информации на различные мобильные носители (прежде всего флэшки). Теоретически для фильтрации такого трафика можно использовать локальные агенты, передающие информацию на сервер, однако на практике этот метод малоэффективен и труднореализуем.

Наконец, контентная фильтрация никак не защищает от угрозы кражи ноутбуков и прочих носителей информации. «А между тем эта угроза является крайне актуальной — по оценке компании Perimetrix, 40% происходящих утечек имеют именно эту причину, — отмечает директор по развитию бизнеса компании Perimetrix Алексей Доля. — По данным Ponemon Institue, только в американских аэропортах теряется 637 тыс. мобильных компьютеров в год. Многие из этих ноутбуков содержат конфиденциальную информацию».

Получается, что контентная фильтрация является неэффективным и неудобным способом борьбы с утечками, который обеспечивает приемлемое качество лишь по интернет-каналам. Возникает логичный вопрос: почему же тогда все ведущие игроки данного рынка используют именно контентную технологию? Существует сразу несколько объяснений этому, казалось бы, парадоксальному факту, и основное из них лежит в исторической плоскости.

Дело в том, что первые предпосылки спроса на DLP-решения появились 6-8 лет назад, тогда же началась активная разработка таких решений. В это время бурно развивались антивирусные продукты, а также системы фильтрации нежелательной почты (спама). Как следствие, идеи (а в некоторых случаях — и технологии) DLP были просто позаимствованы из других продуктовых сегментов рынка информационной безопасности. Скажем, те же сигнатуры пришли в DLP из антивирусов, а морфологические методы — из антиспамовых систем. Подобное родство, кстати, отлично демонстрирует неэффективность «контентных» DLP — те же самые антиспам-фильтры показывают низкую точность анализа даже сегодня.

Детерминистская фильтрация: никаких «угадаек»

По мере реализации DLP-проектов низкая эффективность контентной фильтрации становилась все более очевидной. Долго так продолжаться не могло, и вскоре на рынке появились решения, использующие альтернативный подход, который базируется на принципиально иной идее.

Новый метод, получивший название детерминистской фильтрации, построен на инкапсуляции специальных меток в тело каждого конфиденциального документа. Фактически эти метки эквивалентны грифам секретности, применявшимся в эпоху бумажного документооборота. Система, осуществляющая фильтрацию документов, перестает интеллектуально анализировать контент — теперь она всего лишь проверяет контекст, которым эти метки, по сути, и являются.

Прочитав метку, система может проверить другой контекст передачи документа — адрес получателя, права отправителя, формат файла или даже время рабочего дня. Собрав всю информацию о контексте, детерминистский DLP сопоставляет ее с заранее заданными правилами и только потом выносит окончательный вердикт. В теории анализ контекста с помощью меток обеспечивает едва ли не 100-процентную достоверность, недостижимую для систем контентной фильтрации.

Однако на практике всё не столь радужно. Во-первых, детерминистская DLP должна обеспечивать защиту меток от модификаций, а это далеко не так просто, как может показаться на первый взгляд. А во-вторых, поддерживать актуальность расставленных меток с течением времени чрезвычайно трудно. В связи с этим рассмотрим этот процесс подробнее.

Как правило, первичная расстановка меток осуществляется в рамках этапа классификации данных, еще до запуска системы в промышленную эксплуатацию. В ходе этого этапа (который, кстати, обязателен для любой DLP-системы), компания пытается определить четкие критерии конфиденциальности всей корпоративной информации. Иными словами, пишутся некие правила, которые гласят, что все документы на таком-то сервере или такого-то формата являются секретными. Некоторые файлы могут быть признаны конфиденциальными в индивидуальном порядке.

Несмотря на отдельные особенности, процессы первичной классификации для контентных и детерминистских систем очень похожи. Разница заключается лишь в том, что происходит после этапа разработки правил. Если в случае контентных DLP правила задают некую базу для последующего анализа, то в случае детерминистских решений правила определяют массив помеченных файлов.

Принципиальные различия между подходами проявляются далее, с течением времени. Качественная база контентной фильтрации может существовать практически автономно, подвергаясь лишь малозначительным изменениям. А вот массив размеченных файлов нуждается в постоянном изменении и поддержке.

«Каждый пользователь корпоративной сети занимается модификацией размеченных файлов, а также созданием новых документов на их основе, — рассказывает Алексей Доля. — В таких случаях довольно легко поддерживать актуальность разметки. Для этого достаточно создать механизм “заражения” дочернего документа метками с родительского файла. Проблемы “детериминизма” проявляются в том случае, если новый документ создается “с чистого листа” или является входящей корреспонденцией».

Таким образом, эффективность детерминистской системы прямо пропорциональна частоте проектов по классификации корпоративной информации. Подобная классификация — весьма полезная задача сама по себе (в отрыве от борьбы с утечками), однако проводить ее слишком часто нецелесообразно по причинам финансового характера. Получается, что на практике детерминистские системы могут обеспечить высокую точность только тогда, когда в их поддержку вкладываются существенные материальные ресурсы.

В отличие от систем контентной фильтрации, детерминистские DLP отлично справляются с фильтрацией локального трафика, поскольку даже небольшому клиенту вполне по силам проверять метки. А вот проблему потерянного ноутбука они также решить не могут. Для этого необходимо использовать шифрование.

Третье поколение DLP: технологический бутерброд

Традиционно считается, что технологии контентной фильтрации были реализованы в DLP-системах первого поколения, а детерминистской — соответственно второго. Выше мы показали, что ни тот ни другой метод не может обеспечить высокой точности вместе с адекватными затратами на реализацию проекта. Заказчики нуждаются в системах нового поколения, которые сумели бы качественно решить поставленные задачи.

Вся хитрость заключается в том, что других методов фильтрации на самом деле не существует. Любой трафик, как сущность, состоит из контента и контекста его передачи — и всё, больше ничего там нет. А значит, и анализировать больше нечего. То есть любой другой метод фактически будет являться композицией уже описанных технологий.

По всей видимости, именно так и будут построены DLP-системы третьего поколения. В их основе будет лежать детерминистская фильтрация, которая проводится для большей части исходящих документов. А непомеченные файлы попадут на проверенный временем контентный фильтр. Таким образом, с одной стороны, обеспечивается точность фильтрации для большей части трафика, с другой — неэффективность контентной фильтрации перестает быть существенным недостатком системы.

«Композиция контентных и детерминистских методов является отличным примером синергии от интеграции двух различных технологий, — продолжает Владимир Ульянов. — Это как раз тот случай, когда два плюс два равно пяти, а не четырем. Детерминистская и контентная фильтрация не могут показать хороших результатов по отдельности, однако вместе они обеспечивают уникальную точность. Мне кажется, что именно такие интегрированные системы займут доминирующее положение на рынке DLP в течение ближайших нескольких лет».

Однако на этом особенности DLP-систем третьего поколения не заканчиваются. Выше мы уже отмечали, что ни та ни другая технология не может решить проблему «потерянного ноутбука». На данный момент существует только один способ ее решения — шифрование.

Исторически сложилось так, что криптография всегда находилась в стороне от DLP-систем и для ее реализации требовалась покупка сторонних продуктов независимых производителей. При этом с концептуальной точки зрения решения по шифрованию и DLP часто занимаются одним и тем же, а именно — защитой от утечки информации. Как следствие, интеграция этих частей в единое целое выглядит вполне логичным и правильным шагом.

Процесс слияния DLP и шифрования прогнозировался еще несколько лет назад, однако по-настоящему ярко он стал проявляться только в нынешнем году. Некоторые вендоры просто добавляют в свои решения стандартную криптографическую функциональность, другие идут еще дальше, создавая по-настоящему интегрированный, а не просто «склеенный» продукт. В этом смысле показателен пример российской компании Perimetrix, которая реализовала уникальную технологию криптоконтейнеров. В отличие от стандартных криптопродуктов, работающих на основе универсального ключа (доступ к файлу получает любой владелец ключа независимо от его легитимности), криптоконтейнеры учитывают и другие факторы, такие как уровень доступа пользователя или контекст, в котором происходит действие с файлом. Другими словами, криптоконтейнеры учитывают стандартные политики и правила DLP-системы, и это не может не радовать службу информационной безопасности.

Вместо заключения

Завершая разговор о цифровых методах защиты конфиденциальных данных, хочется еще раз подчеркнуть сложность и нетривиальность данной задачи. Эта тема приобрела актуальность еще лет десять назад, однако устоявшихся подходов к построению защитных систем не существует до сих пор. Метнувшись в сторону контентной фильтрации, отрасль быстро почувствовала ее неэффективность. Детерминистские методы второго поколения тоже не оправдали ожиданий.

Поэтому, несмотря на очевидную перспективность комбинированных систем, не будем отдавать им пальму первенства заранее. Кто знает, может быть, в будущем проявятся какие-то скрытые факторы, которые пока обделены вниманием экспертов. Но как бы ни протекала эволюция DLP, происходить она будет неизбежно. А значит, на рынке рано или поздно появятся продукты, способные обеспечить качественную защиту от утечек при максимально доступной стоимости.

КомпьютерПресс 9'2008

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12