Сетевое хранение данных
Именно информация приводит в действие весь современный бизнес и в настоящий момент считается наиболее ценным стратегическим активом любого предприятия. Объем информации растет в геометрической прогрессии вместе с ростом глобальных сетей и развитием электронной коммерции. Для достижения успеха в информационной войне необходимо обладать эффективной стратегией хранения, защиты, совместного доступа и управления самым важным цифровым имуществом — данными — как сегодня, так и в ближайшем будущем.
правление ресурсами хранения данных стало одной из самых животрепещущих стратегических проблем, стоящих перед сотрудниками отделов информационных технологий. Вследствие развития Интернета и коренных изменений в процессах бизнеса информация накапливается с невиданной скоростью. Согласно данным компании Strategic Research, сегодня только на серверах открытых систем хранится не менее 200 петабайт информации, и этот объем удваивается каждые полтора года. Многие компании включились в своеобразное соревнование по преобразованию внутренних систем ведения бизнеса, чтобы использовать Интернет для его развития. Они глобализируют свои системы IT для более полной поддержки приложений электронной коммерции, непрерывно работающих 24 часа в сутки, 7 дней в неделю, 365 дней в году.
Сетевое хранение данных позволяет решить многие текущие задачи в бизнесе, связанные с хранением информации, а именно:
- универсальный и совместный доступ к ресурсам;
- поддержание непредсказуемого, взрывного роста системы IT;
- обеспечение непрерывной доступности при сохранении экономичности;
- обеспечение маcштабируемости и высочайшей скорости работы хранилища данных;
- создание необходимых условий для работы новых приложений, например приложений резервного копирования, без участия сервера и LAN;
- упрощение управления ресурсами, связанного с их централизацией;
- повышение уровня защиты информации и отказоустойчивости.
До сегодняшнего момента продукты сетевого хранения разделялись на устройства сетевого хранения (Network Attached Storage, NAS) и сети хранения данных (Storage Area Network, SAN). Продукты NAS уходят корнями в сеть Ethernet и спроектированы в соответствии с концепцией файл-сервера. Продукты SAN продолжают технологию хранения SCSI и включают несколько видов, разработанных для обеспечения функций ввода-вывода; в их число входят системные контроллеры ввода-вывода и устройства и подсистемы хранения. Наиболее известными продуктами SAN являются те, которые заменили параллельную шину SCSI коммутаторами и концентраторами.
Продукты SAN вышли на рынок на несколько лет позднее продуктов NAS. Когда на рынке появились обе технологии, специалисты ставили вопрос по поводу их будущего. В результате такой ситуации возник ряд интересных решений, в том числе предпринимались попытки разделить их на две разные архитектуры. Хотя SAN и NAS различны по структуре, они во многом одинаковы и в них заложен потенциал для разного рода интеграций.
Технологии хранения данных
етевое хранение данных построено на трех фундаментальных компонентах: коммутации, хранении и файлах. Все продукты хранения можно представить в виде комбинации функций данных компонентов. Поначалу это может вызвать замешательство: поскольку продукты хранения разрабатывались по совершенно разным направлениям, функции часто перекрывают друг друга.
Немало специалистов провели много часов за работой, пытаясь определить, как написать лучшую прикладную программу для привлечения заказчиков в сетевые хранилища и как сделать более понятной технологию хранения на основе своего успешного приложения. Конечно, для этого существует много способов, но в данной статье мы исходим из того, что хранение само по себе является приложением. В сети работает множество приложений типа «клиент-сервер» и различных видов распределенных приложений, но в то же время хранение является уникальным и специализированным типом приложения, которое может функционировать в нескольких сетевых средах.
Поскольку процессы хранения тесно интегрированы с сетями, будет уместно напомнить, что сетевые хранилища представляют собой системные приложения. Сервисами, которые предоставляются сетевыми приложениями хранения, могут пользоваться сложные корпоративные программы и пользовательские приложения. Как и в случае со многими технологиями, некоторые типы систем лучше отвечают требованиям сложных приложений высокого уровня.
Коммутация
Термин «коммутация» применяется ко всему программному и аппаратному обеспечению и к службам, которые обеспечивают транспортировку хранения и управление ею в сетевом хранилище. Сюда входят такие различные элементы, как разводка кабелей, сетевые контроллеры ввода-вывода, коммутаторы, концентраторы, аппаратура выборки адресов, контроль связи данных, транспортные протоколы, безопасность и резервы ресурсов. В сетевых хранилищах все еще широко используются технологии шин данных SCSI и ATA, и, скорее всего, они будут использоваться еще долго. Фактически продукты SCSI и ATA сегодня применяются гораздо чаще в технологии NAS.
Существуют два важных различия между сетями хранения SAN и обычными локальными сетями LAN. Сети хранения SAN автоматически синхронизируют данные между отдельными системами и хранилищами. В сетевых хранилищах необходимы компоненты высокой степени точности для обеспечения надежной и предсказуемой среды. Несмотря на ограничения по расстоянию, параллельная SCSI — чрезвычайно надежная и предсказуемая технология. Если новые технологии коммутации, такие как Fibre Channel, Ethernet и InfiniBand, сменят SCSI, они должны будут продемонстрировать аналогичный или лучший уровень надежности и предсказуемости. Имеется и такая точка зрения, которая рассматривает коммутацию как канал хранилища. Сам термин «канал», берущий свое начало в среде больших вычислительных машин, предполагает высокую надежность и работоспособность.
Хранение
Хранение в основном затрагивает блочные операции адресного пространства, включая создание виртуальной среды, когда адреса логического блока хранения отображаются из одного адресного пространства в другое. Вообще говоря, в сетевых хранилищах функция хранения почти не изменилась, если не считать двух заметных отличий.
Первое — это возможность нахождения технологий виртуализации устройства, например управление устройством внутри оборудования сетевого хранения. Этот вид функции иногда называют контроллером домена хранения или виртуализацией LUN.
Второе главное отличие хранения заключается в масштабируемости. Продукты хранения, такие как подсистемы хранения, имеют значительно больше контроллеров/интерфейсов, чем предыдущие поколения шинной технологии, а также намного больший объем хранения.
Файлы
Функция организации файлов представляет абстрактный объект конечному пользователю и приложениям, а также организует разметку данных на реальных или виртуальных устройствах хранения. Основную часть функциональности файлов в сетевых хранилищах обеспечивают файловые системы и базы данных; их дополняют приложения управления хранением, например операции резервного копирования, также являющиеся файловыми приложениями.
Сетевое хранение к настоящему времени почти не изменило файловые функции, за исключением разработки файловых систем NAS, в частности файловой системы WAFL компании Network Appliance.
Кроме упомянутых технологий хранения данных NAS и SAN, ориентированных на крупные и глобальные сети, в небольших локальных сетях доминирующее положение занимает технология DAS (Direct Attached Storage — рис. 1), в соответствии с которой хранилище находится внутри сервера, обеспечивающего объем хранилища и необходимую вычислительную мощность.
Простейшим примером DAS может служить накопитель на жестком диске внутри персонального компьютера или ленточный накопитель, подключенный к единственному серверу. Запросы ввода-вывода (называемые также командами или протоколами передачи данных) непосредственно обращаются к этим устройствам. Однако такие системы плохо масштабируются, и компании с целью расширения объема хранилища вынуждены приобретать дополнительные серверы. Эта архитектура очень дорогая и может использоваться только для создания небольших по объему хранилищ данных.
Storage Area Network
истема хранения данных SAN (рис. 2) реализуется в специализированной локальной сети. Как и в DAS, запросы ввода-вывода непосредственно обращаются к устройствам хранения. В большинстве современных сетей SAN использует высокопроизводительный канал Fibre Channel, который обеспечивает произвольное соединение процессоров и устройств хранения данных в этой сети.
Системы хранения данных SAN позволяют решать следующие задачи: программная коммутация, создание удаленных хранилищ, консолидация хранилищ, создание гетерогенных хранилищ и обеспечение резервного копирования.
Программная коммутация. Необходимость решения этой задачи возникла исходя из ситуаций, когда в информационной системе имеется достаточно большой набор дисковых систем и требуется время от времени подключать наборы дисков к различным серверам. В случае обычных SCSI-дисков это требует физической перекоммутации, часто необходима остановка системы. Однако применение протокола Fibre Channel, FC-концентраторов и FC-коммутаторов позволяет использовать программный способ. Важно отметить, что при этом каждый диск остается подключенным только к одному серверу. Сегодня эти решения успешно применяются, а дальнейшее их развитие будет вести к поддержке большего числа хостов и к увеличению гибкости при коммутации.
Удаленные хранилища. Совершенствование технологии привело к тому, что стало возможным относить дисковые массивы на расстояния до 10 км от сервера, тем самым обеспечивая защиту данных от катастроф.
Консолидация хранилищ. Прежде всего консолидация хранилищ обеспечивает значительную экономию при эксплуатации и большую надежность систем.
Гетерогенные хранилища. Консолидация хранилищ приводит к гетерогенным подключениям к дисковому массиву, так как в информационной системе всегда существуют различные программно-аппаратные платформы.
Прямое резервное копирование. Идея прямого резервного копирования заключается в обеспечении прямого копирования данных с диска на ленточный накопитель, минуя локальную сеть. Таким образом, процессорная мощность серверов будет загружена по минимуму.
Network Attached Storage
Устройство хранения данных NAS (рис. 3) с сетевым интерфейсом (appliance) обычно содержит серверный процессор и систему дисковой памяти и подключается к сети, построенной на основе протокола TCP/IP (LAN или WAN). Доступ к устройствам NAS производится с помощью специальных протоколов доступа к файлам и совместного доступа к файлам. Принимаемые устройством NAS файловые запросы транслируются внутренним процессором на уровень запросов ввода-вывода устройства хранения данных. Наиболее распространенными протоколами файлового доступа являются протоколы CIFS (Common Internet File System — общая файловая система Интернета), которые используются на платформах Windows и NFS (Network File System — сетевая файловая система, применяемая на платформах UNIX). Эти протоколы работают поверх IP-протокола, используемого в Ethernet-сетях и в Интернете. Их назначение — обмен файлами между компьютерами, благодаря чему клиенты Windows, Macintosh и UNIX имеют полноценный доступ к дисковому массиву.
Одна из привлекательных ключевых особенностей NAS состоит в облегчении администрирования сетевого решения в целом за счет инсталляции в NAS своей «тонкой» операционной системы.
Таким образом, NAS можно считать законченным решением в области хранения данных.
Технологии коммутации
Fibre Channel
Основное достоинство технологии Fibre Channel заключается в том, что это высокоскоростная, низколатентная сеть с современной технологией контроля потоков — обработки такого пульсирующего трафика, как ввод-вывод хранения. Следует отметить, что именно эта характеристика отличается слабостью у Ethernet. Индустрия Fibre Channel несравнима с Ethernet, и поэтому у нее небольшой выбор технологий и относительно небогатый опыт внедрения и управления.
Технология Fibre Channel стала первой легальной разработкой общей коммутации. Однако, как было не раз доказано, одна технология ничего не решает. Индустрия Fibre Channel не заинтересовалась предоставляемым потенциалом. Эта технология начиналась как стандарт де-факто для SAN, но маловероятно, что Fibre Channel будет использоваться в NAS и выйдет на рынок «клиент-сервер».
Ethernet
Ethernet — самая распространенная сетевая технология в мире; существует огромное количество специалистов и множество методов для внедрения и управления сетями Ethernet. Хотя 10/100-мегабитные разновидности Ethernet достаточны для NAS, они не подходят для поддержки SAN вследствие ограничений полосы пропускания и отсутствия управления потоками. Поэтому основанием для построения SAN станет, видимо, Gigabit Ethernet.
Без сомнения, Ethernet будет использоваться в качестве общей функции коммутации как для файлов, так и для приложений хранения, но прежде чем он начнет широко применяться в качестве корпоративной индустриальной сети, следует доказать его релевантность по отношению к хранению.
InfiniBand
InfiniBand — последовательная шина данных — служит заменой системной шине ввода-вывода PCI. Разработку InfiniBand возглавляла корпорация Intel в сотрудничестве с Compaq, Hewlett-Packard, IBM, Sun и др. В качестве основного компонента системы, который, как ожидается, будет использоваться на платформах и PC, и UNIX, InfiniBand, вероятно, будет применяться в значительных масштабах.
В отношении сетевых хранилищ возникают следующие вопросы. Будут ли файловые приложения и приложения хранения функционировать непосредственно на шине InfiniBand или потребуют каких-либо сетевых адаптеров InfiniBand? И когда это произойдет — сразу, скоро, через несколько лет или вообще никогда? Видимо, данная технология должна зарекомендовать себя в качестве общей системной шины ввода-вывода, прежде чем она сможет эффективно завоевывать такие новые рынки, как рынок сетевых хранилищ. Однако у InfiniBand есть очевидный потенциал, чтобы в будущем стать основной функцией коммутации.
Подводя итоги
стройства SAN — очень надежное решение. Основная идея здесь заключается в том, что централизованная машина больше не является единственной точкой отказа или появления узких мест в системе. Концепция корпоративного хранения SAN возлагает ответственность за долговечность данных на подсистему хранения. Иными словами, подсистемы хранения берут ответственность за собственное управление и за управление данными, которые в них находятся. При этом подразумевается, что централизованные машины могут изменять операции обработки, но обрабатываемые данные остаются в целости и сохранности в корпоративном хранилище.
Корпоративное хранение — это прекрасная, но весьма проблематичная идея. Каким образом самоуправляемая подсистема хранения может стать достаточно разумной, чтобы обеспечить управляющие и контролирующие сервисы данных, которые в ней хранятся? Поддержка подсистемами хранения функций уровня хранения позволяет им выступать в качестве «сверхвиртуальных» устройств, но это не придает им способности оперировать объектами-данными (например, файлами), как хотелось бы менеджерам информационных технологий.
Такое решение намного сложнее, чем простое расположение микропроцессоров в подсистемах хранения. Самоуправляющиеся подсистемы хранения должны обладать способностью определять, какие именно блоки соответствуют конкретным объектам данных (то есть файлам, таблицам баз данных и метаданным), если они собираются управлять ими. Похоже, что «недостающее звено» представляет собой некоторое количество встроенной файловой функциональности, которое должно обеспечить возможность ассоциирования объектов данных с их местом хранения. Это целиком и полностью находится в сфере ответственности уровня структуры данных стека ввода-вывода. Такой уровень можно представить как «нижний слой» файловой системы, который контролирует помещение объектов данных в реальное или виртуальное хранилище.
Архитектурная проблема NAS и SAN заключается в том, что подсистемы хранения со встроенной файловой технологией обычно считаются продуктами NAS. А как тогда назвать подсистему хранения с половиной файловой системы? Именно поэтому анализ сетевого хранения в терминах SAN или NAS ничего не дает. NAS и SAN являются независимыми объектами; независимыми являются также коммутация, хранение и файлы.
Технология NAS, во-первых, предоставляет сервис, позволяющий приложениям и пользователям находить данные в виде объектов в сети, во-вторых, поставляет системе данные для хранения в устройствах хранения или в подсистемах. А технология SAN предоставляет функции хранения в сети; в общем и целом, она применяется в отношении логических блоков адресов, но в потенциале может использовать и другие методы адресации и идентификации хранимых данных.
Коммутация для сетей хранения должна быть чрезвычайно быстрой и надежной. До сих пор в этой роли выступал Fibre Channel, но в будущем на рынок должны выйти Gigabit Ethernet и InfiniBand. Развитие общей инфраструктуры коммуникации как для файловых приложений (NAS), так и для приложений хранения (SAN) кажется неизбежным, в итоге она станет ключевой технологией.
В ближайшем времени технологии сетевого хранения данных, такие как SAN и NAS, будут использоваться повсеместно — просто потому, что количество информации на Земле удваивается каждый год.
КомпьютерПресс 2'2002