Современные тенденции в области хранения данных

Максим Соколов

Предыстория

... и ее развитие

SAN (Storage Area Network)

Решения для SAN

   Объединение ресурсов

   Кластеры

   Резервное копирование

   Катастрофоустойчивое решение

Заключение

 

Сравнительные характеристики SCSI и Fibre Channel

Предыстория...

Уже довольно продолжительное время трехуровневая архитектура работы приложений является стандартом де-факто. Суть ее в том, что все запросы от клиентов сначала направляются к серверу приложений. Затем данный сервер, обработав их, обращается к серверу, хранящему требуемую для ответа информацию. Обычно это либо сервер баз данных, либо (что реже) файловый сервер. После получения ответа сервер приложений формирует свой ответ и посылает его клиенту, выполнившему первоначальный запрос. Таким образом, если и серверы, и пользователи находятся в одной сети, то практически одни и те же данные пересылаются по ней дважды. Следовательно, при повышении объема информации, необходимой пользователю для его работы, вдвое возрастает объем передаваемых по сети данных.

Кроме того, данные становятся все более критичными, поэтому пользователи со всей остротой ощущают необходимость резервного копирования и наличие дополнительной отказоустойчивости компонентов хранения данных. Дополнительный трафик, создаваемый серверами при выполнении операции резервирования, еще больше нагружает локальную сеть. К тому же разные системы требуют различных программ, осуществляющих копирование, и соответственно больших знаний от администратора, управляющего всем этим процессом.

Высокие требования к доступности ресурсов сети и все более дорожающее время простоя организации при их отказе привели к тому, что каждый сервер, хранящий какую-либо информацию, стал обеспечиваться не только системой резервирования, но и некоторой возможностью отказоустойчивости, например при сбое одного диска. Поскольку объемы хранимых данных постоянно растут, то растет и количество дисков, содержащих критическую информацию, что приводит к повышению риска отказа. Например, если один диск имеет вероятность отказа 0,1%, то 10 дисков — уже 1% и т.д.

Все это ведет к увеличению затрат не только на сами системы хранения данных, но и на их администрирование. Поэтому было решено использовать специализированные системы хранения данных. Информацию больше не хранят внутри сервера — ее «вынесли наружу» в виде дисковых стоек и массивов.

Такой подход решил некоторые проблемы, связанные с отказоустойчивостью и администрированием. Появилась возможность создавать кластеры с одной или двумя внешними стойками, что позволило внедрять решения, устойчивые к отказу любого компонента — будь то сервер или дисковый массив. С ростом технологий локальных сетей отпала проблема и с дублирующим трафиком. Серверы стали помещать в отдельный сегмент, соединяя между собой высокоскоростными каналами. При этом исчезла дополнительная нагрузка на локальную сеть пользователей при резервном копировании и выполнении запросов сервером приложений.

Казалось бы, проблема была решена. Однако с ростом объема хранимых данных остро встал вопрос о масштабируемости таких решений. Дисковый массив можно наращивать только до определенного предела, например до количества дисков, максимально помещаемых в него. После этого его необходимо заменять новым. Кроме того, соединение между серверами и дисковыми стойками реализовывалось с помощью кабелей SCSI, что существенно ограничивало возможность размещения компонентов в пространстве для создания катастрофоустойчивых решений. Также стало ясно, что в большой компании одним-двумя мощными серверами с подключенной к ним высокопроизводительной стойкой не обойтись. Поэтому с целью разгрузить основные вычислительные ресурсы администраторы стали добавлять в сеть другие устройства, выполняющие специализированные функции по хранению данных, предоставлению информации по Web и пр.

Все это опять же привело к трудностям в администрировании. Необходимо было найти решение, которое позволяло бы полностью консолидировать все системы хранения информации, а также обладало бы возможностями более мощного расширения и отказоустойчивости.

В начало В начало

... и ее развитие

Такое решение было найдено, и заключалось оно в использовании специализированных сетей хранения данных. Суть подобных сетей в том, чтобы соединить все взаимодействующие между собой системы, используемые для этих целей (дисковые массивы и серверы, требующие доступ к ним), высокоскоростными каналами связи для создания отдельной области хранения данных, наподобие уже существующих локальных сетей, применяя при этом все наработанные технологии.

Однако при этом было необходимо учесть специфику передачи данных. В отличие от локальных сетей, по сетям хранения данных постоянно передаются большие объемы данных, что существенно для протокола, занимающегося транспортировкой пакетов от отправителя к получателю. Следующая проблема — это возможность работы с разными архитектурами, то есть протокол должен был уметь инкапсулировать внутри себя различные пакеты протоколов, используемых при работе контроллеров и дисков в современных системах. И наконец, последнее, но не менее важное — должен был быть решен вопрос с максимальными расстояниями между отдельными узлами, потому что ограничение в 5 м, налагаемое популярным протоколом SCSI, никого уже не устраивало.

Именно с такими целями в 1988 году под патронажем ANSI (Американский национальный институт по стандартизации) началась разработка нового метода доступа к данным. Ее результатом явился новый стандарт Fibre Channel, который позволял создавать сети из дисковых массивов и серверов, используя при этом в качестве среды передачи данных витую пару, коаксиальный кабель или оптоволокно.

Этот стандарт был построен по уровневой архитектуре. В нем выделялось 5 уровней:

  • FC0 — физический уровень. На данном уровне задаются физические параметры соединения между портами;
  • FC1 — уровень кодирования/декодирования. На данном уровне происходит специальное кодирование байта (8 бит) в десятибитовую последовательность, при этом балансируется количество нулей и единиц. Такое преобразование упрощает работу приемника, что существенно снижает вероятность ошибки до 10-12. Эта величина на три порядка меньше, чем, например, у Ethernet или SCSI;
  • FC2 — уровень кадра. У отправителя на данном уровне происходит «упаковка» десятибитовых слов в кадры и их дальнейшая транспортировка получателю. У получателя происходит обратный процесс. При этом кадры передаются/принимаются в виде последовательностей;
  • FC3 — уровень общих сервисов. Этот уровень зарезервирован под описание общих процедур при наличии двух или более портов в хосте. Одним из примеров такой процедуры является образование группы захвата (hunt group), когда два или более портов объединяются под единым адресом, что позволяет увеличить пропускную способность канала;
  • FC4 — уровень отображения протоколов. Данный уровень отвечает за инкапсуляцию различных протоколов (SCSI, IP, IPI-3, HIPPI, FDDI и др.) внутри Fibre Channel. Таким образом, несмотря на то что данные будут передаваться по Fibre Channel, все драйверы устройств, написанные для этих протоколов, будут продолжать функционировать без каких-либо изменений.

Стандарт Fibre Channel позволяет соединять устройства между собой тремя способами.

Первый — это «точка—точка». Данное соединение позволяет подключать серверы напрямую к дисковым стойкам, то есть так же, как это происходит в SCSI.

Второй способ — это Fibre Channel Arbitrated Loop (контролируемая, или арбитражная, петля). Данный метод можно сравнить с технологией, используемой в Token Ring или, что, конечно, не очень корректно, с подключением в сети Ethernet устройств через концентратор. Суть данного подхода заключается в том, что все устройства соединены в петлю. В любой момент времени только два из них могут обмениваться информацией. Получается, что пропускная способность канала делится между всеми устройствами, подключенными к петле (только этот факт дает возможность говорить о некоем сходстве с Ethernet). Однако в случае, если все устройства функционируют правильно, данный способ гарантирует, что любое устройство в течение определенного периода времени получит возможность передавать данные. Этот метод реализуется с помощью специальных концентраторов Fibre Channel, а максимальное количество устройств, объединенных в одну петлю, составляет 126 (рис. 1).

Наконец, последний способ подключения устройств — коммутируемый. Данный метод напоминает подключение устройств Ethernet с помощью коммутатора. Здесь уже в рамках одной сети данные могут передавать любое количество пар устройств. Следовательно, каждая пара «отправитель – получатель» получает полную пропускную способность канала. На сегодняшний день это 200 Мбайт/с в режиме полного дуплекса. Реализуется данный вид подключения с помощью специальных коммутаторов — Fabric Switch. Кроме того, допускается каскадирование коммутаторов, что приводит к значительному увеличению количества устройств, работающих в рамках одной сети, — до 16 млн. (рис. 2). Таким образом, при видимой одинаковой скорости передачи данных по SCSI и Fibre Channel, за счет использования коммутированного метода подключения дисковых массивов и серверов мы получаем значительный прирост в количестве операций ввода/вывода в секунду. Кроме того, неоспоримым преимуществом последнего является возможность подключения большего количества устройств в рамках одной среды и подключения устройств на расстоянии до 100 км.

В таблице приведены некоторые сравнительные характеристики SCSI и Fibre Channel. Как видно, стандарт Fibre Channel решает все проблемы, которые мешали дальнейшему развитию систем хранения данных. Именно поэтому на его основе были разработаны новые сети, которые на сегодняшний день являются наиболее перспективным решением в области хранения данных. Об этих сетях мы и поговорим далее в нашей статье.

В начало В начало

SAN (Storage Area Network)

Сети, разработанные на базе Fibre Channel, получили название Storage Area Network (SAN). Их целью является объединение всех ресурсов, занимающихся хранением информации предприятия, в единое целое. Таким образом, сервер, подключенный к такой сети, может получить доступ к любому информационному ресурсу, находящемуся внутри нее. Это позволяет создавать любые отказоустойчивые решения — от обычного кластера, данные которого хранятся внутри SAN, до аппаратного зеркалирования информации между двумя дисковыми массивами, находящимися на большом расстоянии друг от друга (рис. 3).

Как видно из рис. 3, сеть SAN имеет четыре ключевых компонента:

  1. Серверы, которые выполняют роль шлюза между традиционными сетями и сетью хранения данных. Они отвечают за предоставление требуемой информации различным приложениям.
  2. Дисковые массивы, являющиеся главным элементом в хранении данных.
  3. Ленточная библиотека, использующаяся для резервного копирования.
  4. Шлюз SCSI—Fibre Channel, который необходим для подключения ленточных библиотек сети SAN, так как современные производители библиотек до сих пор не выпускают устройства этого класса с интерфейсом Fibre Channel.

Серверы подключаются к сети SAN с помощью специальных карт (рис. 4), которые получили название Host Adapter. Данный адаптер можно соединить напрямую с дисковым массивом либо подключить к концентратору или коммутатору Fibre Channel, что позволяет одному серверу получать доступ сразу к нескольким устройствам хранения данных. Для подсоединения к среде передачи данных (в большинстве случаев это оптоволокно) используются специальные устройства-конверторы (GBIC), что позволяет подключать адаптер к различным типам кабеля, делая их универсальными. Например, для перехода от многомодового волокна к одномодовому для увеличения расстояния подключения необходимо просто заменить конвертор, при этом не потребуется выключение сервера.

Таким же образом происходит и подсоединение дисковых массивов к сети SAN. Кроме того, адаптеры, вставляемые в дисковые массивы (Fibre Channel Array Controller), наделены дополнительной функциональностью. Во-первых, они аппаратно реализуют различные уровни RAID для организации внутри массива отказоустойчивой системы. Во-вторых, они управляют дисками, преобразуя пакеты Fibre Channel в пакеты протокола SCSI и наоборот. В-третьих, в эти адаптеры обычно встраивают кэш-память для ускорения работы с данными. В общем, данные карты являются полнофункциональными RAID-контроллерами наподобие обычных серверных, с той лишь разницей, что они размещаются непосредственно в конструктиве дискового массива.

Немного иначе в плане подключения к сети SAN обстоит дело у ленточных библиотек, поскольку подобного устройства со встроенной поддержкой Fibre Channel пока не существует. Ленточные библиотеки нуждаются в некотором дополнительном устройстве, которое преобразовывало бы пакеты в понятный для них формат. Такое устройство называется Fibre Channel Tape Controller (контроллер Fibre Channel для ленточных библиотек) и предназначено исключительно для подключения ленточных библиотек к сети SAN. Кроме того, в зависимости от производителя данный контроллер может снабжаться дополнительным Ethernet-портом для настройки и мониторинга.

Основой любой сети хранения данных служит устройство, которое соединяет между собой все серверы, дисковые массивы и ленточные библиотеки. Ранее для таких целей использовался концентратор Fibre Channel — во многом из-за того, что он был достаточно дешевым. Однако данное устройство плохо масштабируется (всего два, реже три концентратора можно соединить между собой) и делит всю пропускную способность канала между всеми участниками сети. Поэтому сегодня применяются специальные коммутаторы, которые допускают каскадирование практически любого числа устройств. Единственное ограничение на число подключаемых к сети систем — 16 млн. — накладывается самим протоколом передачи данных. Кроме того, как и в случае всем известной сети Ethernet, коммутатор позволяет обмениваться данными любым парам устройств, что не приводит к снижению пропускной способности канала. Например, сервер А может получать данные с дискового массива А в то самое время, когда сервер Б записывает информацию на массив Б. За счет такого аппаратного решения сети SAN можно масштабировать практически до бесконечности.

Естественно, что сеть будет оставаться набором бесполезных «железок» без дополнительного программного обеспечения, позволяющего настроить как каждое устройство в отдельности, так и все вместе и впоследствии наблюдать за происходящими внутри процессами. Данное ПО обычно отображает всю сеть SAN в виде некой топологической карты. Здесь администратор может задавать дополнительные пути (резервные и для распределения нагрузки) между устройствами (обычно между серверами и дисковыми массивами). При выборе конкретного устройства можно перейти в режим его настройки. При этом, как правило, запускается специализированная программа, отвечающая именно за данный тип оборудования. Для дисковых массивов — это агент по настройке и мониторингу RAID-контроллера, для серверов — это программа, которая позволяет конфигурировать и указывать резервный Host Adapter.

Кроме того, данное программное обеспечение служит для распределения всего дискового пространства между серверами. Каждому серверу указывается, к какому логическому диску какого массива он имеет доступ. Причем данная функция должна быть платформенно-независимой. Именно эта возможность в конечном итоге и делает из сети SAN — в том виде, в каком ее хотели видеть все производители.

Однако, к сожалению, до сих пор не существует единого стандарта на программное обеспечение. Каждый производитель решений в области хранения данных пытается написать свое ПО, зачастую несовместимое с системами других фирм. Поэтому во избежание различного рода проблем лучше всего приобретать все оборудование от одного производителя (как это, впрочем, и было на первых порах с оборудованием для локальных сетей).

В начало В начало

Решения для SAN

Объединение ресурсов

Одна из самых важных задач, которую решает сеть SAN, — это централизация ресурсов. Если в начале 90-х годов с увеличением числа персональных компьютеров и в связи с отходом от технологий мэйфреймов происходил процесс децентрализации, то сейчас, с ростом хранимых и передаваемых данных, появилась тенденция к консолидации сетевых ресурсов. Действительно, раньше имелся десяток дисковых массивов, жестко закрепленных за определенными серверами и раскиданных по разным участкам сети. В результате этого могла возникнуть ситуация, когда на одном массиве дисковое пространство уже кончилось и не осталось возможностей к расширению, а на другом его еще предостаточно. И вместо того чтобы использовать свободное место, приходилось либо покупать дисковый массив и добавлять его в существующую конфигурацию к новому серверу, либо, что еще неприятнее, заменять исчерпавший свои ресурсы массив. Кроме того, в большинстве случаев и дисковые хранилища, и серверы были от различных производителей, с совершенно разными возможностями по расширению и отказоустойчивости, с несовместимыми между собой дисковыми накопителями. Все это приводило к большим сложностям при изменении конфигураций систем, что, в свою очередь, повышало стоимость администрирования.

В современной сети SAN все это многообразие можно заменить одним высокопроизводительным дисковым массивом, ресурсы которого можно распределить в соответствии с требованиями между серверами. При этом, даже исчерпав все ресурсы, можно просто добавить еще один массив, за считанные минуты расширив возможное дисковое пространство вдвое.

Кроме того, поддержка SAN на сегодняшний день существует практически для всех популярных платформ и операционных систем, поэтому всегда можно обойтись оборудованием, отвечающим за хранение данных, от одного производителя. Это ведет к тому, что не требуется иметь запасные комплектующие для каждого дискового массива, достаточно приобрести один.

Естественно, что такой подход снижает стоимость администрирования и защищает инвестиции, вложенные в сеть.

В начало В начало

Кластеры

Второй ключевой момент, говорящий в пользу сетей хранения данных SAN, — облегченная по сравнению с SCSI установка кластеров и их большая гибкость. Теперь подключение стало интуитивно понятным, очень похожим по своей сути на традиционные локальные сети. Роль сетевой карты выполняют Host Adapter у серверов и Fibre Channel Raid Controller у дисковых массивов, а вместо привычной витой пары используется оптоволокно. Если вы когда-либо уже сталкивались с оптикой, то для вас не составит никакого труда сделать все подключения.

Кроме того, можно создавать различные кластерные решения в плане отказоустойчивости — начиная от достаточно простых, когда два сервера напрямую подключаются к дисковому массиву (рис. 5), и заканчивая решением, в котором все жизненно важные компоненты дублируются (рис. 6). Последний вариант может использоваться в крайне важных системах, которые не должны останавливаться ни на секунду.

Еще один важный момент — это возможность наращивания кластера. Нет никаких ограничений на количество возможных компонентов, составляющих систему, кроме, конечно, тех, которые накладывает операционная система.

В начало В начало

Резервное копирование

Использование сетей SAN сделало более легким и резервное копирование. Данные идут напрямую от дискового массива к ленточной библиотеке по высокоскоростным каналам связи, из которых и состоит сеть. При резервировании пользователи, работающие с другими данными, даже не заметят, что что-либо происходит, так как не будет никакой нагрузки на локальную сеть, а за счет использования коммутируемого подключения трафик внутри SAN не будет занимать полосу пропускания других устройств.

В начало В начало

Катастрофоустойчивое решение

За счет того, что расстояние между устройствами, работающими в рамках одной сети SAN, может достигать 100 км, появилась возможность создавать катастрофоустойчивые решения, когда дисковые массивы, являющиеся зеркальным отражением друг друга, можно разместить не только в разных зданиях, но и в разных городах. Такой вариант поможет спасти критические данные даже в случае непредвиденных обстоятельств — землетрясения, наводнения и других стихийных бедствий. Продолжением этого подхода может явиться шлюз из Fibre Channel в АТМ, то есть вариант, когда сети SAN объединяются с помощью АТМ. В этом случае никаких пространственных ограничений уже нет и теоретически дисковые массивы можно расположить на разных концах земного шара.

Однако не все так хорошо, как могло бы быть. Самое существенное ограничение, мешающее дальнейшему развитию сетей хранения данных, — это отсутствие единого стандарта на программное обеспечение, «оживляющего» SAN. Данное обстоятельство приводит к тому, что, однажды выбрав производителя, вы остаетесь навсегда привязанным к нему. Решения других фирм в рамках одной сети SAN скорее всего работать не будут.

Кроме того, решение SAN все еще остается достаточно дорогим удовольствием. Например, цена за порт коммутатора Fibre Channel фирмы Bracade — мирового лидера в производстве оборудования этого класса — может составлять от 800 до 1200 долл. в зависимости от характеристик коммутатора, тогда как стоимость порта в сети Gigabit Ethernet от фирмы Cisco составляет 500 долл. Кроме того, цена Host Adapter для сервера значительно превосходит стоимость сетевой платы для Gigabit Ethernet (1700 долл. против 660). Поэтому стоимость даже достаточно простого решения может оказаться довольно высокой. Например, изображенное на рис. 5 решение от фирмы Compaq, являющейся сегодня одним из лидеров в области решений SAN, с самым дешевым дисковым массивом RA4100 будет стоить 14 200 долл. А за отказоустойчивый вариант (рис. 6) с этим же массивом придется заплатить порядка 40 500 долл. Цены указаны без учета стоимости серверов и дисков.

Еще один недостаток — это скорость передачи данных. Современный контроллер SCSI уже превосходит скорость, предоставляемую сетью Fibre Channel (160 Мбайт/с против 100). Поэтому при использовании дисковых массивов с Ultra160 SCSI-контроллером и дисками канал передачи данных по сети будет являться узким местом. Справедливости ради надо отметить, что уже в октябре — ноябре этого года появится решение в области сетей хранения данных, где скорость передачи будет вдвое выше, то есть 200 Мбайт/с. Однако стоимость этого решения пока неизвестна.

В начало В начало

Заключение

Несмотря на все замечания, сети хранения данных имеют много преимуществ, выгодно отличающих их от других решений. Именно поэтому на сегодняшний день SAN является наиболее перспективной и развивающейся технологией в области хранения данных.

Это решение в первую очередь предназначено для организаций, где время простоя стоит очень дорого, а также для ситуаций, когда система недоступна по тем или иным причинам. Кроме того, SAN следует выбрать в качестве основы и в случае прогнозирования большого роста объема хранящихся данных. Эта технология позволяет легко наращивать существующие ресурсы, снижая при этом стоимость администрирования.

Сеть SAN защищает вложенные в нее инвестиции. Представьте себе ситуацию, что вы уже имеете сеть хранения данных. При появлении новой технологии, позволяющей передавать данные со скоростью 200 Мбайт/с, вы решили внедрить ее у себя. Для этого вам потребуется только поменять коммутатор (старый скорее всего примут в обмен на новый, так же как это сейчас происходит с аналогичным оборудованием для локальных сетей) и платы для подключения серверов и дисковых массивов к Fibre Channel. При этом у вас остаются нетронутыми сами дисковые массивы, серверы и, что немаловажно, кабельная система. Поэтому такой переход обойдется дешевле, чем, например, перевод дискового массива со старого Wide SCSI-3 на новый SCSI Ultra160, в процессе которого фактически придется приобрести новый массив и диски, а затем перенести информацию со старого носителя на новый.

Как уже отмечалось, технология SAN постоянно развивается. Что же нам обещают производители в ближайшие три года? SAN будет развиваться по шести основным направлениям:

  1. Упрощение миграции от DAS (Direct attached storage — напрямую подключенные устройства по хранению данных) к SAN с защитой вложенных инвестиций в серверы и дисковые массивы. Будут предлагаться упрощенные и дешевые варианты перехода такого рода.
  2. Дальнейшее наращивание таких возможностей SAN, как масштабируемость и производительность. Разрабатываются технологии, позволяющие передавать по сетям Fibre Channel пакеты протокола IP, и наоборот — по сетям IP пакеты Fibre Channel, что приведет к возможности создавать сети SAN поверх IP (SAN over IP). Как указывалось ранее, в скором времени появятся устройства, поддерживающие скорость 2 Гбайт/с. Продолжением роста производительности будет возможность работы со скоростями до 10 Гбайт/с.
  3. Продвижение в сторону универсализма SAN как следствие слияния технологий SAN и NAS, то есть сеть хранения данных будет предоставлять не только блоковый доступ серверов к данным, но и файловый для конечных пользователей.
  4. Принятие единого стандарта для программного обеспечения по настройке, управлению и мониторингу SAN. Будет разработано открытое API для возможности разработки такого ПО независимыми компаниями.
  5. Полная виртуализация ресурсов сети хранения данных.
  6. Более гибкое управление данными, хранящимися в сети SAN. Появится возможность устанавливать системную политику прав доступа на уровне атрибутов, задаваемых для любых ресурсов.

Следует отметить, что в нашей стране рынок SAN все еще находится в зачаточном состоянии. Однако это поможет нам избежать некоторых ошибок, с которыми столкнулись западные коллеги (например, направление с концентраторами Fibre Channel, уже не применяющимися в сегодняшних решениях). Поэтому у нас сложилась благоприятная ситуация для внедрения этого перспективного решения в области хранения данных.

 

КомпьютерПресс 11'2001

1999 1 2 3 4 5 6 7 8 9 10 11 12
2000 1 2 3 4 5 6 7 8 9 10 11 12
2001 1 2 3 4 5 6 7 8 9 10 11 12
2002 1 2 3 4 5 6 7 8 9 10 11 12
2003 1 2 3 4 5 6 7 8 9 10 11 12
2004 1 2 3 4 5 6 7 8 9 10 11 12
2005 1 2 3 4 5 6 7 8 9 10 11 12
2006 1 2 3 4 5 6 7 8 9 10 11 12
2007 1 2 3 4 5 6 7 8 9 10 11 12
2008 1 2 3 4 5 6 7 8 9 10 11 12
2009 1 2 3 4 5 6 7 8 9 10 11 12
2010 1 2 3 4 5 6 7 8 9 10 11 12
2011 1 2 3 4 5 6 7 8 9 10 11 12
2012 1 2 3 4 5 6 7 8 9 10 11 12
2013 1 2 3 4 5 6 7 8 9 10 11 12
Популярные статьи
КомпьютерПресс использует