На защите интересов бизнеса
Уровни готовности ИТ-инфраструктуры
Еще недавно стоимость компаний, работающих в области электронного бизнеса, за несколько часов повышалась в десятки раз, однако сегодня цена многих e-фаворитов часто так же стремительно падает. Например, MicroStrategy, Inc., за которую еще недавно давали 13 млрд., сегодня потеряла в цене 62%, а компания eBay, многочисленные сбои систем которой приводили к простоям от нескольких часов до суток, потеряла 4 млрд. долл. только за один рабочий день. Конечно, компания принесла извинения пользователям и сообщила о начале работ над созданием конфигурации высокой готовности и резервной системы, но ведь раньше надо было думать. Пользователи и аналитики наконец-то поняли, насколько уязвим электронный бизнес, — И сегодня все чаще волнуют проблемы обеспечения непрерывности данных после сбоев; возможности включения в состав кластера архитектур, отличных от основной машины; обеспечения гарантированного времени восстановления системы. Системы непрерывной готовности на базе серверов PRIMERGY от компании Fujitsu Siemens Computers во многом отвечают требованиям надежности, предъявляемым к аппаратно-программному обеспечению систем электронного бизнеса, и стали сегодня незаменимыми для выполнения соответствующих приложений.
лектронный бизнес, так же как и телекоммуникации, являет собой пример индустрии, существование которой невозможно без ИТ, — качество этого бизнеса непосредственно зависит от качества построения компьютерной инфраструктуры. По данным AMR Research, 43% компаний, потерявших в результате сбоев компьютерной инфраструктуры свои данные, вынуждены были навсегда уйти с рынка, а еще с 29% это произошло в течение двух последующих лет. В данной статье излагается позиция и решения компании Fujitsu Siemens Computers по построению на базе серверов семейства PRIMERGY конфигураций, адекватных требованиям, которые предъявляются сегодня к системам поддержки электронного бизнеса.
Готовность
отовность (availability) определяет способность ИТ-инфраструктуры предоставлять в срок нужную информацию или услуги при наличии соответствующих прав доступа и сохранять критически важные данные при повреждениях программно-аппаратного комплекса. Готовность серверных конфигураций, как правило, определяется надежностью наиболее слабого звена, поэтому для минимизации возможных простоев по сбоям Intel-серверов компания Fujitsu Siemens Computers предлагает многоуровневую концепцию по максимизации уровня готовности серверов PRIMERGY.
Теоретически каждую систему можно настроить индивидуально в зависимости от требуемого уровня надежности и имеющихся ресурсов. Например, для компании электронного бизнеса серверы приложений являются наиболее критическим звеном — в случае их простоев бизнес оказывается парализованным на время или навсегда. Мало того, надо помнить, что, если сервис временно недоступен, клиент всего лишь одним кликом мышью может легко перейти к конкуренту.
Само собой разумеется, что готовность серверной системы и отдельного ПК — вовсе не одно и то же. Готовности ПК в течение 8-10 часов в день вполне достаточно, тогда как серверы приложений обязаны трудиться без перерыва круглые сутки. Потеря данных на одном ПК — это неприятность только для одного человека, а недоступность информации на сервере может означать крах целой компании. Согласно концепции Fujitsu Siemens Computers при построении ИТ-инфраструктуры может быть предусмотрено пять уровней обеспечения готовности (рис. 1). Однако важно понимать, что системы высокой готовности вовсе не обязательно использовать для поддержки всех приложений. Тем не менее, если работа оперативного приложения жизненно важна для функционирования предприятия (как, например, в случае электронного бизнеса), то именно непрерывная готовность в максимальной степени гарантирует то, что приложение будет спокойно поддерживаться в рабочем состоянии 24 часа в сутки, 365 дней в году.
Устойчивость к сбоям
Естественно, что основа готовности системы — это прежде всего надежность каждого отдельного компонента и их узлов.
Источник бесперебойного питания (UPS). Для гарантированной работы сервера необходимо обеспечить подачу электроэнергии, поэтому общим требованием комплектации всех серверов сегодня является наличие UPS. Даже если не удалось восстановить питание до момента разрядки аккумуляторов UPS, то это устройство по крайней мере обеспечит нормальное завершение работы всех приложений, сохранение данных и корректную остановку сервера.
Автоматическая реконфигурация и перезагрузка (ASR & R). Если все-таки произошел отказ какого-либо компонента, например модуля памяти или процессора, то на помощь придет система ASR & R, которая стандартно включается в серверы. Данная система позволяет восстановить работоспособность: при сбоях основной памяти или процессора сервер перезагружается, автоматически выводя отказавший компонент из своей конфигурации, и продолжает работать на оставшихся ресурсах. Таким образом, после небольшого перерыва пользователи могут продолжить работу с сервером, а отказавшие компоненты можно заменить позже. В результате сокращается время простоя.
Коррекция ошибок (ECC). Аппаратная коррекция ошибок памяти предусматривает хранение дополнительных битов паритета, содержащих значение контрольной суммы, вычисляемой при записи данных в модуль памяти и используемой для проверки корректности выполнения операций считывания из памяти. В случае несовпадения битов контрольной суммы, вычисленной при чтении со значением, хранящимся в модуле, идентифицируется сбой обращения к памяти; операция повторяется или происходит восстановление с помощью хранящейся в модуле памяти контрольной суммы.
Технология разреженной памяти (Memory Scrubbing). Часто в больших конфигурациях достаточно крупные области памяти подолгу остаются невостребованными, поскольку к ним не происходит обращения. В этом случае ECC оказывается неэффективной, так как позволяет обнаруживать и исправлять ошибки только при чтении. В подобной ситуации возникает вероятность появления не только единичных, но и множественных ошибок. Предложенная компанией Fujitsu Siemens Computers технология Memory Scrubbing (чистка, разрежение памяти) представляет собой расширение ECC и предполагает периодический опрос памяти на предмет поиска одиночных ошибок по несовпадению контрольных сумм и их коррекцию. Это гарантирует надежность считывания и хранения больших областей памяти.
Технология Сhipkill (RAID-памяти). Данная технология расширяет ЕCC на множество битов коррекции ошибок. ECC позволяет исправить не более одного разряда в 64-разрядном слове, поэтому при отказе микросхемы памяти, в которой размещается несколько разрядов слова (обычно 4), данные теряются. В контроллере Chipkill, интегрированном в системную плату, память объединена в банки по четыре модуля (начиная с модулей, имеющих не менее 18 четырехразрядных микросхем — 128 Мбайт) и распределяет каждое слово по всем 4 модулям банка (рис. 2). При выходе из строя какой-либо микросхемы теряется по одному разряду в каждом слове банка, однако это обеспечивает возможность восстановления данных с помощью ECC. В серверах PRIMERGY H400 и N400 контроллер Chipkill устанавливается стандартно и не требует для работы каких-либо специальных типов модулей памяти, кроме обычных SDRAM.
Диагностика сбоев. Многие, особенно подвижные, компоненты серверных систем, например диски или вентиляторы, рано или поздно изнашиваются, и их выход из строя может привести к потере данных. Для этого в надежных системах предусматривается возможность горячей замены таких компонентов. В серверах PRIMERGY имеется дополнительная система автоматической диагностики текущего состояния оборудования. Средства мониторинга мгновенно сообщают администратору о необходимости, например, замены вентилятора или о предстоящих сбоях диска. Состояние всех жизненно важных узлов сервера графически «отображается» программой мониторинга ServerView на экране (рис. 3).
Избыточность
Опыт эксплуатации компьютерных систем и данные статистики позволяют выделить наиболее уязвимые к сбоям узлы сервера, способные повлиять на работоспособность всей конфигурации. Для предотвращения таких сбоев обычно применяется тактика избыточности — дублирования критически важных компонентов. Сервер автоматически диагностирует момент сбоя и включает в конфигурацию дублирующий компонент.
Вентиляторы. Поскольку эти устройства часто работают с воздухом из окружающей среды, они достаточно быстро загрязняются и теряют свои функциональные качества, что может вызвать перегрев системы. В связи с этим вентиляторы должны быть продублированы, чтобы гарантировать работоспособность системы при выходе всех штатных единиц.
Модули питания. Источники питания преобразуют внешний ток и напряжение к форме, пригодной для работы всех компонентов сервера, который не сможет работать без внешнего электричества, даже если снабжен всеми возможными средствами надежности и источниками бесперебойного питания. Все серверы, начиная с модели PRIMERGY F200, имеют в своей конфигурации избыточные блоки питания, позволяющие сохранить работоспособность при выходе какого-либо из них из строя.
Сетевые интерфейсы. Устойчивость работы соединения надежных компонентов сервера и внешнего мира также влияет на общую готовность системы — выход из строя сетевого интерфейса превращает сервер в обычный ПК. Сетевые адаптеры серверов PRIMERGY интегрированы на системной плате и могут быть задублированы. Благодаря интеллектуальным драйверам адаптеры работают как один логический интерфейс, подстраховывая друг друга на случай сбоя. Если сервер укомплектован картой hot-plug PCI, то можно заменить вышедший из строя адаптер, не прибегая к остановке системы. Технология горячей замены PCI позволяет заменять контроллеры PCI без выключения сервера. Эта возможность используется, например, контроллерами SCSI, Fibre Channel и сетевыми контроллерами. Если вышел из строя контроллер SCSI, обеспечивающий подключение к внешней системе хранения данных, то его можно заменить, не выключая сервер: открывается корпус, разъем PCI обесточивается, что подтверждается индикатором, а отказавший контроллер можно извлечь. Когда исправный контроллер установлен в разъем, последний вновь подключается к шине, о чем незамедлительно извещается операционная система.
Диски (RAID). Технология RAID защищает данные от сбоев отдельных дисков: вся система хранения продолжает работать, восстановив информацию с избыточных носителей. Имеется несколько уровней RAID, в соответствии с которыми специализированные RAID-контроллеры или драйверы операционной системы поддерживают «зеркальную» (точную) копию одного или нескольких дисков или вычисляют и записывают контрольную сумму на один или на все диски. С помощью «зеркала» или контрольной суммы можно восстановить на лету данные отказавшего диска. Если сервер оснащен дисками с горячей заменой, то замену можно произвести, не выключая сервер.
Горячая замена
Нельзя в полном объеме оценить преимущества от избыточных конфигураций, не имея возможности горячей замены компонентов — только в этом случае реальна круглосуточная эксплуатация компьютерной системы.
Вентиляторы. Начиная с модели PRIMERGY F200 предполагается не только наличие дублирующих вентиляторов, но и их горячая замена в течение нескольких секунд (рис. 4).
Модули питания. На всех моделях серверов PRIMERGY предусмотрена возможность замены дополнительных блоков питания в горячем режиме (рис. 5). Конструкция предполагает простой доступ к каждому блоку, размещенному на задней панели компьютера.
Диски. Если сервер снабжен RAID-массивом, то данные будут сохранены даже при выходе из строя жестких дисков, однако заменить такой диск не так просто — заменяемый компонент должен быть включен в состав конструктивного модуля, допускающего замену в горячем режиме. Все серверы PRIMERGY комплектуются такими модулями, которые могут быть заменены в случае сбоя без выключения сервера. Система автоматически выводит сбойный диск из конфигурации и распознает новый, мгновенно включая его в работу. Для выполнения этой операции используется DualDiskEdition — решение уровня RAID-1 (программное зеркалирование), разработанное на основе DuplexDataManager. Данная программа позволяет не только зеркалировать данные на двух подключенных через интерфейс SCSI жестких дисках, но и обеспечивает распределение обращений к этим дискам, горячую замену, запуск операционной системы с исправного диска. «Зеркало» на базе DualDiskEdition почти не уступает по производительности массиву на базе контроллера RAID, а в некоторых случаях и превосходит его. Программное обеспечение DualDiskEdition предназначено главным образом для серверов начального уровня PRIMERGY С150, С2000, F200 и имеется в комплекте поставки.
Если в сервере используется RAID, то доступ к данным обеспечивается и в случае отказа жесткого диска. Чтобы заменять диски в работающем сервере, их нужно смонтировать в модулях горячей замены, обеспечивающих доступ снаружи. Все серверы PRIMERGY оснащены такими выдвижными жесткими дисками с горячей заменой. В случае выхода диска из строя на панели модуля загорается красный индикатор, и диск можно быстро заменить. Интеллектуальная система управления заменой дисков распознает новый диск и снова включает его в состав конфигурации RAID, после чего на новый диск записываются данные, которые были на отказавшем.
Периферийные устройства. На сегодняшний день компания Fujitsu Siemens Computers — один из немногих производителей, предлагающих замену таких устройств, как DAT, DLT или CD-ROM, без остановки машины (рис. 6). Эту возможность поддерживают модели H200 и H400, причем вместе с серверами поставляется программное обеспечение, которое позволяет отключить устройство во время замены.
(Окончание следует)
КомпьютерПресс 1'2002