oldi

На защите интересов бизнеса

Готовность

   Дополнительные горячие функции

   Предотвращение системных сбоев

Надежность

   Внешние факторы

   Качество производства

   Факторы сборки

   Сертификация

   Общие рекомендации

Заключение

Готовность

Дополнительные горячие функции

Для того чтобы повысить надежность операций замены оборудования, 4- и 8-процессорные серверы PRIMERGY комплектуются PCI-адаптерами горячей замены, позволяющими без выключения машины подключать новые устройства: SCSI-адаптеры, карты Fibre Channel и сетевые платы. Если, например, произошел отказ контроллера SCSI, обеспечивающего доступ к внешней подсистеме хранения, то этот контроллер программно деактивизируется, после чего, как только на индикаторе появится соответствующее уведомление, их можно будет заменить. Затем программа распознает новую карту и вносит ее в рабочую конфигурацию.

В начало В начало

Предотвращение системных сбоев

Ни одна система на сегодняшний день не может гарантировать 100% готовности — всегда остается вероятность выхода из строя отдельного компонента, поэтому уважающие себя производители серверных систем должны обязательно обеспечить ее средствами предотвращения системных сбоев или минимизации их последствий.

Восстановление через PRIMERGY MultiPath. Данная технология основана на Fibre Channel и предполагает распределять поток данных между сервером и системой хранения (PRIMERGY S60 или FibreCat) по двум и более каналам с помощью драйвера фильтрации (рис. 1). Если один или два канала оказываются недоступными, MultiPath автоматически выбирает работоспособный. С помощью данной технологии можно не только повысить надежность передачи данных, но и увеличить пропускную способность на линии между сервером и системой хранения.

Возможна также конфигурация из двух зеркальных подсистем, работающих с одним сервером через PRIMERGY MultiPath. В этом случае данные передаются к серверу даже при сбое одной из подсистем хранения.

Балансировка нагрузки. Многие современные приложения электронного бизнеса могут быть распределены по нескольким автономным серверным системам (рис. 2). Например, Internet-серверы или Windows Terminal Servers, а также многие ERP-системы и почтовые приложения работают оптимально, когда они распределены по разным машинам. Такая конфигурация называется серверной фермой, а выход из строя одного сервера не влияет на работоспособность приложения, хотя и наблюдается некая деградация производительности.

Кластеризация. Готовность приложений и системы может быть повышена при использовании кластерных конфигураций, что часто используется, например, для создания файл-серверов или систем хранения больших баз данных. Кластерная конфигурация состоит как минимум из двух серверов-узлов и подсистемы хранения, доступной каждому узлу. Различные приложения могут работать на всех узлах, и при выходе из строя в результате аварии или внешнего воздействия одного из серверов второй автоматически берет на себя выполнение оставшихся не у дел приложений и управление работой с периферийными устройствами.

PRIMERGY DuplexDataManager. С помощью программного обеспечения PRIMERGY DuplexDataManager можно резервировать каждый компонент кластерной конфигурации. Оба узла кластера взаимодействуют с PRIMERGY DuplexDataManager через продублированное кольцо Fibre Channel, объединяющее две зеркалированные подсистемы хранения (рис. 3). Благодаря архитектуре Fibre Channel имеется возможность распределить эту конфигурацию по двум разным местам, что позволяет построить катастрофоустойчивое решение — приложения продолжают функционировать даже при крахе центра данных. Программное обеспечение DuplexDataManager работает вместе с внешней системой хранения PRIMERGY S60 и с системой FibreCat, позволяя достичь наивысшего на сегодняшний день уровня готовности Intel-серверов.

В начало В начало

Надежность

Защита данных компаний электронного бизнеса начинается задолго до момента установки сервера и даже до запуска в производство конкретного его экземпляра на заводе — все начинается еще с выбора поставщиков компонентов, с проверки интегрируемости и совместной работоспособности конкретных моделей узлов. Каждый блок проходит тщательное тестирование по разным методикам с учетом опыта партнеров, интеграторов и пользователей.

Среди факторов, непосредственно влияющих на надежность серверов, особо выделяются температурные и механические воздействия. Для проверки влияния этих факторов на серверы PRIMERGY в компании Fujitsu Siemens Computers имеются тестовые лаборатории (рис. 4), где моделируются различные условия эксплуатации.

В начало В начало

Внешние факторы

Разработка конструкции серверов начинается с ответа на вопрос о том, какие задачи должен выполнять данный компьютер. Решения по размерам, производительности, надежности будут приниматься уже на основании ответов на этот вопрос. В системах, предназначенных для использования в сфере электронной коммерции, традиционно предъявляются повышенные требования к надежности. Однако надежность всей конфигурации определяется массой факторов, из которых не последнюю роль играют взаимная согласованность компонентов и надежность межсоединений.

Поставщики и партнеры. Поставщики-субподрядчики для серверных систем выбираются только из числа компаний, выпускающих высококачественные компоненты, удовлетворяющие всем промышленным стандартам. Как минимум требуется сертификация по ISO 9001, гарантирующая наличие у поставщика требуемой системы контроля качества продукции. Немаловажную роль играет рыночная позиция субподрядчика, например, для серверов PRIMERGY применяются системы хранения от EMC. В частности, контроллеры Fibre Channel специально тестируются на предмет надежной работы в конфигурации с допустимым уровнем ошибок взаимодействия серверов и системы хранения. Общеизвестно также, что продукция EMC широко распространена на рынке, а интерфейсы к ней имеются на всех уважающих себя ИТ-конфигурациях. Так, согласно данным Dataquest, по состоянию на 2001 год компания EMC занимала 41% рынка систем хранения для платформы Solaris и 31% для NT.

Контроль качества компонентов. Независимо от контроля качества отдельных компонентов, образующих сервер, осуществляется проверка на отсутствие сбоев при работе критически важных узлов в условиях длительной или экстремальной эксплуатации. Например, с помощью специальных тестовых процедур, моделирующих интенсивную работу системного программного обеспечения и серверных приложений, проверяются модули памяти. Далеко не все модули памяти, имеющиеся в данный момент на рынке, могут быть использованы в серверах — необходима их «притирка» к системной плате и чипсету, что справедливо и для дисков. Диски, используемые Fujitsu Siemens Computers, часто имеют то же наименование и емкость, что и модели, которые можно приобрести у реселлеров, но все они перед установкой в сервер обязательно проходят тестирование.

Электрическая и электромагнитная совместимость. Все электроприборы должны удовлетворять требованиям стандартов безопасности, которые в разных странах часто различаются. Это означает, что не может быть глобальных поставок, а требуется локальная адаптация к специфическим требованиям. Международный стандарт IEC950 основан на общепризнанных тестах CB Test Reports, и большинство национальных стандартов ему соответствуют. В Европе это CE (Declaration of Conformity), а в Германии — специальная сертификация GS. В соответствии с этими стандартами устройства обязаны удовлетворять тестам электрической безопасности IEC950 и EN60950, электромагнитной защиты CISPR22 и EN55022, EN50082-1, EN55024.

Климатические условия. На работу серверов оказывают влияние внешние условия: влажность, температура, запыленность и т.п. Именно поэтому критически важные серверные конфигурации работают в специально оборудованных комнатах. Кроме ограничения физического доступа к оборудованию, системам необходимо обеспечить кондиционирование воздуха, постоянную температуру и влажность. Однако не все серверы удается комфортно разместить в подготовленных помещениях, кроме того, может выйти из строя кондиционер или нарушиться внешнее электропитание серверной комнаты. Поэтому серверы PRIMERGY от Fujitsu Siemens Computers подвергаются проверке на способность работать в критических условиях, например при высоких температурах.

Механические воздействия. Серверы могут подвергаться повышенным механическим нагрузкам не только во время транспортировки, но и при эксплуатации, например при работе в составе мобильных ТВ-студий. Соответственно все модели серверов Fujitsu Siemens проходят тестирование на вибро- и удароустойчивость.

В начало В начало

Качество производства

Компьютерная индустрия, особенно производство микропроцессоров и системных плат, ориентирована сегодня на сверхмалые объемы, о которых раньше не могло быть и речи. Миллионы транзисторов размещаются на тончайших поверхностях, да еще и в десятки слоев, что требует точнейших средств калибровки, исключающих брак при производстве. Немаловажно также обеспечить необходимую надежность при работе с компонентами, вставляемыми в сервер вручную, например с модулями памяти или адаптерами управления периферией, поскольку небольшие и расположенные близко контакты могут быть источником ошибок. При производстве серверов тестированию подвергается каждый этап сборки. Кроме того, прежде чем покинуть территорию завода, готовое изделие проходит комплексное испытание в течение двух суток.

В случае сложных конфигураций, особенно для специфических применений на предприятиях электронного бизнеса, сервер может быть протестирован на работоспособность в экстремальных условиях эксплуатации при выполнении конкретных приложений заказчика. Иногда практикуется конфигурирование и инсталляция программного обеспечения непосредственно на заводе, после чего проводится комплексная проверка полученной системы на устойчивость к сбоям (рис. 5). В этом случае полностью моделируется операционная обстановка, в которой предстоит работать серверу, вплоть до использования источников питания с характеристиками, типичными для предприятия заказчика. В результате клиент получает полностью готовую к эксплуатации систему, соответствующую предъявляемым к ней требованиям надежности.

В начало В начало

Факторы сборки

Поскольку такие компоненты серверов, как микропроцессоры, системные платы, адаптеры RAID и разъемы PCI, являются очень сложными устройствами, требуется отдельная проверка их совместной работоспособности — оценка слаженности игры в одной команде сервера. Такую проверку осуществляют на основе специальных интегральных тестов, позволяющих определить устойчивость работы как отдельного компонента в составе сервера, так и взаимодействие их различных комбинаций. Одним из примеров такой проверки может служить выполнение в течение нескольких дней и недель операций копирования с одного диска на другой, между памятью и внешней системой хранения, осуществляемое в условиях максимальной загрузки всех узлов сервера. Одновременно на этом фоне могут быть запущены сложные математические вычисления с проверкой корректности их выполнения.

В начало В начало

Сертификация

Известно, что подавляющее большинство всех сбоев происходит не по вине оборудования или внешних факторов, а вследствие несовместимости системного и прикладного ПО, настроек изготовителя и драйверов. Это говорит о том, что для обеспечения надежной работы сервера требуется не только интегральное тестирование оборудования, но и выполнение тестов на совместимость всех компонентов. Поставщики ОС обычно тестируют свои изделия на совместимость с огромным количеством различного оборудования и ПО, выдавая сертификат, согласно которому тот или иной продукт будет гарантированно работать в данной конфигурации.

Microsoft Windows HCL. Для семейства Microsoft Windows предусмотрен логотип HCL (Hardware Compatibility List, http://www.microsoft.com/hcl/), свидетельствующий, что тот или иной компонент компьютерной системы проверен на совместимость с различными версиями ОС от Microsoft. Однако эти тесты относятся не только к серверам, но и к специфической аппаратуре: к RAID-массивам или кластерам, для которых Microsoft специально ввела также MSCS (Microsoft Cluster Services) — продукт, позволяющий тестировать кластеры из 2 или 4 узлов на предмет соответствия аппаратных конфигураций.

Сертификаты системного ПО. Имеются программы сертификации для Novell и ОС UNIX, которые поддерживаются соответствующими производителями. Информацию по сертификации того или иного оборудования можно найти на Web-сайтах http://www.developer.novell.com/yespgm/, http://www.sco.com/server/, http://www.hardware.redhat.com/redhatready/, http://www.suse.com/us/support/hardware/.

Сертификация приложений. Кроме ОС производители могут сертифицировать прикладное ПО, например СУБД или системы ERP, большое число различных типов которого используется в ИТ-инфраструктурах, отвечающих за поддержку критических бизнес-процессов. В связи с этим, в особенности для построения серверных конфигураций для систем электронного бизнеса, требуется в высшей степени тщательное тестирование взаимодействия различных приложений типа ERP, CRM, программ электронной коммерции и конкретного оборудования. Компании SAP, Baan и Oracle разработали свои собственные программы сертификации, которые в рамках партнерской программы предоставляются компании Fujitsu Siemens. В рамках данной кооперации осуществляется разработка, тестирование и оптимизация интегрированных систем с целью предоставления пользователям гарантий требуемого уровня надежности систем.

Согласование изменений. Но и это еще не все — даже полностью проверенная и сертифицированная конфигурация со временем неизбежно развивается, масштабируется, что сопряжено с изменением ее настроек и параметров. Данные изменения не могут не сказаться на работоспособности ИТ-инфраструктуры, поэтому необходимо тщательно документировать все модификации и повторно тестировать обновленные конфигурации для выявления несогласованностей. В связи с этим в мире Windows возникла новая концепция — Microsoft Windows 2000 Datacenter Server, гарантирующая работу только с сертифицированной конфигурацией. Сервер, сертифицированный по программе Microsoft Windows 2000 Datacenter Server, отличается от обычной системы по следующим параметрам:

  • системное тестирование — вместо взаимодействия отдельных компонентов проверке подвергается весь комплекс;
  • строгий контроль и повторная сертификация при изменениях конфигурации;
  • одновременная комплексная сервисная поддержка сервера со стороны Fujitsu Siemens Computers и Microsoft для обеспечения быстрого решения проблем пользователя;
  • гарантия надежности 99,9% и выше для комбинации оборудования и ОС.

Мониторинг конфигурации. Несмотря на наличие требований по надежности и отказоустойчивости, ИТ-инфраструктурам все же необходим текущий мониторинг со стороны администратора, проводимый с помощью специальных инструментов. К услугам системного администратора компания Fujitsu Siemens предлагает, например, такой продукт, как ServerView, позволяющий осуществлять мониторинг всех серверов сети и состояния очереди заданий. Кроме того, могут контролироваться такие показатели, как температура, скорость вращения лопастей вентиляторов, диагностические сообщения от жестких дисков и модулей памяти. Возможна установка пороговых значений данных показателей, при достижении которых может быть запланировано какое-либо действие: отправка сообщения администратору, подключение резервных устройств и т.п. ServerView предоставляет интерфейс к известным программам управления распределенной конфигурацией: CA Unicenter, Tivoli, HP OpenView. Для обеспечения централизованного контроля за конфигурациями установленного в компании пользователя программного обеспечения данные системы ведут учет модификаций, отслеживают текущие конфигурации и номера версий ПО, используемого на рабочих местах, выполняют автоматическое обновление версий.

В начало В начало

Общие рекомендации

Но и это еще не все — работоспособность построенной и сертифицированной ИТ-инфраструктуры окажется под угрозой, если в компании отсутствует или не соблюдается политика безопасности. Отсутствие резервных источников питания, генераторов, способных поддержать работоспособность компьютерной конфигурации, повышает риск потери критически важных данных или прекращения круглосуточного обслуживания клиентов, что особенно критично для компаний, чей бизнес связан с Internet. Данные, хранящиеся только в одном месте, могут быть потеряны в результате пожара, наводнения или других внешних воздействий. Весьма маловероятно, чтобы компания смогла после этого восстановить свою нормальную работу. Даже строгого контроля за физическим доступом к серверной комнате или локализации влияния внешних факторов будет недостаточно, если в защите системы останутся дыры, позволяющие хакерам получить доступ к информации.

Абсолютная надежность может быть достигнута лишь в результате согласованных усилий многих служб, а надежность одного сервера — это только первый шаг к обеспечению отказоустойчивости всей ИТ-инфраструктуры.

В начало В начало

Заключение

Высокая готовность и надежность не даются даром. Общая стоимость подобных ИТ-инфраструктур складывается из начальной стоимости, издержек планирования и реализации, а также из накладных расходов. Выбор конкретного уровня готовности определяется также последствиями, в которые выльются для предприятия электронного бизнеса простои информационной системы. Оценка стоимости простоя до сих пор остается достаточно сложной задачей, поскольку не только связана с потерей ее работоспособности, но и в существенной мере зависит от организационной структуры конкретного предприятия и от места проявления неисправности. Тем не менее можно привести некоторые практические оценки готовности и надежности серверных конфигураций.

По данным аналитиков, компании теряют от нескольких тысяч до одного миллиона долларов в час из-за простоев своих ИТ-инфраструктур или отдельных критически важных приложений. Средняя стоимость простоев составляет около 70 тыс. долл. в час. Для финансовых приложений этот показатель варьируется от 14 тыс. до 6,5 млн. долл. В независимом исследовании, проведенном при опросе 450 компаний Fortune 1000, называется цифра 82,5 тыс. долл. в час, а консалтинговая компания AMR Research приводит еще более впечатляющие цифры: бизнес, связанный с инвестициями, теряет от простоя своих ИТ-инфраструктур до 400 тыс. долл. в час, телекоммуникационная компания — свыше 300 тыс., а страховая — до 100 тыс. долл. Чтобы исключить возможность таких потерь, менеджерам следует изучать лучший опыт по построению систем высокой готовности, выбору оптимальной политики безопасности и особое внимание уделять продукции вендоров, предлагающих отказоустойчивые системы. В этом смысле серверы PRIMERGY могут стать неплохим выбором. Однако этого еще недостаточно для построения системы высокой готовности — требуется дополнительный сервис, который такие компании, как Fujitsu Siemens Computers и ее партнеры, смогут предоставить своим клиентам в России, сервис по восстановлению системы после сбоев, по удаленной диагностике и прогнозированию отказов.

КомпьютерПресс 2'2002