Артем Катараев
заместитель технического директора, IXcellerate
Как сегодня устроена эксплуатация современного дата-центра: где заканчивается зона ответственности человека и начинается работа автоматизированных систем? На эти вопросы в своем докладе в рамках сессии «ЦОД в российских реалиях» на Securika Moscow 2026 ответил Артем Катараев, заместитель технического директора IXcellerate.
IXcellerate управляет тремя крупными территориально разнесенными кампусами в Москве: южная площадка находится в Бирюлёво, северная — на Алтуфьевском шоссе, «Вёшки» — в Подмосковье, в городском округе Мытищи. В общей сложности под управлением компании функционирует пять объектов, каждый из которых требует непрерывного контроля инженерных систем и строгого соблюдения норм безопасности для поддержания надёжности на уровне Tier III. Более десяти лет компания расширяет и кастомизирует систему мониторинга ЦОД, настраивая её под растущие масштабы инфраструктуры и усложняющиеся требования клиентов.
Автоматизация — не ИТ-проект, а операционный каркас, без которого надежность ЦОД остаётся только в декларации,
— Артем Катараев, заместитель технического директора, IXcellerate.
Как устроена система диспетчеризации и управления ЦОД
Для обеспечения бесперебойной работы ЦОД требуется два фактора: люди и технологии. В каждом из объектов IXcellerate круглосуточно работает дежурный персонал (не менее пяти человек на объект), а также системы мониторинга, которые в режиме 24/7 собирают информацию о работе инженерных систем и отслеживают критически важные показатели: температуру, влажность и т. д. Общее количество точек сбора данных превышает 250 000. Датчики и контролеры в режиме нон-стоп фиксируют параметры всех критически важных систем — кондиционирования, холодоснабжения, всех энергомодулей, а также данные ИТ-нагрузки по машинным залам, стойкам и лучам питания. Состояние каждого объекта отображается на единой консоли.
Энергобаланс. Как предотвращать риски перегрузки
Ключевая особенность системы мониторинга — динамический расчет энергобаланса в случае отказа одного из лучей питания. Предиктивная верификация нагрузки позволяет моделировать возможные критические ситуации, выявлять потенциальные риски до их возникновения и оперативно принимать меры.
Так, например, если один из двух независимых вводов стойки отключается, система моментально:
- фиксирует инцидент и сигнализирует о нем;
- пересчитывает распределение нагрузки на оставшийся луч;
- проверяет, не превышает ли текущая нагрузка допустимые пределы;
- отображает текущий показатель загрузки резервных линий и общий энергобаланс дата-центра.
Уровень нагрузки отражается на дашборде. Зеленый свет сигнализирует о том, что параметры находятся в безопасной зоне, желтый — предупреждает о приближении к предельному уровню, красный — указывает на перегрузку. Это важнейший параметр, на который ориентируется дежурная служба. Расчет аварийной ситуации ведется не по проектной модели, а по реальным данным о мощностях, благодаря чему дата-центры функционируют в режиме максимальной эффективности.
Предиктивная аналитика: от фиксации к прогнозированию сбоев
Настоящая предиктивная аналитика имеет существенное отличие от традиционных систем распознавания аварий. Принцип работы «простых» систем основан на фиксировании пороговых значений: для каждого параметра (напряжение, задымленность, запыленность и т. д.) критический уровень задается заранее, и как только датчик фиксирует достижение порога, система выдаёт предупреждение или сигнал аварии. Это реактивный подход, который выявляет уже наступившее отклонение, но не позволяет прогнозировать его заранее.
«Продвинутая» аналитика устроена принципиально иначе. Она основана на машинном обучении моделей на массиве исторических данных. Система не просто следит за порогами, а выявляет скрытые закономерности и корреляции между параметрами. Например, она может установить, что в прошлом падению показаний одного датчика стабильно предшествовало отключению другого, — и на этой основе заранее прогнозирует вероятный отказ. Прогнозирование вместо фиксации позволяет устранять потенциальные проблемы до того, как они приведут к аварии.
Сложности обучения: почему бесперебойная работа ЦОД тормозит развитие аналитики
Как это ни парадоксально, но чем стабильнее работает дата-центр, тем сложнее развивать предиктивные системы. Причина проста: для работы таких систем требуется сбор и обработка огромного массива данных и обучение моделей на реальных сценариях аварий. Проблема состоит в том, что данных об аварийных ситуациях в IXcellerate практически нет.
Бесперебойность и надежность ЦОД— большой плюс для клиентов, но минус для аналитики. Если система реагирует только на уже известные ей сценарии, в случае нового типа аварии модель не распознает угрозу. Чтобы преодолеть такое препятствие, нужно моделировать аварийные ситуации искусственно, накапливать данные и обучать алгоритмы с участием профильных экспертов.
Интеграция с клиентами: личный кабинет и 10 000 параметров онлайн
Вместе с развитием систем мониторинга меняется и подход к взаимодействию с клиентами. Если раньше система диспетчеризации была закрыта для внешних пользователей, то сегодняшние реалии диктуют новые правила. Клиенты стали более зрелыми, они понимают, как устроен ЦОД и рассчитывают на доступ к информации о состоянии и работе своего оборудования.
В ответ на этот запрос IXcellerate активно развивает систему личных кабинетов, через которые пользователи получают данные о нагрузочных параметрах и текущем состоянии арендуемых стоек, включая уровень энергопотребления, температуру в зоне размещения оборудования, нагрузку на каналы связи и т. д.
Еще одно важное нововведение — передача данных клиенту по протоколу через сервер. Задержка составляет всего 1–2 секунды, а объем передаваемой информации достигает 10 000 параметров.
Такой подход отражает ключевые принципы клиентской поддержки и корпоративной культуры компании: открытость и регулярную обратную связь. Прозрачность дает заказчикам уверенность в безопасности сервиса и подтверждает открытость в работе.
Принципы пожаротушения: вода или газ
Эффективный мониторинг ЦОД — это не только отслеживание параметров работы оборудования. Настоящая надежность достигается за счет интеграции систем мониторинга с механизмами обеспечения безопасности — в том числе противопожарной защиты. IXcellerate изначально проектировала инфраструктуру в партнёрстве с западноевропейскими вендорами и ориентировалась на международную практику пожаротушения с использованием дистиллированной воды (ТРВ) в качестве огнетушащего вещества. Такая практика была широко распространена не только в ЦОД, но и на других объектах с высокими требованиями к безопасности: театрах, музеях, круизных лайнерах и подводных лодках.
Ключевое преимущество ТРВ — безопасность для персонала: вода не выделяет токсичных веществ и не создает угрозы здоровью при срабатывании системы. Для тех клиентов IXcellerate, которые предпочитают альтернативные решения, доступна опция размещения оборудования в машинном зале с газовым пожаротушением.
В практике IXcellerate — в отличие от ряда зарубежных дата-центров, не зафиксировано случаев возгорания литий-ионных аккумуляторов. Компания сталкивалась лишь с единичными случаями перегорания блоков питания в стойках без воспламенения. В подобных ситуациях срабатывает штатный сценарий защиты: стойка автоматически обесточивается, что предотвращает развитие инцидента.
Для минимизации рисков во всех дата-центрах компании внедрена многоуровневая система сверхраннего обнаружения пожара от ведущих производителей — Wagner, Securiton, Vesda. При обнаружении признаков возгорания система передает сигнал тревоги дежурному инженеру, который тут же отправляется на место аварии. Если блок питания выгорел, оборудование обесточивается автоматически, в иных случаях специалист действует согласно внутренним процедурам. Активация системы пожаротушения ТРВ происходит только при превышении температуры воздуха выше 57 градусов в точке возгорания.
Разделение систем безопасности: инженерная и физическая охрана
Эффективный мониторинг ЦОД также требует продуманной архитектуры взаимодействия систем. IXcellerate сознательно разделяет инженерные системы и системы физической безопасности (СКУД и видеонаблюдение). Каждая из систем функционирует в отдельном контуре как самостоятельная структура с собственным операционным персоналом. Их взаимодействие ограничено обменом сигналами событийного уровня, например, «обнаружен пожар». При этом инженерная служба не реагирует на несанкционированное открытие двери, так как это зона ответственности службы безопасности.
Выбор в пользу сегментированной архитектуры стал результатом эксплуатационного опыта. На раннем этапе компания применяла модель единого контура, однако практика показала её уязвимость в условиях высокой нагрузки на дежурные службы.
Операционные показатели и ограничения
Зрелость дата-центра определяется не наличием разнообразных технологий, а качеством операционного каркаса. Подтверждением этому служат измеряемые показатели IXcellerate, включая:
- единую консоль мониторинга с охватом более 250 000 параметров;
- N-1 моделирование в реальном времени;
- PUE 1,38.
При этом компания признаёт объективные ограничения в развитии предиктивной аналитики на базе ИИ: индустрия пока не накопила достаточного массива данных и аварийных моделей для ее полноценной реализации. В текущих условиях ключевую роль играют отлаженные операционные процедуры, профессионализм дежурных смен, архитектурное разделение зон ответственности между инженерной и физической безопасностью, а также между автоматическими системами и оператором.
Надежность без деклараций достигается за счет подхода, при котором автоматизация становится неотъемлемой частью операционной деятельности, а не ограничивается рамками разового ИТ-проекта.
.jpg)

.jpg)
Фото: IXcellerate
