Обеспечение непрерывности бизнес-процессов и управление кризисными ситуациями
Информационные технологии стали неотъемлемой частью бизнеса XXI века. Они являются мощным двигателем экономики, однако источником рисков. Без бесперебойной работы ИТ-сервисов прерываются бизнес-процессы, что может привести к финансовым потерям и катастрофическим последствиям. Как обеспечить информационную безопасность и непрерывность бизнеса? Об этом мы подробно расскажем в этой статье.
Когда дело касается использования информационных технологий в бизнесе, обеспечение бесперебойности процессов становится еще более важным. Предприятия, занятые в кредитно-финансовой, телекоммуникационной, высокотехнологичной и производственной отраслях, особенно нуждаются в продуманной системе кризис-менеджмента. Однако, это также актуально для ритейла, электронной коммерции, государственного сектора и любой другой отрасли, где поставлены задачи по обеспечению непрерывности деятельности компании.
Существуют специальные регламенты, которые соблюдаются для лицензирования деятельности в ряде отраслей и указывают на необходимость непрерывности бизнеса. Риск сбоя в работе информационно-технических сервисов может иметь колоссальные материальные потери для банков и жизнь людей - если инцидент произойдет, например, в авиакомпании или на предприятии топливно-энергетического комплекса.
Риски могут возникнуть из-за природных бедствий, аварий в энергосистемах или киберпреступлений. При этом, уровень риска определяется последствиями инцидента для деловых процессов и функций. В связи с многообразием рисков, обеспечение информационной безопасности (ИБ) является актуальной и несомненно необходимой задачей.
В 2019 году компания DEAC провела опрос и выяснила, что решения по обеспечению бесперебойности процессов наиболее востребованы в финансовой и информационной сферах. Риск непрерывности бизнеса связанных с ИБ и изменениями в законодательстве страны является наиболее серьезным согласно данному опросу. Почти половина респондентов считает, что в ближайшее время эти риски будут только расти.
BCM (Business Continuity Management), BCP (Business Continuity Planning) и DRP (Disaster Recovery Planning) являются инструментами кризис-менеджмента, которые обеспечивают безопасность бизнеса в целом. Они вытекают из системы ИБ и следуют основным принципам анализа рисков появления и влияния чрезвычайных ситуаций на деловые процессы, контроля и управления инцидентами, а также стратегического и тактического планирования непрерывности информационно-коммуникационных технологий (ИКТ). BCM (BCP & DRP) широко применяются и регулируются международными, национальными и отраслевыми стандартами, такими как ISO/IEC 27001 и ISO 22301:2012. Обеспечение соответствия требованиям данных стандартов при выборе дата-центра для хранения информации или при внедрении их на предприятии, гарантирует безопасность данных и непрерывность бизнес-процессов.
Тем не менее, BCM, BCP и DRP не являются тождественными управлению ИБ, которое является лишь основой для данных дисциплин. BCM начинался с резервного копирования информации, но постепенно охватил вопросы ИБ и стал целостной структурой, взглядов на методы обеспечения непрерывности бизнеса, устойчивости организации к различным сбоям, разрушениям и потерям.
Управление непрерывностью бизнеса (BCM) — важный инструмент, позволяющий организациям оставаться оперативными в условиях любых незапланированных инцидентов, таких как сбои оборудования, технологические аварии, кибератаки, экологические катастрофы и прочее. В рамках BCM можно выделить несколько основных видов управления, каждый из которых направлен на устранение конкретных последствий инцидентов.
Первый уровень — управление инцидентами (Incident management, IM). Оно ориентировано на работу с отдельными происшествиями, которые не приводят к большим потерям для компании. В рамках IM решаются задачи, связанные с сохранением, доступностью и целостностью информации, а также отказоустойчивостью оборудования.
Второй уровень — управление непрерывностью бизнеса и аварийным восстановлением (Business continuity & disaster recovery management). Этот уровень направлен на предотвращение инцидентов, которые могут серьезно нарушить работу организации и привести к приостановке важнейших процессов. Возможные последствия таких инцидентов могут быть крайне серьезными, вплоть до банкротства. Как показывают исследования, ежегодные потери от простоев приложений в мире превышают 20 млн долларов, а в России — 19,8 млн долларов.
Третий уровень — управление чрезвычайными ситуациями (Crisis & emergency management). Он направлен на предотвращение катастрофических последствий опасных ситуаций, связанных с экологическими катастрофами, гуманитарными кризисами, инфраструктурными разрушениями и другими крайне редкими, но крайне опасными инцидентами. Надежность управления непрерывностью деятельности важна для отраслей, таких как топливная и энергетическая промышленности.
Получение значительных убытков от инцидентов вполне возможно, как показывают реальные примеры. В том числе, 12 мая 2017 года весь мир был атакован вирусом-вымогателем WannaCry, который привел к множеству сбоев и нанес огромный экономический ущерб многим компаниям, включая больницы и правительственные учреждения. Статистика говорит о том, что корпорации, успешно восстановившие деятельность после инцидента, через год получают дополнительный доход, сверх нормы, в размере 10%, в то время как компании без внедренной BCM понимают убытки в подобном размере. Управление непрерывностью бизнеса — важный залог сохранности вложенных владельцами и акционерами средств.
Внедрение BCM: какие этапы необходимо пройти
Планирование и стратегия - так начинается управление непрерывностью бизнеса (BCM). В этом процессе часто используются инструменты риск-менеджмента (RM). Чтобы реализовать BCM в организации, необходимо пройти целый ряд этапов. Они включают в себя овладение техническими и программными средствами, регламентацию действий, распределение ответственности и обучение персонала. Взять на себя эти задачи компании может быть проблематично. В таком случае стоит обратиться за помощью к ИТ-экспертам. Они не только разработают план мероприятий и найдут наилучшие решения для компании, но и помогут перевести проект в реальность.
Анализ и управление рисками
Каждая компания сталкивается со своими уникальными рисками, в зависимости от сферы деятельности и масштабов бизнес-процессов. Например, сбой в системе учета пациентов в медицинском учреждении не критичен, в то время как неполадки в работе высокотехнологичного реанимационного оборудования могут стать серьезной проблемой. Авария в приложении для автоматизации совместной деятельности рабочих групп телекоммуникационной компании, скорее всего, не приведет к кризису, но сбой в системе биллинга наверняка вызовет серьезные финансовые потери. В связи с этим, важно проводить анализ бизнес-процессов, чтобы выявить точки критичности и ранжировать их по степени влияния на непрерывность деловой активности компании.
Анализ рисков позволяет выделить две группы: зависимые от ИТ (ИКТ) и независимые. После выделения и градации бизнес-процессов по важности, необходимо выделить группу ИТ-зависимых процессов и провести оценку их влияния на бизнес. Для этого следует проверить работу технических и организационных механизмов, направленных на предотвращение прерываний процессов, выделить и оценить уязвимые места и угрозы. В результате можно сформировать группы рисков, связанных с ИТ, и разделить их по степени важности.
Оценка воздействия на бизнес базируется на карте ключевых бизнес-процессов с указанием нарушений, которые могут привести к убыткам. Затем строится модель, отображающая связь между нарушениями и категориями возможных потерь, которые могут быть количественно и качественно оценены. К группам потерь могут относиться общественное мнение, рыночная стоимость, уровень операционных расходов, возврат на инвестиции, штрафные санкции из-за нарушения контрактных обязательств и т.д.
Важной задачей аналитиков является получение достоверной информации о бизнесе организации, особенно в финансовой сфере, чтобы определить текущее состояние ИТ-комплекса и его планы на будущее.
Анализ информационных сервисов, связанных с бизнес-процессами и информационными потоками, также немаловажен. Оценка допотопного риска поможет составить полную картину бизнеса, показывая уровень критичности всех бизнес-процессов в целом, а также выявляя нарушения их функционирования и соотношение величины потерь.
Для решения всех описанных задач производится аудит, который проводятся аналитиками перед началом сотрудничества. В процессе такой всесторонней оценки выявляются слабые места в системе информационной безопасности клиента, а также становятся понятны способы укрепления уязвимых точек.
Расчет экономического эффекта, то есть стоимости простоя бизнес-процессов, предполагает наличие справедливых допущений о вероятности наступления различных инцидентов в рассматриваемый период. Это позволяет выбрать наиболее приемлемую стратегию для организации.
Для успешного функционирования в условиях чрезвычайных ситуаций важно определиться с несколькими параметрами, которые позволят быстро и эффективно восстановить работу компании. Эту задачу должны решить собственники и руководство компании совместно с аналитиками. Специалисты рекомендуют установить так называемые тайм-ауты и производительную мощность для отдельных бизнес-процессов.
Один из параметров, который необходимо установить - это допустимое время восстановления (Recovery Time Objective, RTO). RTO представляет собой интервал времени, в течение которого должна быть восстановлена работоспособность системы после возникновения чрезвычайной ситуации. Важно учитывать, что RTO может быть сведен практически к секундам, однако иногда его установка не является экономически оправданной из-за дороговизны системы восстановления.
Еще одним параметром, который нужно установить, является целевая точка восстановления (Recovery Point Objective, RPO). RPO определяет временной диапазон перед наступлением ЧС, за который все данные могут быть утрачены. На сегодняшний день RPO может быть сведен к нулю благодаря частоте и технологии резервного копирования информации.
Наконец, третий параметр - это уровень непрерывности бизнеса (Level of Business Continuity, LBC) или допустимый уровень производительности (доли нагрузки) в чрезвычайных ситуациях в процентах от режима штатной работы. Он позволяет оценить потери в случае возникновения аварийных ситуаций и понимать, какие меры необходимо предпринимать для быстрого восстановления бизнес-процессов.
Таким образом, совместное определение этих параметров поможет компании успешно справиться с любыми возникшими трудностями и обеспечить бесперебойную работу в условиях чрезвычайных ситуаций.
Планирование является процессом, который не является единоразовым и должен постоянно поддерживаться в актуальном и соответствующем состоянии. Для этого планы регулярно тестируются и обновляются новыми данными.
Ключевым аспектом по определению стратегии непрерывности бизнеса являются безопасность сотрудников, обеспечение рабочих помещений, технических средств и необходимых материалов, доступ к критически важной информации, беспрепятственные коммуникации с партнерами, клиентами, поставщиками и подрядчиками. Каждое направление требует отдельной подстратегии с определенными параметрами анализа рисков. Обеспечение непрерывности включает три стадии: реагирование, продолжение критичных процессов при условиях ЧС и восстановление штатной работы.
Выбор организационных и технических решений определяется стратегией BCM. Определяются приоритетные цели и задачи для поддержания непрерывности бизнеса, процедуры реагирования, области распространения системы BCM, кадровые потребности и степень вовлеченности персонала в реализацию программы внедрения.
Технические и организационные системы BCM включают использование «облачных» услуг. DRaaS (Disaster-Recovery-as-a-Service) используется для защиты информации, предоставляя услугу аварийного восстановления данных в облачных корпоративных средах. Это позволяет снизить расходы при сохранении уровня безопасности на уровне стандартов индустрии. Существуют различные варианты, но все они основаны на резервном копировании ИТ-инфраструктуры или критических ее элементов.
Резервные копии ИТ-инфраструктуры создаются по расписанию, заданному в соответствии с нужными RTO и RPO, и помещаются в хранилище. Такая схема подходит для малых организаций, где непрерывность не является критичной, но важны экономия и сохранность данных.
Инфраструктура копируется полностью, изменения в непрерывном режиме переносятся в облако, извлечение и восстановление информации происходит за минуты.
Резервная облачная инфраструктура полностью идентична основной и обновления в них происходят синхронно. Восстановление возможно за несколько секунд, что делает это решение актуальным для крупных финансовых и ИТ-компаний, госсектора, а также любых организаций, где нельзя терять ни минуты на простой.
Строительство отказоустойчивых ЦОДов становится все более актуальным для бизнеса, и это может быть необходимо как для создания новых, так и для оптимизации уже существующих центров обработки данных. Этого можно достичь путем проведения комплекса мероприятий, включающих в себя строительство специализированных зданий, а также инженерных, телекоммуникационных и ИТ-инфраструктур, их автоматизацию и сервисное обслуживание.
Существует также возможность создания мобильного ЦОДа. Однако, для более простого решения данной задачи, компании могут доверить организацию ИТ-инфраструктуры опытному провайдеру.
Развитие бизнеса обычно сопровождается увеличением вычислительных мощностей и усложнением ИТ-систем, что может привести к риску нарушения непрерывности деловой активности. Именно поэтому компаниям необходим план восстановления системы после инцидента (DRP), который является частью большего плана обеспечения непрерывности бизнеса (BCP). Данный план призван обеспечить максимально быстрое восстановление работоспособности ИТ-систем, поддерживающих как критичные бизнес-процессы, так и обычные операции. BCP, в свою очередь, должен предусматривать восстановление бизнес-процессов в целом.
Для обеспечения нормального функционирования системы необходима формирование программы сопровождения и эксплуатации систем BCM, включающую меры по периодической проверке системы, а также реагированию обслуживающего персонала на возникновение инцидентов.
Наконец, встраивание процессов в корпоративную культуру играет важную роль на пути к успешному планированию восстановления после происшествий. Для этого необходимо разработать меры и осведомить персонал о мерах, принимаемых в случае возникновения угроз, а также о мерах по устранению последствий внештатной ситуации. Компетентный персонал является ключевым фактором успеха на этом этапе.
Система ВСМ (вычислительная система мониторинга) станет настоящей отправной точкой для уверенной работы предприятия в экстренных ситуациях и поможет избежать убытков. Об этом свидетельствует ряд факторов, включающих:
- Готовность организации продолжать работу в случае возникновения аварий в ИТ-системах. Благодаря ВСМ, компания будет способна быстро реагировать на непредвиденные ситуации и минимизировать их воздействие на процессы бизнеса.
- Расчет вероятности простоя информационных систем в случае внештатной ситуации и возможных убытков. Система ВСМ помогает наиболее точно оценить риски и внести в необходимые изменения, предотвращающие потери при аварийных ситуациях.
- Прохождение аудита и соответствие требованиям регулирующих органов. Введение ВСМ поможет компании выполнять стандарты и требования по безопасности данных и информационных систем.
Хотя само внедрение вычислительной системы мониторинга может оказаться непростой задачей для компании, эффективность использования ВСМ не вызывает сомнений. Финансовые, кадровые и временные ресурсы для этого необходимы, однако, применение ВСМ может помочь компании значительно экономить ресурсы в будущем.
Фото: freepik.com