Управление инцидентами для высокоскоростных команд
Расчет стоимости простоя
Понимание финансовых последствий крупных инцидентов
В марте 2015 года магазин Apple прекратил работу на 12 часов. Это обошлось компании в 25 млн долларов США.
В августе 2016 года в одном операционном центре отключили электроэнергию на пять часов. Это привело к отмене 2000 рейсов и, по оценкам, к потере 150 млн долларов США авиакомпанией Delta Airlines.
В марте 2019 года сайт Facebook прекратил работу на 14 часов. Тогда, согласно оценкам, компания потеряла 90 млн долларов США.
И это большие компании. Лидеры отрасли. У них есть огромные резервы и миллионы на банковских счетах. Они могут пережить однодневный финансовый кризис. Хотя компании поменьше, возможно, потерпят меньшие убытки во время серьезного инцидента, эти суммы могут даже сильнее сказаться на их финансовых результатах.
По результатам одного исследования 101 стартапа, в реальности 29 % молодых компаний терпит неудачу по причине банкротства. Раз стартапы изначально находятся в рискованном положении, большинство из них вряд ли переживут серьезный инцидент.
Мораль этой истории в том, что временное прекращение работы имеет большое значение. Всем, кто с этим не согласен, нужно проявить чуть больше внимательности. Инциденты не только могут подорвать доверие и лояльность клиентов. Они также способны привести к финансовому краху.
Средняя стоимость простоя
Согласно исследованию от компании Gartner за 2014 год, средняя стоимость простоя составляет 5600 долларов США в минуту. Однако в фирме пояснили, что это всего лишь средний показатель. Согласно отчету Avaya за тот же год, средние показатели варьировались от 2300 до 9000 долларов США в минуту в зависимости от таких факторов, как размер компании и отраслевая вертикаль. И с 2014 года этот показатель растет. В более позднем отчете (от центра Ponemon Institute за 2016 год) со средним значением Gartner (5600 долларов США в минуту) не соглашаются и называют большую сумму — почти 9000 долларов США в минуту.
Для малых предприятий этот показатель ниже, но от этого не менее существенный — от 137 до 427 долларов США в минуту. Какой будет эта сумма для вашей компании? Это зависит от ряда факторов, включая отраслевую вертикаль, размер организации и бизнес-модель.
Отраслевая вертикаль
Среди отраслей с самым высоким риском называют банковское дело и финансовую деятельность, государственное управление, здравоохранение, производство, средства массовой информации и коммуникации, розничную торговлю, а также транспорт и коммунальные услуги. Согласно исследованию за 2016 год, средняя стоимость простоя в этих отраслях превышала 5 млн долларов США в час.
Размер организации
Размер организации также играет важную роль. Как показали результаты исследования IDC, для компаний из списка Fortune 1000 простой может обходиться в 1 млн долларов США в час. И пока типичная компания среднего размера тратит 1 млн долларов США в год на инциденты, потери крупных предприятий могут достигать 60 млн долларов США и даже больше. Об этом говорится в исследовательском отчете от IHS.
Бизнес-модель
Наконец, потери от простоя также в значительной степени зависят от бизнес-модели. Очевидно, что интернет-магазин без физических точек продаж понесет больше потерь из-за сбоя в работе сети, чем компания, которая ведет торговлю через традиционные магазины. Чем больше бизнес-модель зависит от времени безотказной работы, тем больше вы потеряете в случае простоя. И в этом есть логика.
Согласно предварительным подсчетам, гиганту электронной коммерции Amazon, бизнес-модель которого всецело зависит от времени безотказной работы, час простоя обойдется примерно в 13,22 млн долларов США. Facebook, чей доход зависит от рекламы, также рискует миллионными суммами.
Быстрый подсчет стоимости простоя
Быстро оценить потенциальные потери от простоя в работе компании можно с помощью следующей формулы. Она учитывает размер предприятия и продолжительность последнего инцидента в минутах.
Стоимость простоя = продолжительность простоя (в минутах) x затраты в минуту.
Малый бизнес за каждую минуту простоя теряет 427 долларов США. Для средних и крупных предприятий затраты в минуту составляют 9000 долларов США.
Понимание всей стоимости простоя
Когда обычный человек слышит словосочетание «потери от простоя», он, вероятно, думает об упущенной выгоде или о сумме упущенной выгоды и потерянной производительности сотрудников. На самом деле простой влечет за собой гораздо более масштабные последствия.
По данным независимого исследовательского центра Ponemon, занимающегося вопросами защиты данных и безопасности, львиная доля потерь от простоя связана с дестабилизацией бизнеса. К этой категории потерь относятся ущерб репутации и отток клиентов. Упущенной выгоде исследовательский центр отводит второе место. Третьи по величине финансовые последствия инцидентов связаны с производительностью конечного пользователя.
Еще одной распространенной категорией является потеря собственной производительности. Это касается производительности ИТ-команд, которым поручено разрешить инцидент, смежных команд, участвующих в управлении инцидентами (PR-отдел, менеджеры по социальным сетям, представители службы поддержки клиентов и т. д.), а также других сотрудников, затронутых сбоем.
Поставщики ПО могут испытать на себе такие негативные финансовые последствия, как штрафы за несоблюдение условий SLA, штрафы (в пользу государства) за несоблюдение нормативных требований, а также судебные разбирательства и выплата компенсаций. А для компаний, работающих с материальной продукцией, значительным риском является исчерпание товарно-материальных запасов.
Кроме того, нужно учитывать расходы на подрядчиков, замену оборудования и проблемы, связанные с удержанием сотрудников. Ведь инциденты вызывают стресс, который становится причиной неудовлетворенности. Затем недовольные сотрудники уходят. Эксперты оценивают стоимость замены сотрудника в 33 % от их годовой зарплаты.
Как минимизировать затраты на простои
Суммы, подобные приведенным выше, ясно показывают, что сокращение затрат на простои должно быть приоритетом для компаний любого размера и во всех отраслях. Итак, как мы можем снизить риски простоя и минимизировать затраты? Вот пять проверенных и истинных способов:
Создайте подробный план аварийного восстановления
Что вы будете делать, когда столкнетесь с простоем? Если вы еще не знаете ответ на этот вопрос, значит, ваш ответ — «Терять драгоценное время, пытаясь понять, что делать».
Чем лучше будет составлен план реагирования на инциденты, тем быстрее и эффективнее ваши команды будут справляться с ними. Вот почему первым делом в любой новой программе управления инцидентами нужно подготовить процесс и план.
Общайтесь четко и часто
Дестабилизация бизнеса составляет колоссальные 35 % потерь от простоя, поэтому крайне важно сосредоточиться на информировании об инцидентах и обслуживании клиентов во время и после инцидентов.
Устраняйте отдельные точки отказа
Устранение отдельных точек отказа из существующей инфраструктуры и процессов является одним из самых быстрых способов сокращения времени простоя и снижения связанных с ним затрат. Это означает выполнение таких задач, как балансировка нагрузки между серверами, соблюдение надлежащего резервного копирования, организация независимой проверки и технических мер защиты при развертывании.
Проводите профилактику систем
Защититься от инцидентов полностью невозможно. Но это не значит, что их количество нельзя сократить до минимума.
На самом деле высокая стоимость простоя неплохо мотивирует руководство на то, чтобы в первую очередь заменять устаревшие системы и функции безопасности, а также устранять проблемы до того, как они превратятся в полномасштабные инциденты.
Не пропускайте разборы инцидентов
Когда простой все же случается (и в нашем сложном техническом мире это рано или поздно происходит), предотвратить будущие сбои лучше всего помогает продуманный процесс разбора инцидентов.
Чтобы провести разбор инцидента, команды собираются вместе и обсуждают детали инцидента: почему он произошел, каковы его последствия и какие действия были предприняты для смягчения последствий и разрешения инцидента. Особенно важно обсудить меры, которые помогут предотвратить повторение инцидента.
В компании Atlassian проводят разборы инцидентов без поиска виновных. Их цель — понять первопричину инцидента. Мы также выступаем за то, чтобы вести продуманную документацию, в которой содержатся все выводы, сделанные во время разбора, и предлагаются меры по улучшению, нацеленные на предотвращение повторения инцидента, который мы только что исправили.
Инструмент Jira Service Management создан для того, чтобы команды быстро справлялись с инцидентами и минимизировали стоимость простоя.
Изучайте информирование об инцидентах с помощью Statuspage
В этом руководстве мы покажем, как использовать шаблоны инцидентов, чтобы наладить эффективную коммуникацию во время разрешения инцидента. Применимо ко многим видам технических сбоев.
Читать учебное руководствоВажность процесса разбора инцидентов
Разбор инцидента, или анализ результатов реагирования на инцидент, — это лучший способ проработать произошедшее и зафиксировать полученный опыт.
Читать статью