четверг, 9 марта 2017 г.

ПАПА, НЕ КРИЧИ, ИНАЧЕ Я ОТКЛЮЧУ ТЕБЕ СЕРДЦЕ!

Всем известная и разобранная в деталях история выхода из строя сервиса Амазон привлекает внимание не только тем, что лишний раз подтверждает «слабость» человеческого фактора в любой автоматизированной системе, а ещё и тем, что в ней упоминается об отключении тех периферийных устройств (Интернета Вещей), которые работали с использованием этого облачно сервиса. Футуристический прогноз о переходе всех бытовых устройств на автономное управление через облака может и не сбыться, но ряд проектов в медицине, например, уже всерьёз рассматривает работу с вживлёнными кардиостимуляторами и другими устройствами мониторинга здоровья человека через беспроводные технологии. Нередко упоминаемые сведения о разработках компьютерных устройств для «улучшения» работы зоны Вернике и зоны Брока, а также тех участков мозга, которые отвечают за перевод информации в долговременную память, тоже будут контролироваться не по проводам, однако помимо радужных перспектив возникает серьёзное опасение о последствиях сбоя в таких системах в результате ошибок, аналогичных амазоновской. Не говоря уже о целенаправленном проникновении и выводе их из строя.
Кратко об инциденте в Амазон S3 по материаламhttp://www.theregister.co.uk/…/aws_s3_crash_result_of_fatf…/
Крупномасштабное отключение электричества в Amazon Web Services перевело в режим оффлайн не только все связанные с этим сервисом сайты, обесточив их внутренние хранилища, но также отключило те приложения и устройства Интернета Вещей, работа которых основывалась на этой технологии. На самом деле, этот пятичасовой сбой оказался настолько серьёзным, что, в Amazon не могли даже обновить свою собственную панель состояния AWS: красные значки предупреждения сбились в кучу на повреждённой стороне облака.
Перестало работать всё программное обеспечение, – от веб-приложений до приложений смартфонов, – которое зависело от этого облачного хранилища, и, как оказалось, это была значительная часть Интернета.
AWS размещена во многих регионах, и разработчики должны были бы распределить свои приложения в разных ЦОД-ах, чтобы при выходе из строя одного региона это не затронуло всю платформу в целом. Программисты обычно считают, что распределённая обработка данных дорогостоящий процесс, поэтому не всегда уделяют этому внимание.
Однако от отключения электроэнергии пострадали не только веб-сайты и услуги хостинга. Nest предупредила клиентов, что камеры наблюдения и приложения смартфонов, подключенные к сети Интернет, будут работать с ошибками, и они действительно не работали несколько часов. Во время простоя также перестали работать устройства Интернета Вещей, зависящие от сегмента S3. Поведение некоторых из них напоминало сюрреалистические сценарии. В результате «падения» серверной части прекратили функционировать объединённые посредством облака лампы, термостаты и другие аналогичные приборы. 
По иронии судьбы, сайты мониторинга и отключения электричества DownDetector и isitdownrightnow.com тоже оказались в режиме офлайн по той же причине. 
Контроль над приборной панелью удалось восстановить в полдень, спустя пять часов после появления первых данных о нарушении работы системы. Чуть позже технический гигант сообщил, что система хранения была отключена от сети одним из штатных сотрудников в процессе решенияпроблем со своей биллинговой системой. По сути, этот человек неправильно ввёл команду при отладке производительности в рабочей среде.
«Команда Amazon Simple Storage Service (S3) занималась отладкой снижения скорости работы системы биллинга S3. В 9:37 утра (PST) авторизованный член команды S3, используя список стандартных процедур, ввёл команду, которая была предназначена для удаления ряда серверов одной из подсистем S3, использующей биллинг S3», - говорилось в сообщении.
«К сожалению, один из входных параметров команды был введен неверно, в результате чего было удалено больше серверов, чем предполагалось. Среди них были серверы, которые поддерживали две другие подсистемы S3».
Эти две подсистемы индексировали объекты, хранящиеся в системе S3, и обеспечивали распределение новых экземпляров хранилища. Без работы этих двух систем невозможно было обрабатывать запросы клиентов самой S3 и обеспечивать поддержку EC2 и Lambda.
Amazon сообщила, что разработает и введёт специальные меры предосторожности, направленные на предотвращение подобных отключений, включая ограничение возможностей средств отладки по одновременному отключению нескольких подсистем и разделение всей структуры сервиса на более мелкие «ячейки», которые можно будет по очереди переводить в автономный режим и обновлять, не влияя на другие части S3.
Ошибка при вводе команды и выведение системы из строя на несколько. Где мы слышали это раньше? Похоже, точно такое же событие с «участием человеческого фактора» уже происходило с GitLab.com, когда уставший администратор случайно удалил базу данных – 300 Гб данных - во время процесса репликации. К моменту отмены команды rm -rf там осталось всего 4,5 ГБ. https://www.theregister.co.uk/2017/02/01/gitlab_data_loss/

Комментариев нет:

Отправить комментарий