Отказоустойчивость (Fault Tolerance)

Отказоустойчивость — это способность системы продолжать работать в случае аварии или сбоя в работе ее отдельных компонентов. Зачастую, отказоустойчивость можно перепутать с избыточность или резервированием (отдельных модулей или частей), но на самом деле это не совсем так. Избыточность (Redundancy) в большей степени обеспечивает физическое дублирование, резервирование элементов системы, например, дополнительный жесткий диск или блок питания, но не учитывает функционирование самого сервиса с учетом возможного отказа. А понятие отказоустойчивость напротив как раз объединят в себе уже законченное «решение», реализуя логическую, программную часть управления процессом защиты от сбоя, например, если избыточность добавляет физические элементы, такие как диски, то примером, отказоустойчивости системы хранения может быть программный массив с RAID и файловой системой, который обеспечить функционирование хранилища в случае выхода из строя одно или даже нескольких дисков.

Но поскольку мы рассматриваем отказоустойчивость в разрезе публичных облаков, то хотелось бы рассказать о нескольких наиболее значимых элементах входящих в концепцию высокой доступности и отказоустойчивости. К ним можно отнести:

  • минимальное хранение трех копий данных в одном регионе
  • наличие нескольких зон доступности (2-3 и более), каждая зона фактически отдельный дата-центр, физический контур с отдельными серверами, хранением, сетевым доступом и т.д.
  • гео-избыточность -множество регионов присутствия, высокоскоростные каналы связи между дата-центрами по всему миру

Описание примера архитектуры высокой доступности и отказоустойчивости на пример Amazon Web Services скачать

Поделиться публикацией:

Похожие публикации:

Добавить комментарий

Для добавления комментариев авторизуйтесь в одном из сервисов ниже: