ЗНАЕТЕ ИНТУИТ, Лекция, Надеждност и толерантност към MVS

Един от основните проблеми на изграждането на изчислителни системи е задачата да осигури тяхната дългосрочна работа.

Най-важната характеристика на изчислителните системи е надеждността, т.е. работа на системата без повреди при определени условия за определено време. Подобряването на надеждността се основава на принципа за предотвратяване на неизправности чрез намаляване на честотата на неизправности и откази чрез използване на електронни схеми и компоненти с висока и ултра висока степен на интеграция, намаляване на нивото на смущения, леки режими на работа на вериги, осигуряване на топлинни режими на тяхната работа, както и чрез подобряване на методите за сглобяване на оборудването.

Надеждността включва не само хардуер, но и софтуер, който се използва, inter alia, за анализ на производителността на системата и управление на конфигурацията. Основната цел за подобряване на надеждността на системите е целостта на данните, съхранявани в тях. Единицата за измерване на надеждността е средното време между отказите (MTBF - Средно време между отказите), в противен случай - средното време между отказите.

Толерантността към грешки е способността на изчислителната система да продължи действията, определени от програмата след възникване на неизправност. Въвеждането на толерантност към грешки изисква излишен хардуер и софтуер. Областите, свързани с предотвратяването на неизправности и устойчивостта, са от основно значение за гарантиране на надеждността. Концепциите за паралелизъм и толерантност към неизправности на изчислителните системи са естествено свързани помежду си, тъй като и в двата случая са необходими допълнителни функционални компоненти. Следователно при паралелни изчислителни системи се постигат както най-високата производителност, така и в много случаи много висока надеждност. Наличните ресурси за резервиране в паралелни системи могат да се използват гъвкаво както за подобряване на производителността, така и за подобряване на надеждността. Структурата на многопроцесорните и многомашинните системи е адаптирана за автоматично преконфигуриране и осигурява възможност за продължаване на работата на системата след възникване на неизправност.

Понастоящем тези две понятия - надеждност и толерантност към грешки - често се бъркат при описанието на компютърните системи. Това до голяма степен се обяснява с факта, че потребителят (не непременно физическо лице) се интересува от основното: компютърната система трябва да работи необходимото време и да предоставя определен набор от услуги. За постигане на безпроблемна работа се използват различни техники, някои от които разглеждаме тук, без да се фокусираме върху коя от горните концепции се отнасят тези техники.

За да се подобри надеждността на информационно-изчислителната система, клъстерните системи са идеална схема. Благодарение на един изглед, отделни дефектни възли или клъстерни компоненти могат да бъдат заменени без прекъсване и незабелязани от потребителя, което осигурява непрекъснатост и безпроблемна работа на изчислителната система, дори в такива сложни приложения като бази данни .

Основата на надеждността на клъстера е определен излишен брой отказоустойчиви сървъри (възли), в зависимост от конфигурацията на клъстера и неговите задачи.

Клъстерната конфигурация на възли, комуникационно оборудване и памет може да осигури отразяване на данни, излишък на компоненти за самоконтрол и предупреждение и споделяне на ресурси за минимизиране на загубите в случай на повреда на отделни компоненти.

Решение, което осигурява повишена толерантност към грешки на сървъра, трябва да включва:

компоненти с възможност за бърза смяна;
устройства, вентилатори, външни устройства, PCI устройства, захранвания;
излишни захранвания и вентилатори;
автоматично рестартиране и възстановяване на системата;
памет за корекция на грешки;
функции за проверка на състоянието на системата;
превантивно откриване и анализ на неизправности;
инструменти за отдалечено администриране на системата.

В много случаи клъстерът, като типичен представител на AIM, се представя на потребителя и администратора като единна система. Системният мониторинг включва събиране, съхраняване и извличане на показатели като използване на процесора и паметта, температури на системата и процесора, скорости на вентилатора; тези и други параметри помагат на потребителите и администраторите да разберат цялостното състояние на системата и ефективността на нейното използване.