Отстраняване на неизправности в сървъра Servermeile Technet
Отстраняването на неизправности, т.е. решаването на проблеми в областта на сървъра, може да се окаже продължително и сложно без подходящото ноу-хау. Поради тази причина в тази статия ще се справим с най-често срещаните предизвикателства и ще обясним как можете бързо да възстановите и стартирате сървъра си в случай на предполагаем дефект. Ако нямате време или проблемът е твърде постоянен, ще се радваме да ви подкрепим като компетентен партньор на системната къща лично по телефона или на място.
неопределени/неизвестни проблеми
Ако сървърът не направи това, което трябва, първото нещо, което трябва да направите, е да разберете къде може да се намери предполагаемата грешка. Нашият опит в производството на сървъри показва, че рядко става въпрос за „истински“ дефекти на сървъра, т.е. дефектни хардуерни компоненти на сървъра. Много по-често виждаме грешки в конфигурацията или просто „други недокументирани условия“ при производството и поддръжката на сървъри в сайтовете на нашите клиенти, които обаче не са хардуерен дефект. Последното може да възникне поради остарял фърмуер например, но да има и други причини.
Подготвителни действия
Преди да започнете, трябва да имате ръководство за вашия сървър - ще ви трябва. Професионалните инструменти са полезни за много изпити и от съществено значение за някои. За да диагностицирате и отстраните предполагаемата грешка, не е абсолютно необходимо да отваряте корпуса на сървъра - но ако се наложи, е важно да носите заземителна гривна, за да не повредите чувствителните електронни компоненти. Трябва да знаете, че съвременните сървъри също са изключени да се захранва, за да работи поне BMC и да направи сървъра достъпен чрез IPMI. Следователно е необходимо въпросният сървър да се изключи напълно от захранването и от мрежата, преди да се отвори корпусът на сървъра.
Продължете по структуриран начин и отбележете напредъка си - ако направите проста грешка, отнема малко работа. Ако обаче случаят се окаже сложен, бележките ви ще бъдат много полезни. Заседнали ли сте в един момент и имате нужда от професионален съвет от сървъра? Щастливи сме да ви подкрепим и посъветваме.
Съветник за отстраняване на неизправности на Intel
За основна и бърза диагностика можете също да използвате съветника за отстраняване на неизправности на сървъра, предоставен от Intel. В допълнение към ръководството е от съществено значение да се консултирате с ръководството за вашата сървърна дънна платка, тъй като не всички подробности за отделни дънни платки на Intel са покрити от съветника.
Сървърът не може да бъде включен/не се виждат светещи светодиоди
Първо проверете основното захранване - изобщо има ли захранващ кабел или има ли достатъчно захранване (сървърът свързан ли е към евентуално дефектен UPS)? Ако това е резервно захранващо устройство, двата захранващи блока трябва да бъдат проверени. Трябва да се отбележи, че при излишни захранвания платката за разпределение на енергия също може да е дефектна.
В идеалния случай имате тестово устройство за сървърни захранвания, с което вече можете да проверите стойностите на напрежението. Едва след това проверявате дали захранващият блок е бил правилно свързан към дънната платка на сървъра. Забележка: От съществено значение е да извадите захранващия кабел, преди да извадите или поставите излишен захранващ блок !
Сървърът може да бъде включен, но не се зарежда или изображението на монитора остава черно/може да се види поне един светодиод
Веднага след като дънната платка на сървъра се захранва, контролерът за управление на основната лента (BMC) първо се зарежда, което обикновено може да бъде разпознато от сините светодиоди. Това и един зелен светодиод показват дали дънната платка на сървъра винаги се захранва с напрежение.
Ако до този момент всичко е наред, има много възможни причини за грешки - професионалните диагностични инструменти на сървъра ви подкрепят при идентифицирането на грешката. Всяка сървърна платка има поне четири оранжеви и четири зелени светодиода, които могат да се използват за определяне на състоянието на процеса на зареждане и цял набор от възможни грешки. Следващата снимка показва редица диагностични светодиоди на Intel S2600WTT, тъй като той е например вграден в R2308WTTYS (платформа Intel Grantley за процесори E5-2600v3).

Използвайте ръководството за дънната платка, за да ви помогне да разчетете кодовете за състояние или грешка. Въз основа на опита, препоръчваме да извършите диагнозата без поставени допълнителни карти. Известни сме за съзвездия, при които зареждането може да бъде блокирано от PCI-E карта (напр. RAID контролер). Ако вашият сървър вече не се стартира правилно след актуализация на фърмуера, първо премахнете всички допълнителни карти и след това опитайте отново.
Пример: първи процес на зареждане след успешна актуализация на фърмуера
Актуализирането на фърмуера на сървър е сложно. В допълнение към действителния BIOS често се актуализират редица други компоненти: BMC, FBU и SDR, както и ME. Процесът е напълно завършен само по време на зареждането след успешна актуализация. При определени обстоятелства може да се случи PCI-E карта да блокира този процес. В този случай премахнете всички PCI-E карти, извършете актуализацията отново и инсталирайте отново съответните карти само когато сървърът вече е успешно стартиран веднъж след актуализацията и процесът на актуализация приключи.
В допълнение към разглеждането на диагностичните светодиоди, си струва и достъп до BMC. Ако това преди е било конфигурирано за дистанционно управление, можете да използвате IPMI за визуална проверка на редица съобщения за състояние или да преминете през системния запис в дневника по запис. Според нашия опит всички често срещани източници на грешки могат да бъдат диагностицирани по този начин.

Често срещани грешки
Масово съхранение
Истински хардуерни недостатъци в основните компоненти се появяват много рядко при нашите високо надеждни сървърни компоненти. Освен това разчитаме на Intel (сървърна платка, процесор, сървърна мрежова карта, RAID контролер), за да осигурим оптимална съвместимост.
Обикновено това са твърдите дискове, които - в зависимост от натоварването - се провалят все по-често от третата година нататък. Затова масовото съхранение трябва - независимо дали чрез RAID или на ниво файлова система - поне да бъде проектирано с резервиране. Неизправността на твърдия диск може лесно да бъде разпозната посредством Intel RAID Web Console 2, но също така и чрез светодиод на корпуса на сървъра.
оперативна памет
От третата година на работа - отново в зависимост от натоварването - лентата на RAM може да се провали. Ето защо обикновено препоръчваме да използвате REG ECC RAM за обичайния срок от 3 до 5 години от конфигурация от 64 GB нагоре и да не прекалявате с паметта. Сървърът може да се справи с повреда на REG ECC RAM лента по време на работа; сървърът трябва само да бъде изключен за по-късна подмяна. Неизправността се визуализира поне чрез LOG, в зависимост от дънната платка на сървъра, също и чрез светодиоди.
Други грешки
Пример: дискове
Има и редица рядко възникващи грешки, които не е толкова лесно да се диагностицират - например DVD устройство, което „бомбардира“ интерфейса SATA със сигнали поради дефектна електроника, дори без поставен DVD или CD.
Чести "грешки" в конфигурацията
Пример: RAID BIOS не се показва
Отидете до BIOS на дънната платка на сървъра и деактивирайте "Тихо зареждане" в главното меню. Също така задайте режима на зареждане на „Legacy“ в менюто „(Advanced) Boot Options“. След запазване на настройките и рестартиране, RAID BIOS сега се показва отново по време на зареждане. След това не забравяйте да върнете режима на зареждане обратно на UEFI в зависимост от конфигурацията на вашия RAID и избора на вашата операционна система.
Пример: Windows Server не може да бъде инсталиран
Отидете в BIOS и проверете дали вашият твърд диск или RAID том е правилно въведен в диспечера на зареждане. Инсталирайте най-новите драйвери за вашия RAID контролер, ако не се показва обем на RAID.
Допълнителна информация/източници