Страница 1 из 1

HP DL360 Gen9 & microcode_ctl-1.17-102.78.1 = problem

СообщениеДобавлено: 06 июн 2015, 19:55
Константин Ошмян
Осторожно!

Текущий на данный момент набор обновлений для SLES 11 включает патч microcode_ctl-1.17-102.78.1. Однако, его установка на машине HP ProLiant DL360 Gen9 с процессором Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40GHz (6-core) привела к проблемам: сервер после этого не может нормально загрузиться. При старте демона HAL сервер уходит на перезагрузку, записывая в аппаратный Integrated Management Log сообщение наподобие следующего:
Код: Выделить всё
Uncorrectable Machine Check Exception (Board 0, Processor 1, APIC ID 0x00000000, Bank 0x00000013, Status 0xBE200000'000B110A, Address 0x00000008'3FC4EAC0, Misc 0x84FE2090'9F000086)

Поскольку по сообщению похоже, что сбой - аппаратный, то потратили кучу времени на поиск неисправности. На самом деле проблема решается откатом указанного пакета на предыдущую версию (...76.1).

Однако, чтобы откатиться, нужно, во-первых, успешно загрузиться, во-вторых - иметь сеть (доступ к репозиторию с патчами, в моём случае - сервер SMT). Я делал так:

1) загружаемся в single-user mode (runlevel = 1, или S). Это можно сделать, добавляя в меню GRUB или ELILO цифру "1" к выбранным параметрам загрузки. Например, у меня для UEFI стоит загрузка через ELILO; делаем так: в момент приглашения ELILO (когда он начинает рисовать точки на экране) жмём TAB, в ответ появляется список элементов меню; после этого вводим руками название первого пункта меню и через пробел - единицу; жмём Enter. Система загружается в однопользовательском режиме, в ответ на пригашение вводим пароль root-а.

2) если попробовать сразу же откатить патч, то это не получится сделать, поскольку нет сети (и доступа к репозиторию с патчами). А если попробовать поднять сеть (rcnetwork start) - то снова по такому же сбою отправляемся на перезагрузку. Поэтому временно отключаем демон microcode.ctl (chkconfig microcode.ctl off), после чего можно перезагрузиться уже в режиме с сетью (runlevel 2 или 3), см. предыдущий пункт - только вместо единицы указываем двойку или тройку.

3) успешно загрузившись с сетью, убираем указанный патч: yast online_update, в меню "Filter" выбираем "All Patches", в меню "View" выбираем "Versions", после чего выбираем патч slessp3-microcode_ctl и в нижней части экрана пробелом отмечаем предыдущую версию (1.17-102.76.1), жмём "Accept".

4) теперь можно включить демон microcode.ctl обратно (chkconfig microcode.ctl on) и перезагрузиться уже стандартным образом.

Re: HP DL360 Gen9 & microcode_ctl-1.17-102.78.1 = problem

СообщениеДобавлено: 08 июн 2015, 10:40
Ковалев Артем
Спасибо, учтем!

Что-то последние патчи новела радуют всё больше.

Re: HP DL360 Gen9 & microcode_ctl-1.17-102.78.1 = problem

СообщениеДобавлено: 08 июн 2015, 11:06
Константин Ошмян
Справедливости ради - этот патч уже не Novell-а, а SUSE; да и у них он, скорее всего, от какого-нибудь Intel-а.

Re: HP DL360 Gen9 & microcode_ctl-1.17-102.78.1 = problem

СообщениеДобавлено: 12 июн 2015, 10:11
Константин Ошмян
Текущие новости от техсаппорта Novell по этому поводу:
Hello Constantin,

good news, we found and fixed the issue. A maintenance update is already in QA and we hope to release it tomorrow. Until then, please stick with microcode_ctl-1.17-102.76.1, it's save.

I'll update the case when the update is available and keep the Service Request open until then.

Re: HP DL360 Gen9 & microcode_ctl-1.17-102.78.1 = problem

СообщениеДобавлено: 12 июн 2015, 16:48
Константин Ошмян
Ещё одно письмо:
Hi Constantin,

here's the final update on this case.
Today we released microcode_ctl-1.17-102.80.1. It's already confirmed that it fixes the issue, so there's no confirmation from your side needed.

Re: HP DL360 Gen9 & microcode_ctl-1.17-102.78.1 = problem

СообщениеДобавлено: 15 июн 2015, 10:22
Константин Ошмян
Как и обещали, патч вышел. Сформулировано дипломатично:
Description

This update provides Intel's CPU microcode version 20150121.

The previous update included an older release of the microcode (20150107) which could lead to system resets in some circumstances.

Update: Сегодня наткнулся на ещё один документ по той же теме:
SLES11 SP3: HP (any model) Gen9 systems crashing after installing latest updates