Страница 1 из 1

COMPAQ собрирается в _дальний полет_! Что делать??

СообщениеДобавлено: 21 янв 2005, 17:02
Музалёв Николай
Уважаемые коллеги - компаковцы!
Сервер ML370 с двумя блоками питания.

Пришла беда, откуда не ждали:
Намедни на консоли появились, пропали, а потом стали постоянны вот такие сообщения:

Код: Выделить всё
1-12-2005   1:39:14 am:    SERVER-5.0-0
     System Power Supply: General Failure (Power Supply 2)

1-12-2005   1:39:14 am:    SERVER-5.0-0
     System Power Supplies Not Redundant

1-12-2005   1:39:17 am:    SERVER-5.0-0
     System Power Supply: General Repaired(Power Supply 2)

1-12-2005   1:39:17 am:    SERVER-5.0-0
     System Power Supplies Are Redundant
..............................................................
1-12-2005   4:10:55 pm:    SERVER-5.0-0
     System Power Supply: General Failure (Power Supply 2)

1-12-2005   4:10:55 pm:    SERVER-5.0-0
     System Power Supplies Not Redundant

1-12-2005   4:10:57 pm:    SERVER-5.0-0
     System Power Supply: General Repaired(Power Supply 2)

1-12-2005   4:10:57 pm:    SERVER-5.0-0
     System Power Supplies Are Redundant

Как я понимаю, аппаратура диагностирует, что один из БП вроде как "то потухнет, то погаснет"... Запитано все через большой UPS от APC. Рядом стоит ML350 - работает нормально. Так что можно предположить, что дело в сервере. Визуально - блоки работают, лампы зеленые, признаков непорядка нет. (Правда, большинство модулей поддержки компак-платформы не загружены, возможно это я зря и они бы дали информацию...). Возможно, что это и не собственно БП, а внутренняя аппаратура их сопряжения?

Вопрос первый: откуда они считают второй блок? сверху или снизу?
Вопрос второй: делать что? как локализоваться?
Спасибо.

Re: COMPAQ собрирается в _дальний полет_! Что делать??

СообщениеДобавлено: 21 янв 2005, 18:55
Аркадий Глазырин
Музалёв Николай писал(а):Вопрос первый: откуда они считают второй блок? сверху или снизу?
Вопрос второй: делать что? как локализоваться?
Спасибо.


Оба вопроса в сервис-центр HP.
Звоним и решаем. Для того, что бы тобой занялись достаточно знать серийный номер сервера.

СообщениеДобавлено: 21 янв 2005, 20:48
Alex-M
Музалёв Николай
Имеется ввиду наверно ML370G2? Если да, БП2 - тот, который ближе к слотам (в рэковом положении - левый), БП1 - тот, который ближе к разъёму клавы/мыши (правый). Вообще-то на заднице сервера написано, поискать только надо.
Рекомендации - желательно таки доустановить нужные агенты, они покажут System Event Log. Потом можно на время выдернуть БП2 и посмотреть, пропадут ли мессаги. Если да - проблема с этим БП или его местом/пауэр-бэкплейном. Затем меняем БП местами и снова смотрим. Если ошибка осталась с БП2 - дурит место/бэкплейн (корпус в ремонт). Если поблема полезла уже с БП1 - дурит сам БП (его в ремонт).
Предварительно можно всё вынуть, продуть, прочистить - для чистоты экперимента... :-)

СообщениеДобавлено: 24 янв 2005, 11:53
Музалёв Николай
Модули запустил. Посмотрим...
...продуть, прочистить - для чистоты..

Хм.. на 20й день работы? ну попробую...
Спасибо, коллеги!

СообщениеДобавлено: 24 янв 2005, 20:59
Lab
А если запустить штатную HP ую диагностику, может все дело в агентах ?

СообщениеДобавлено: 25 янв 2005, 16:54
Аркадий Глазырин
Вопрос автору темы: а смартстар то поставлен?

Это комплект патчей и драйверов от HP.

СообщениеДобавлено: 25 янв 2005, 17:03
Музалёв Николай
Да, конечно поставлен. Драйвера запущенных устройств все, а модули поддержки платформы - частично
В автобате так:
..........
#
# for COMPAQ
#
LOAD CPQHLTH
REM LOAD CPQONLIN
REM LOAD CPQPOWER
REM LOAD CPQIML
REM CPQSNMP
#
.........

После начала темы открыт и модуль CPQPOWER. Правда он ну ооочень информативен....
Жду паузы для смены мест БП в корпусе.

СообщениеДобавлено: 25 янв 2005, 19:16
Alex-M
Вообще-то надо бы включить и CPQIML (это он работает с Integrated Management Log) и CPQSNMP (сбор всей SNMP-информации обо всех подсистемах сервера - см. CPQSNMP.NCF)

СообщениеДобавлено: 25 янв 2005, 23:13
PavelKHTW
Музалёв Николай писал(а):Жду паузы для смены мест БП в корпусе.

- Не знаю как вы, но свои ML370 я целую неделю гонял тестами с SmartStart - а вы говорите 20 дней и такая вот бяка :) - вместо смены блоков питания - погоняйте лучше тесты.

СообщениеДобавлено: 26 янв 2005, 14:52
Музалёв Николай
Хм... тесты... А что, есть тесты на исправность БП?
И потом - может ему просто хочется передернуться, и все.

СообщениеДобавлено: 26 янв 2005, 21:10
PavelKHTW
Музалёв Николай писал(а):Хм... тесты... А что, есть тесты на исправность БП?
И потом - может ему просто хочется передернуться, и все.

- Тестов как таковых может и нет, но нагрузку они(тесты) создают сходную с рабочей ситуацией - сервак мониторит все и вся - поэтому если что всплывет - сразу найдете.

PS А передергивать можно только затвор :) - вот у меня вчера, тоже на ML370 , виндовс 2003 за пол часа два раза в синий экран по поводу железа выпал - и дальше падла работает - и гадай теперь - кто что и почему :).

СообщениеДобавлено: 18 фев 2005, 18:30
Музалёв Николай
Уважаемые коллеги!
Как и предполагалось, сервер своими сообщениями давал понять, что блок питания ( китайский, однако...) готовится... И вот намедни он отлетел в края, где его же никто не нагрузит...
Так что если у вас тоже полезут такие же сообщения,будете уже знать.

По поводу
..передергивать...затвор

- ну неправда ваша, дяденьа! треть неисправностей просто исчезает после того, как блок вынули-вставили. Особенно если на разъеме 2-3 десятка контактов. Первый метод починки был на СМ- и ЕС-машинах...

Всем спасибо. Тему можно закрыть. ( Я бы не напрягал модераторов, но закрышка все еще не доступна авторам тем.... )