Сервер сам умер, причина не ясна :/

Обсуждение технических вопросов по продуктам Novell

Сервер сам умер, причина не ясна :/

Сообщение overself » 02 июн 2008, 16:57

Привет.

Вот есть сервер, стоял себе месяца 2 работал, и сегодня вдруг не с того не с сего упал! Что для нетвеар мне страшно стало. Такого не замечал с просто так, т.к. ничего не менялось совсем!

Что это может быть? :( Что покопать? Что покурить?

Server NEW halted Monday, June 2, 2008 3:13:40.899 pm
Abend 1 on P00: Server-5.70.07: Nonmaskable Interrupt Processor Exception (Error code 000000A0)

Registers:
CS = 0008 DS = 0023 ES = 0023 FS = 0023 GS = 0023 SS = 0010
EAX = 000000C1 EBX = 9072C000 ECX = 00000001 EDX = 000003FA
ESI = 00000080 EDI = 00000000 EBP = 00000000 ESP = 8A45CF30
EIP = 90744E2D FLAGS = 00000046
90744E2D 240F AND AL, 0F
EIP in AIOCOMX.NLM at code start +00003E2Dh

The violation occurred while processing the following instruction:
90744E2D 240F AND AL, 0F
90744E2F 888399000000 MOV [EBX+00000099], AL
90744E35 A801 TEST AL, 01
90744E37 7589 JNZ 90744DC2
90744E39 3C04 CMP AL, 04
90744E3B 0F85A2000000 JNZ 90744EE3
90744E41 31D2 XOR EDX, EDX
90744E43 668B9384000000 MOV DX, [EBX+00000084]
90744E4A 83C205 ADD EDX, 00000005
90744E4D 29C0 SUB EAX, EAX

Server halted Monday, June 2, 2008 3:15:58.070 pm
Abend 1 on P00: Server-5.70.07: Nonmaskable Interrupt Processor Exception (Error code 000000A0)

Registers:
CS = 0008 DS = 0023 ES = 0023 FS = 0023 GS = 0023 SS = 0010
EAX = 00000000 EBX = 80008000 ECX = 000A29C5 EDX = 00000070
ESI = 00000000 EDI = 00010000 EBP = 00000400 ESP = 0009BA20
EIP = 8A266AF8 FLAGS = 00000006
8A266AF8 E300 JECXZ 8A266AFA(no jump)
EIP in UNKNOWN memory area
Server NEW halted Monday, June 2, 2008 3:16:33.058 pm
Abend 2 on P00: Server-5.70.07: Nonmaskable Interrupt Processor Exception (Error code 000000A0)

Registers:
CS = 0008 DS = 0023 ES = 0023 FS = 0023 GS = 0023 SS = 0010
EAX = 00000001 EBX = 8F09D2F4 ECX = 8A66A018 EDX = 9631172E
ESI = 00000000 EDI = 8F09D2F4 EBP = 9468647C ESP = 94686470
EIP = 8A5CC179 FLAGS = 00000246
8A5CC179 3901 CMP [ECX]=00000000, EAX
EIP in LIBNSS.NLM at code start +00004179h

The violation occurred while processing the following instruction:
8A5CC179 3901 CMP [ECX], EAX
8A5CC17B 74FC JZ 8A5CC179
8A5CC17D 8701 XCHG [ECX], EAX
8A5CC17F 3D01000000 CMP EAX, 00000001
8A5CC184 74F3 JZ 8A5CC179
8A5CC186 C3 RET
8A5CC187 E874FFFFFF CALL LIBNSS.NLM|WaitForSpinLock
8A5CC18C EBEB JMP 8A5CC179
8A5CC18E 90 NOP
8A5CC18F 90 NOP
Аватара пользователя
overself
 
Сообщения: 218
Зарегистрирован: 06 июл 2007, 10:38

Сообщение v13 » 02 июн 2008, 17:58

IMHO драйверок ком порта сервер уронил.
если не критично, убрать apc софт нафик.
Аватара пользователя
v13
 
Сообщения: 660
Зарегистрирован: 31 авг 2007, 09:07

Сообщение overself » 02 июн 2008, 18:09

Вот зараза! А как жеш убрать, у меня APC SmartUps 1500 его держит... и если питание падает, он корректро тушится и включается при появлении питания... Это первый раз такое... Может на USB перейти? Но не знаю чем воспользоваться... Powershute for Netware 4.3.3 стоит... Но он с усб вроде не воркаед, может посоветуете как выкрутиться?
Аватара пользователя
overself
 
Сообщения: 218
Зарегистрирован: 06 июл 2007, 10:38

Сообщение v13 » 02 июн 2008, 22:53

overself писал(а):Вот зараза! А как жеш убрать, у меня APC SmartUps 1500 его держит... и если питание падает, он корректро тушится и включается при появлении питания... Это первый раз такое... Может на USB перейти? Но не знаю чем воспользоваться... Powershute for Netware 4.3.3 стоит... Но он с усб вроде не воркаед, может посоветуете как выкрутиться?


Да я не насовсем предлагаю, а чтоб проблему локализовать сначала хотябы.

Тем более второй абенд вроде как другой...

Опять же парашют больно уж старый у тебя, он при установке AIOCOMX.NLM не поменял случайно ?
Аватара пользователя
v13
 
Сообщения: 660
Зарегистрирован: 31 авг 2007, 09:07

Сообщение Владимир Семиколенных » 03 июн 2008, 09:58

Вообще то немаскируемое прерыване - это, обычно, железо.
Вентиляторы нормально крутятся?
В.
Владимир Семиколенных
 
Сообщения: 174
Зарегистрирован: 10 июн 2002, 16:03
Откуда: Мурманск

Сообщение Мещеряков Андрей » 03 июн 2008, 11:50

Плутоний в серверную не носили :) ? Сервер настоящий, с ЕСС памятью?
Аватара пользователя
Мещеряков Андрей
 
Сообщения: 1999
Зарегистрирован: 19 сен 2002, 14:55
Откуда: lipetsk

Сообщение Dimerson » 03 июн 2008, 12:01

Мещеряков Андрей писал(а):Плутоний в серверную не носили :) ? Сервер настоящий, с ЕСС памятью?


Пыли нет на модулях памяти ?
Аватара пользователя
Dimerson
 
Сообщения: 2966
Зарегистрирован: 15 сен 2002, 14:39
Откуда: Регион 70

Сообщение v13 » 03 июн 2008, 12:32

Действительно, это скорее всего память.
первый совет аннулирую :-)
http://en.wikipedia.org/wiki/Non-maskable_interrupt
код nmi 000000A0 не нашёл, лениво стало.
Аватара пользователя
v13
 
Сообщения: 660
Зарегистрирован: 31 авг 2007, 09:07

Сообщение overself » 04 июн 2008, 10:59

В том и дело, память ECC, сервер новый, тысяч 5 американских... HP. Пыли быть не может там, ему всего 2-3 месяца, и хорошее помещение... :/
Аватара пользователя
overself
 
Сообщения: 218
Зарегистрирован: 06 июл 2007, 10:38

Сообщение Sergant » 04 июн 2008, 11:37

overself писал(а):В том и дело, память ECC, сервер новый, тысяч 5 американских... HP. Пыли быть не может там, ему всего 2-3 месяца, и хорошее помещение... :/


К сожалению это все не панацея... В BIOS-е ненужные устройства (LPT-порт и т.д.), занимающие прерывания, отключены ? UPS шнурком с COM-портом соединен ? Последнее инженеры из HP сильно не любят, мотивируя это тем, что на ProLiant-ах это приводит к частому подгоранию COM-порта, который что-нибудь еще да и заберет с собой.
Sergant
 
Сообщения: 330
Зарегистрирован: 22 сен 2006, 14:41
Откуда: Москва

Сообщение Dimerson » 04 июн 2008, 14:04

Sergant писал(а):
overself писал(а):В том и дело, память ECC, сервер новый, тысяч 5 американских... HP. Пыли быть не может там, ему всего 2-3 месяца, и хорошее помещение... :/


К сожалению это все не панацея... В BIOS-е ненужные устройства (LPT-порт и т.д.), занимающие прерывания, отключены ? UPS шнурком с COM-портом соединен ? Последнее инженеры из HP сильно не любят, мотивируя это тем, что на ProLiant-ах это приводит к частому подгоранию COM-порта, который что-нибудь еще да и заберет с собой.


Если юзать тупые contact-closuere кабели (то есть на стороне UPS только реле) то вряд ли что подгорит - но при этом софт не умеет выключать UPS и нет никакой телемтрии со стороны сервера.
Аватара пользователя
Dimerson
 
Сообщения: 2966
Зарегистрирован: 15 сен 2002, 14:39
Откуда: Регион 70

Сообщение overself » 10 июн 2008, 10:25

Я недавно купил 2UPS 1000 APC. Рэковых. Так вот сначала при включении новый сгорел первый, второй через три дня, отвезли, отремонтировали, привезли, сгорели снова оба. Отвезли, привезли, один кка то работает, второй сгорел. APCшники молчат. Предположение что горит от соединения с пролиантом ком и там что то глушит еще. Так, что выбивает автоматы. Вот вам и APC.
Аватара пользователя
overself
 
Сообщения: 218
Зарегистрирован: 06 июл 2007, 10:38

Сообщение Dimerson » 10 июн 2008, 11:03

Юзаем Liebert
Аватара пользователя
Dimerson
 
Сообщения: 2966
Зарегистрирован: 15 сен 2002, 14:39
Откуда: Регион 70


Вернуться в Novell

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 12

cron