Multiplie Abend NW5.1 помогите понять почему

Обсуждение технических вопросов по продуктам Novell

Multiplie Abend NW5.1 помогите понять почему

Сообщение Быков Алексей » 04 дек 2003, 17:28

Имеестся самосборное железо
SuperMicro P3TDLE (ServerSet III), 2x P3-S 1,4 GHz, 1Gb ECC SDRAM
Adaptec SCSI RAID 2100S + 4x 36.9Gb IBM SCSI HDD (raid 0+1)
на нем стоит
NW 5.1 SP5, BM 3.5 Sp3, Zfd 3 Sp1a, NRS1.21

Почти год все работало нормально, без видимой причины дважды за последние 2 недели сервер валился в Multiplie Abend (после которого не реагирует уже ни на что...). В Abend.log совершенно одно и тоже для обоих случаев. Попытки понять что-нибудь пока тщетны. Буду благодарен за любой совет....



Server MAIN halted Wednesday, 3 December 2003 17:04:33.352
Abend 1 on P00: Server-5.00k-662: InternalDiskRelease invalid use count.

Registers:
CS = 0008 DS = 0010 ES = 0010 FS = 0010 GS = 0010 SS = 0010
EAX = 335F142C EBX = 3C39A634 ECX = 00000000 EDX = 00000001
ESI = 335F142C EDI = 00000000 EBP = D4A4F5D0 ESP = D002DF30
EIP = 00000000 FLAGS = 00000046


Running process: Server 00:00 Process
Created by: NetWare Application
Thread Owned by NLM: SERVER.NLM
Stack pointer: D002DF88
OS Stack limit: D0026040
CPU 0 (Thread D00240E0) is in a NO SLEEP state
Scheduling priority: 67371008
Wait state: 50500F0 (Waiting for work)
Stack: CE71F0F6 (PROXY.NLM|CReleaseCache+41)
--2F16E394 ?
CE66C9D3 (PROXY.NLM|SendECBReinit+53)
--335F142C ?
--2F16E394 ?
--31E72004 ?
CE670075 (PROXY.NLM|SendDoneFastWorkToDo+45)
--2F16E394 ?
D4A40010 (LSL.NLM|UnBindProtocolFromDriver+418)
--2F16E394 ?
D4A4408D (LSL.NLM|LSLServiceEvents+43D)
--2F16E394 ?
--2F16E1CC ?
FC105B65 (SERVER.NLM|kDoFastWorkToDo+25)
-D4A4F5D0 (LSL.NLM|ProtocolNameTable+126C)
--00000000 ?
--00000001 ?
--00000000 ?
--17072299 ?
--00000000 ?
-D4A4F5D0 (LSL.NLM|ProtocolNameTable+126C)
FC024A54 (SERVER.NLM|kWorkToDoCheckAllRunFast+B4)
-D4A4F5D0 (LSL.NLM|ProtocolNameTable+126C)
--17072299 ?
--17072297 ?
--FFFFFFFF ?
--00000000 ?
FC024E08 (SERVER.NLM|kWorkerThread+11C)
--00000000 ?
--00000000 ?
--00000000 ?
--D00240E0 ?
FC01F3C2 (SERVER.NLM|TcoNewSystemThreadEntryPoint+26)
--D00240E0 ?
--00000000 ?
--00000000 ?
--65657246 ?
--65657246 ?
--65657246 ?
--65657246 ?
--65657246 ?
--65657246 ?
--D0026000 ?
--65657246 ?
--65657246 ?
--65657246 ?
--65657246 ?
--65657246 ?
--65657246 ?
--65657246 ?
--65657246 ?
--65657246 ?

Stack dump exceeded the valid memory limit

Additional Information:
The NetWare OS detected a problem with the system while executing a process owned by SERVER.NLM. It may be the source of the problem or there may have been a memory corruption.

И следом..............

Server MAIN halted Wednesday, 3 December 2003 17:04:33.352
Abend 2 on P00: Server-5.00k-1834: Kernel detected a fast worktodo or a legacy polling routine going to sleep

Registers:
CS = 0008 DS = 0010 ES = 0010 FS = 0010 GS = 0010 SS = 0010
EAX = D0026040 EBX = 00000246 ECX = 00000001 EDX = D09DB080
ESI = ED63EB69 EDI = D09DB080 EBP = FCE1430F ESP = D002DC10
EIP = FC01A8A2 FLAGS = 00000002
FC01A8A2 83C404 ADD ESP,00000004
EIP in SERVER.NLM at code start +0001A8A2h

The violation occurred while processing the following instruction:
FC01A8A2 83C404 ADD ESP,00000004
FC01A8A5 833D1410C0FB00 CMP [LOADER.EXE|SleepNotAllowedUseCount]=00000002,0
0000000
FC01A8AC 7425 JZ FC01A8D3
FC01A8AE 803D1300050000 CMP [00050013]=01,00
FC01A8B5 751C JNZ FC01A8D3
FC01A8B7 833DAC01C0FB00 CMP [FBC001AC]=00000000,00000000
FC01A8BE 0F8486020000 JZ FC01AB4A
FC01A8C4 8B1DAC1CE0FC MOV EBX,[FCE01CAC]=FCE1435A
FC01A8CA 53 PUSH EBX
FC01A8CB E830310F00 CALL SERVER.NLM|Abend



Running process: Server 00:00 Process
Created by: NetWare Application
Thread Owned by NLM: SERVER.NLM
Stack pointer: D002DF88
OS Stack limit: D0026040
CPU 0 (Thread D00240E0) is in a NO SLEEP state
Scheduling priority: 67371008
Wait state: 5050090 (Wait for interrupt)
Stack: --FCE1430F ?
--D09DB080 ?
--D09DB080 ?
--ED63EB69 ?
--00000246 ?
FC0082F7 (SERVER.NLM|CSleepUntilInterrupt+3B)
--00000000 ?
--00000000 ?
D09B36A5 (IOPX.NLM|I2OLIB_ThreadSleep+5)
D09A81DD (IOPX.NLM|IOPX_SendBlockingMessage+161)
--D09DB080 ?
--D09DB280 ?
--00000000 ?
--302D000D ?
--1027000B ?
--D4A0C180 (BKSTROSM.HAM|BsConUninit+800C)
D4A01441 (BKSTROSM.HAM|OSM_Load+441)
--D49F3060 ?
--D002DC74 ?
--0000001E ?
--00000000 ?
--00000000 ?
--D002DC88 ?
--D002DC8C ?
--00000000 ?
-00050001 (LOADER.EXE|DOSOpenFileCount+91)
--3700120B ?
D09A8F24 (IOPX.NLM|BlockingCallback+0)
--D09DB280 ?
--00000000 ?
--D002DCE0 ?
--00000000 ?
--D002DCE0 ?
--00000000 ?
--00000000 ?
--3FE95300 (MPS14.PSM|PSMLoaded+6998)
D080C330 (NWPA.NLM|NPA_ExitToDOSEvent+24)
--00000002 ?
--00000001 ?
--D083FE40 ?
FC0560E0 (SERVER.NLM|EventReport+224)
--00000000 ?
--0054414D ?
--D083FE40 ?
0003A240 (LOADER.EXE|INWDOSSetDefaultDrive+856)
--00000001 ?
--006E0500 ?
--00000001 ?
0003A240 (LOADER.EXE|INWDOSSetDefaultDrive+856)
--D002DCDC ?
--D002DCC8 ?
--00000092 ?
--D002DD04 ?
0003A240 (LOADER.EXE|INWDOSSetDefaultDrive+856)
--00000007 ?
--00000000 ?
00026566 (LOADER.EXE|RestartServer+AA)
--00000001 ?
--00000000 ?
--00000000 ?
--00000000 ?
--D002DE60 ?
FC0E1672 (SERVER.NLM|CExceptionAssemblyAbend+3DE)
--D002DD10 ?
--CA210000 ?
--D002DEFC ?
--00000617 ?
0002E617 (LOADER.EXE|RestartServer+815B)
--D002DD48 ?
--CA26B4B6 ?
--0102A8C0 ?
--00000000 ?
CA1A95BA (IPFLT31.NLM|IPFSearchFilterHash+3A)
--D002DEFC ?
--00003D6C ?
--00000000 ?
--00000000 ?
--00000617 ?
--D002DD70 ?
--CA26B4B6 ?
--0102A8C0 ?
--00000000 ?
CA1A70FF (IPFLT31.NLM|IPFSearchIncludeFilters+6B)
--CA1E8500 ?
--00000000 ?
--D002DEFC ?
--00000000 ?
--00000000 ?
--D002DDA4 ?
--CA26B4B6 ?
--0102A8C0 ?
--00000000 ?
CA1A6FF9 (IPFLT31.NLM|IPFFilterLookup+71)
--CA219040 ?
--CA219080 ?
--D002DEFC ?
--00000000 ?
--CA219040 ?
--CA219080 ?
--00000000 ?

Additional Information:
The NetWare OS detected a problem with the system while executing a process owned by SERVER.NLM. It may be the source of the problem or there may have been a memory corruption.
Заранее благодарен за ответ.
Быков Алексей
 
Сообщения: 26
Зарегистрирован: 14 фев 2003, 21:32
Откуда: Москва

Re: Multiplie Abend NW5.1 помогите понять почему

Сообщение alexp_mac » 04 дек 2003, 17:34

alexp_mac
 
Сообщения: 788
Зарегистрирован: 28 июн 2002, 10:50

Re: Multiplie Abend NW5.1 помогите понять почему

Сообщение Аркадий Глазырин » 04 дек 2003, 22:14

Быков Алексей писал(а):Почти год все работало нормально, без видимой причины дважды за последние 2 недели сервер валился в Multiplie Abend (после которого не реагирует уже ни на что...). В Abend.log совершенно одно и тоже для обоих случаев. Попытки понять что-нибудь пока тщетны. Буду благодарен за любой совет....


У меня было такое недавно. Почти квартал боролся. Тщетно. Валится непредсказуемо. Железки менял. Процессоры, память, винты. Не спасало. В конце концов плюнул на рэковый корпус с его супер-пупер длинным и прямоугольным БП с двумя кулерами и собрал на новом офисном "железе" в корпусе INWIN S-500.

Валиться сразу же перестало. Выходит в БП дело было.
Аватара пользователя
Аркадий Глазырин
 
Сообщения: 2762
Зарегистрирован: 16 авг 2002, 09:09
Откуда: Екатеринбург

Сообщение Alex-M » 05 дек 2003, 15:38

Добавлю, до кучки... :-)

http://nscsysop.hypermart.net

И там смотреть совет №1 про патчи и совет (№ не помню) про proxy.cfg tuning.
Кроме того, на Новелловском саппорте есть ТИД про оптимизацию SET-параметров для БМ.
http://support.novell.com/cgi-bin/search/searchtid.cgi?/10018669.htm

После 3.5sp3 была куча постфиксов, после какого-то они это забороли... Я тоже с InternalDiskRelease... более года бодался, пока в очередном постфиксе это не прошло (кажись bm36sp2a)

Есть, правда ещё одно "ноу как" ;-) - важен порядок загрузки - БМ должен идти последним и нужна задержка секунд на 30 перед его загрузкой...

Ну и вообще - не стоит на сервер с БМ ставить ещё что-то сильно загружающее его (ЗЕН, например). Как с точки зрения надёжности, так и с точки зрения секурности... :-)
Вагончик тронется, НОВЕЛЛ - останется!!!
Alex-M
 
Сообщения: 298
Зарегистрирован: 21 авг 2002, 16:46
Откуда: Москва, МИД России

Сообщение Аркадий Глазырин » 05 дек 2003, 17:30

Alex-M писал(а):важен порядок загрузки - БМ должен идти последним и нужна задержка секунд на 30 перед его загрузкой...


А как его делать?
Я для этого написал командный файл и в нём тупо LOAD/UNLOAD одного тяжёлого модуля.
Есть ли команда для задания паузы?
Аватара пользователя
Аркадий Глазырин
 
Сообщения: 2762
Зарегистрирован: 16 авг 2002, 09:09
Откуда: Екатеринбург

Сообщение alexp_mac » 05 дек 2003, 17:36

Есть, правда ещё одно "ноу как" ;-) - важен порядок загрузки - БМ должен идти последним и нужна задержка секунд на 30 перед его загрузкой...


Да мочить всех этих удусов [пи-пи-пи поскипано цензурой].
Хоть есть задержка хоть ее нету, мне приходится грузить BM руками, у них в 6-ке траблы с сервисом лицензирования, видно даже при загрузке сервера, так вот даже с паузой прокси орет нет дицензий и досвидания, грузишь его потом руками дает 403 forbidden, на возбужлдение через nwadmin реагирует абендом. Как стал грузить руками - как шелковый стал. Надо видать потестить 3.8 на 6.5 может лучше будет?
alexp_mac
 
Сообщения: 788
Зарегистрирован: 28 июн 2002, 10:50

Сообщение Владимир Горяев » 05 дек 2003, 18:08

Arkadi, Goblins Chief писал(а):
Alex-M писал(а):важен порядок загрузки - БМ должен идти последним и нужна задержка секунд на 30 перед его загрузкой...


А как его делать?
Я для этого написал командный файл и в нём тупо LOAD/UNLOAD одного тяжёлого модуля.
Есть ли команда для задания паузы?

?load module предлагает загрузить модуль Y/N. если ниче не нажимаешь через 10 сек срабатывает Y. Паузу пожно установить другую, не помню как, поищи в ТИД-ах
Бардак автоматизировать невозможно!!!
_________________
Аватара пользователя
Владимир Горяев
 
Сообщения: 3473
Зарегистрирован: 05 июн 2002, 13:37
Откуда: Смоленск

Сообщение Alex-M » 05 дек 2003, 22:25

Владимир Горяев
Ага, DELAY кажется называется...
А можно проще - в NCF-ку несколько CLS, предваряемых вопросами, впихнуть - и усё... :D

Алексей Подгорчук
По поводу лицензирования есть фикс, зовётся кажется NLS603ft. Он там же, у Крэйга описан... И PURGE_NW полезно применить до кучки...

А вообще - да, чиста шаманством иногда лечится... Я этой самой задержкой вылечил абенды в Радиусе от БМ года 2 назад. Была масса абендов поряд, с интервалом час-два; испробовал всё, пока добрая душа Шакуов не подсказал! :D Поставил задержку перед самим БМ 30 сек и перед Радиусом 10 сек - помогло...

Ещё долго возился с "гонками" между NILE и HTTPSTK - тоже считай чисто шаманством вылечил: поставил загрузку SAS/PKI раньше.
Вагончик тронется, НОВЕЛЛ - останется!!!
Alex-M
 
Сообщения: 298
Зарегистрирован: 21 авг 2002, 16:46
Откуда: Москва, МИД России

Сообщение Аркадий Глазырин » 05 дек 2003, 22:54

Владимир Горяев писал(а):?load module предлагает загрузить модуль Y/N. если ниче не нажимаешь через 10 сек срабатывает Y. Паузу пожно установить другую, не помню как, поищи в ТИД-ах


Ага?

Т.е. можно, например написать так:

?LOAD NSRVNI.NLM

и по прошествии десяти секунд он запустится.

Супер! В понедельник проверю. Ключа под рукой нет.
Аватара пользователя
Аркадий Глазырин
 
Сообщения: 2762
Зарегистрирован: 16 авг 2002, 09:09
Откуда: Екатеринбург

Сообщение Аркадий Глазырин » 05 дек 2003, 22:56

Alex-M писал(а):А вообще - да, чиста шаманством иногда лечится... Я этой самой задержкой вылечил абенды в Радиусе от БМ года 2 назад.


А я паузами загрузку сетевого адаптора Intel на плате i440GX2 вылечил. Сходу он не загружался, а если отсрочить загрузку - без проблем.
Аватара пользователя
Аркадий Глазырин
 
Сообщения: 2762
Зарегистрирован: 16 авг 2002, 09:09
Откуда: Екатеринбург


Вернуться в Novell

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 71

cron