Неожиданные Abend'ы

Обсуждение технических вопросов по продуктам Novell

Неожиданные Abend'ы

Сообщение Василий Андреев » 14 июн 2003, 01:23

Коллеги! Помогите ну очень начинающему в администрировании Нетвари человеку!!!
Заранее приношу извинения, если написал какие-то нелепости!

Есть сервер HP NetServer LC2000 U3 (256M RAM).
Стоит на нем Novell Netware 5.1
Server version 5.00h

Произошло следующее: работающий достаточно долгое время без единого сбоя сервер вдруг грохнулся 3 раза в течении 24 часов.

Согласно Abend.log, происходило следующее:
===============================
Server NUCLOSERV halted Thursday, 12 June 2003 5:25:51
Abend 4 on P00: Server-5.00h: Page Fault Processor Exception (Error code 00000002)

Registers:
CS = 0008 DS = 0010 ES = 0010 FS = 0010 GS = 0010 SS = 0010
EAX = 00000000 EBX = 0168F4A8 ECX = 00000019 EDX = 00000060
ESI = D0635B3C EDI = 00000000 EBP = 00000001 ESP = D024CD1C
EIP = D108EF86 FLAGS = 00014202
D108EF86 F3A5 REP MOVSD
EIP in FILESYS.NLM at code start +00086F86h
Access Location: 0x00000000

Running process: Server 09 Process
Created by: NetWare Application
Thread Owned by NLM: SERVER.NLM
Stack pointer: D024CCDC
OS Stack limit: D0249040
Scheduling priority: 67371008
........
Additional Information:
The CPU encountered a problem executing code in FILESYS.NLM. The problem may be in that module or in data passed to that module by a process owned by SERVER.NLM.
==============================================

К серверу в тот момент никто не подходил. Он, очевидно, бутнулся.
Но, через некоторое время, произошло следующее:

==============================================
Server NUCLOSERV halted Thursday, 12 June 2003 7:01:13
Abend 6 on P00: Server-5.00h: Double Fault Processor Exception (Error code 00000000)

Registers:
CS = 0008 DS = 0010 ES = 0010 FS = 0010 GS = 0010 SS = 0010
EAX = D51C1F90 EBX = D016C440 ECX = 00000208 EDX = D51C21B4
ESI = 00000000 EDI = D016C444 EBP = D51C2198 ESP = D51C1F90
EIP = 00049170 FLAGS = 00010086
00049170 0FAE ??AE
EIP in UNKNOWN memory area

Running process: Java SGTimeou Process
Created by: NetWare Application
Thread Owned by NLM: JAVA.NLM
Stack pointer: D51E3270
OS Stack limit: D51C28C0 (stack overflow signature is missing - BAD STATE TO BE IN)
Scheduling priority: 67371008
Wait state: 5050100 (Delayed)
Stack:
Stack dump exceeded the valid memory limit

Additional Information:
The CPU encountered a problem executing code in LOADER.EXE. The problem may be in that module or in data passed to that module by a process owned by JAVA.NLM.
===============================================
После этого, он, видимо, еще раз бутнулся и простоял почти сутки.

Третий акт этого безобразия, точнее, финальную ее часть, я мог наблюдать сам. На консоли происходило следующее:
вылетала куча сообщений вроде
Short term memory allocator is out of memory.
30750 attempts to get more memory failed.


Насколько я мог в спешке заметить, эти ругательства происходили от имени mallocForNCPReply.c <63> и zalloc.c <67>.

Из Abend.log удалось получить следующее:
============================================
Server NUCLOSERV halted Friday, 13 June 2003 5:03:18
Abend 2 on P00: Server-5.00h: Page Fault Processor Exception (Error code 00000002)

Registers:
CS = 0008 DS = 0010 ES = 0010 FS = 0010 GS = 0010 SS = 0010
EAX = 0000030C EBX = 0F01CD6C ECX = 00000018 EDX = D062B640
ESI = D062B334 EDI = 00000000 EBP = 00000000 ESP = D1F45D10
EIP = FC0ADDA7 FLAGS = 00014206
FC0ADDA7 0F2B ??2B
EIP in SERVER.NLM at code start +000ADDA7h
Access Location: 0x00000000

Running process: Server 07 Process
Created by: NetWare Application
Thread Owned by NLM: SERVER.NLM
Stack pointer: D1F45C7C
OS Stack limit: D1F42040
Scheduling priority: 67371008
Wait state: 5050090 (Wait for interrupt)
.....
Additional Information:
The CPU encountered a problem executing code in SERVER.NLM. The problem may be in that module or in data passed to that module by a process owned by SERVER.NLM.
==============================================
Видимо, произошел какой-то двойной "наворот", поскольку посреди последующего за этим длинного списка загруженных модулей внезапно встретилась вот такая оборванная строка:

Server NUCLOSERV halted Friday, 13 June 2003 5:03:22
Abend 4 on P00: Server-5.00h: Page Fault Processor Exception (Error code


Коллеги, подскажите, что это за кошмар происходит?
Может, Service Pack 6 это вылечит? (На сей момент, никаких SP, увы, не было установлено ...)
WBR,
Василий.
Василий Андреев
 
Сообщения: 26
Зарегистрирован: 13 июн 2003, 22:37

Сообщение Андрей Тр. aka RH » 14 июн 2003, 06:45

А что так - совсем без SP ? Поди еще и без софта от НР, со стандартными драйверами из Netware ? Не уверен насчет сразу к SP6, но какой-либо стоит поставить ( ИМХО 2, как минимум, или 5 ).
Аватара пользователя
Андрей Тр. aka RH
 
Сообщения: 3937
Зарегистрирован: 18 июн 2002, 11:27

Сообщение Василий Андреев » 14 июн 2003, 08:12

Андрей, спасибо за ответ.
Ситуация осложнена тем, что не я этот сервер устанавливал.
Но драйвера вроде как родные стоят (т.е. HP).

А SP6 - он слишком сырой, что ли? Или еще есть какие-то соображения предпочесть в моем случае SP5?
WBR,
Василий.
Василий Андреев
 
Сообщения: 26
Зарегистрирован: 13 июн 2003, 22:37

Сообщение Михаил Григорьев » 14 июн 2003, 09:20

По поводу SP после 3-го... тут вообще катавасия... у кого 5-ый нормально работает у кого грабли так и сыплются, у кого 6-й без проблем воркет а у кого после его установки тоже грабли появляются...

Тут нужно вначале начать либо с SP2+постфиксы к нему либо с SP3+постфиксы

У меня вот SP3 стоит и нет проблем...
Аватара пользователя
Михаил Григорьев
 
Сообщения: 1462
Зарегистрирован: 04 июн 2002, 12:22
Откуда: Челябинск

Сообщение Аркадий Глазырин » 16 июн 2003, 07:54

Григорьев Михаил писал(а):Тут нужно вначале начать либо с SP2+постфиксы к нему либо с SP3+постфиксы

У меня вот SP3 стоит и нет проблем...


А что такое "ПОСТФИКСЫ"?
А то у меня SP3 и наодном сервере время бегает на 15 сек в 10 минут.
Аватара пользователя
Аркадий Глазырин
 
Сообщения: 2762
Зарегистрирован: 16 авг 2002, 09:09
Откуда: Екатеринбург

Сообщение Василий Андреев » 16 июн 2003, 12:50

Михаил, спасибо за консультацию!
Правльно ли я понял, что postfix - это что-то вроде след.:
http://support.novell.com/cgi-bin/search/searchtid.cgi?/2953956.htm

Тем временем, мой кошмар продолжается. Этой ночью опять гавгнулся сервер по тому-же сценарию:
непонятно на что сожралась вся память
(в обычном состоянии MONITOR показывает след. данные:
Allocated memory pool: (37 M) 14%
Cache buffer memory: (151 M) 57%
Code and data memory (77.5 M) 29%
- вроде бы нормальные значения ?)

, так что я даже положить сервак не смог по нормальному, только через <CRTL>+<ALT>+<ESC>.
А после перезагрузки начинаются проблемы с лицензиями.
В предыдущем случае (13 числа), вообще это дело не работало - подключался только один клиент. Происходило это до тех пор, пока я не удалил, а затем снова установил лицензию на 5 connections.
После этого вроде как все заработало (5+25 conn.)

Сегодня же проблемы начались, когда число подключений стало превышать 20. Проделал указанную выше операцию. Следующий затык произошел в точке 25 conn. Опять передернул лицензию.
После этого несколько раз клиенты на некоторых рабочих станций ругнулись, что не могут получить connection unit, однако затем все успокоилось (надолго ли?). Вобщем, сейчас существуют 27 conn.
Подскажите, коллеги, как все происходящее понимать?

И еще вопрос: могу ли я безнаказанно переустановить (т.е. удалить и снова поставить) основную лицензию (которая именуется Server+5 Conn. и в NWCONFIG'е предстает в виде двух частей)?
Нужно ли после этой операции рестартовать сервер или можно все сделать на ходу?
WBR,
Василий.
Василий Андреев
 
Сообщения: 26
Зарегистрирован: 13 июн 2003, 22:37

Сообщение Владимир Горяев » 16 июн 2003, 12:55

Может перегревается? - проверить кулера итд.

А что такое "ПОСТФИКСЫ"?
В общем случае - мелкие заплатки в после SP.Полезно посмотреть, напр, NetWare Support Pack Addendum.
Бардак автоматизировать невозможно!!!
_________________
Аватара пользователя
Владимир Горяев
 
Сообщения: 3473
Зарегистрирован: 05 июн 2002, 13:37
Откуда: Смоленск

Сообщение Василий Андреев » 16 июн 2003, 16:54

Да вроде все сифонит нормально. Отклонений не замечено.
Кстати, занятный факт: все эти неприятности (в кол-ве 3) происходят почему-то по утрам в интервале 5:00 - 5:30. Это уже не похоже на простое совпадение ...
WBR,
Василий.
Василий Андреев
 
Сообщения: 26
Зарегистрирован: 13 июн 2003, 22:37

Filesys.nlm отъедает память!!!

Сообщение Василий Андреев » 16 июн 2003, 20:37

Коллеги!
Я вроде как начал наблюдать процесс в его развитии.
По показаниям MONITOR'а, параметры памяти в течении последних одного-двух часов изменяются так:
Alloc. memory pool: 27%
Cache buffer memory 46% (!)
Code & data mem. 27%


Также через монитор было установлено, что
Filesys.nlm отъедает все больше и больше памяти! Причем процесс этот происходит буквально на глазах: по нескольку кил в секунду!!!
Далее, залезши в Resource tags мы видим, что постоянно растет File Locks!
Друзья, посоветуйте, что делать? Как остановить этот процесс?
Похоже, мне до очередного краха остается буквально несколько часов!!!
WBR,
Василий.
Василий Андреев
 
Сообщения: 26
Зарегистрирован: 13 июн 2003, 22:37

Сообщение Владимир Горяев » 17 июн 2003, 09:07

Поиск по форуму слова Filesys и FLSYSFT. То же на http://support.novell.com/search/kb_index.jsp и http://support.novell.com/filefinder/ .
Вобчем - патчить.
Попробуй откл компрессию и SET CLIENT FILE CACHING ENABLED = OFF на сервере.
Бардак автоматизировать невозможно!!!
_________________
Аватара пользователя
Владимир Горяев
 
Сообщения: 3473
Зарегистрирован: 05 июн 2002, 13:37
Откуда: Смоленск

Сообщение Василий Андреев » 20 июн 2003, 03:19

Спасибо!
WBR,
Василий.
Василий Андреев
 
Сообщения: 26
Зарегистрирован: 13 июн 2003, 22:37


Вернуться в Novell

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 59

cron