Страница 1 из 1

Слабо понятный случай. Может кто-либо поможет понять

СообщениеДобавлено: 22 авг 2016, 11:05
Пилютик Михаил
Удивительный и слабо понятный случай. Может кто-либо поможет понять, что произошло и как избежать такого в будущем.
У меня уже давно используется GroupWise версия 8 (начинали с 5.5). Один домен и одно почтовое отделение на NSS-томе сервера NetWare 65sp8. На этом же сервере и крутятся агенты домена, ПО и GWIA. Сервер поднят на VMWare 5.0. Резервные копирование обеспечивает VeeamBackup.

Сервер последний раз перегружался не менее месяца назад. Все крутилось, все довольны. И вдруг.
По требованию энергетиков в субботу не надолго нужно было выключить хост VMWare на котором работал сервер с GroupWise и сетевую хранилку.
Выключаем как положено сервер NetWare, хост, хранилку, энергетики справились быстро, запускаем все по-новой и увы агенты GroupWise не запускаются - не доступен том с доменом постофисом.
Смотрю через NSSMU - присутствуют три диска, с двумя из них все Ок - пулы, тома, а на диске, где был GroupWise нет разделов.
Подумали, подумали, а тут еще был доп. форс-фажор, время поджимает, в понедельник все должно работать.
Восстанавливаем диск из самой свежей копии VeeamBackup. Но увы ситуация таже, на диске нет разделов. Восстанавливаем из копии недельной давности - ситуация таже.
Хорошо, я не успел остановить (планировал, но руки не дошли) остановить копирование с помощью ArcServe, что меня и спасло.

Напрашивается вывод, наш NetWare сервер успешно работал, а на одном из его дисков уже была повреждена таблица разделов? Как-то неожиданно, но похоже, после того как том NSS смонтирован и дальше идет работа на диске только с файлами, то таблица разделов может во время этого быть запорчена.
Еще не понятен вопрос, почему и как могла испортиться таблица разделов - виртуальная машина, на которой работал сервер давно в неизменном состоянии, ни ее диски, ни сама ВМ никак не изменялись, не мигрировались на другие хосты, хранилки.

Буду рад прочитать мысли на эту тему.

Re: Слабо понятный случай. Может кто-либо поможет понять

СообщениеДобавлено: 22 авг 2016, 11:35
Андрей Добров
Пилютик Михаил писал(а):Удивительный и слабо понятный случай. Может кто-либо поможет понять, что произошло и как избежать такого в будущем.
У меня уже давно используется GroupWise версия 8 (начинали с 5.5). Один домен и одно почтовое отделение на NSS-томе сервера NetWare 65sp8. На этом же сервере и крутятся агенты домена, ПО и GWIA. Сервер поднят на VMWare 5.0. Резервные копирование обеспечивает VeeamBackup.

Сервер последний раз перегружался не менее месяца назад. Все крутилось, все довольны. И вдруг.
По требованию энергетиков в субботу не надолго нужно было выключить хост VMWare на котором работал сервер с GroupWise и сетевую хранилку.
Выключаем как положено сервер NetWare, хост, хранилку, энергетики справились быстро, запускаем все по-новой и увы агенты GroupWise не запускаются - не доступен том с доменом постофисом.
Смотрю через NSSMU - присутствуют три диска, с двумя из них все Ок - пулы, тома, а на диске, где был GroupWise нет разделов.
Подумали, подумали, а тут еще был доп. форс-фажор, время поджимает, в понедельник все должно работать.
Восстанавливаем диск из самой свежей копии VeeamBackup. Но увы ситуация таже, на диске нет разделов. Восстанавливаем из копии недельной давности - ситуация таже.
Хорошо, я не успел остановить (планировал, но руки не дошли) остановить копирование с помощью ArcServe, что меня и спасло.

Напрашивается вывод, наш NetWare сервер успешно работал, а на одном из его дисков уже была повреждена таблица разделов? Как-то неожиданно, но похоже, после того как том NSS смонтирован и дальше идет работа на диске только с файлами, то таблица разделов может во время этого быть запорчена.
Еще не понятен вопрос, почему и как могла испортиться таблица разделов - виртуальная машина, на которой работал сервер давно в неизменном состоянии, ни ее диски, ни сама ВМ никак не изменялись, не мигрировались на другие хосты, хранилки.

Буду рад прочитать мысли на эту тему.

Быстро переходим на VMware 5.1. На форуме VMware лет 5-6 назад описывалась проблема в работе хостов под 5.0 при использовании снапшотов.
А миграция или и бэкап - это и есть создание снапщота.

Re: Слабо понятный случай. Может кто-либо поможет понять

СообщениеДобавлено: 22 авг 2016, 12:12
Пилютик Михаил
Андрей Добров писал(а):Быстро переходим на VMware 5.1. На форуме VMware лет 5-6 назад описывалась проблема в работе хостов под 5.0 при использовании снапшотов.
А миграция или и бэкап - это и есть создание снапщота.

Может сохранилось (вспомните) еще что-нибудь об этой проблеме, глядишь удастся что-то найти на эту тему в инете.

Re: Слабо понятный случай. Может кто-либо поможет понять

СообщениеДобавлено: 22 авг 2016, 15:26
Radik
Вот есть статья в KB

Re: Слабо понятный случай. Может кто-либо поможет понять

СообщениеДобавлено: 23 авг 2016, 11:12
Иван Левшин aka Ivan L.
Пилютик Михаил писал(а):Удивительный и слабо понятный случай. Может кто-либо поможет понять, что произошло и как избежать такого в будущем.
Напрашивается вывод, наш NetWare сервер успешно работал, а на одном из его дисков уже была повреждена таблица разделов? Как-то неожиданно, но похоже, после того как том NSS смонтирован и дальше идет работа на диске только с файлами, то таблица разделов может во время этого быть запорчена.
Еще не понятен вопрос, почему и как могла испортиться таблица разделов - виртуальная машина, на которой работал сервер давно в неизменном состоянии, ни ее диски, ни сама ВМ никак не изменялись, не мигрировались на другие хосты, хранилки.


Что дает nss /poolverify? Вообще какие-нибудь разделы видны? Если нет - то это 100% не NSS, это VMware, рыть надо в эту сторону.

Re: Слабо понятный случай. Может кто-либо поможет понять

СообщениеДобавлено: 23 авг 2016, 11:23
Пилютик Михаил
nssmu говорил - разделов нет.
детальней не изучали, стояла задача к утру вернуть почту в работу.
Планируем посмотреть подробней в том числе попробовать разные утилиты, чтобы если опять что-нибудь быть более подготовленными.

В этом случае напрягает больше всего того, что проблема уже есть, но все работает и ты об этом даже не подозреваешь.

Re: Слабо понятный случай. Может кто-либо поможет понять

СообщениеДобавлено: 23 авг 2016, 12:51
Иван Левшин aka Ivan L.
Система не умеет работать с разделом, которого уже нет. Полагаю, что-то происходит во время выключения виртуальной машины или каких-то еще с ней операций. Я не специалист в VMware, потому ничего дельного тут сказать не могу. Но если бы "на лету" оторвался раздел, ГВ упал бы тут уже и Вы бы получили сообщение в консоли. Если ничего такого в логе нет - значит вплоть до момента подачи команды down раздел был жив и на месте. Кроме того, я никогда за свою практику не сталкивался со случаем, когда бы при выключении NW разделы бы просто пропадали. Из чего единственный вывод, который я могу сделать - такого быть не может. Нет там ничего в последовательности выключения, что могло бы вынести разделы с диска.

Re: Слабо понятный случай. Может кто-либо поможет понять

СообщениеДобавлено: 23 авг 2016, 13:09
Пилютик Михаил
А как можно объяснить то, что в существующих копиях диска тоже отсутсnвуют разделы?

Re: Слабо понятный случай. Может кто-либо поможет понять

СообщениеДобавлено: 23 авг 2016, 13:25
Иван Левшин aka Ivan L.
Как я уже сказал - я не специалист по продуктам VMware, все мои знания кончаются на уровне "создай виртуалку". Смотрите настройки VMware и резервного копирования. Я не знаю и не вижу, что именно на Вашей стороне происходит - возможно, резервное копирование недонастроено, при попытке получения копии возникает блокировка. Возможно, гипервизор что-то делает с файлами виртуальных носителей. Этих "возможно" может быть еще миллион - надо смотреть логи системы и пытаться понять, что, где и почему пошло не так.

В том, что NW тут не при чем - я уверен на 1000%. Нет в ней никаких "скрытых суицидальных наклонностей", чтобы она сама себя калечила при выключении. Аналогично и во время работы - если пропал раздел, отвалится том. Сразу же. Можете проверить на любом сервере Netware - как только вы на ходу выдерните диск (физический или виртуальный, без разницы), система заметит это сразу же. Поверьте на слово, видел я такое больше одного раза :) Стоически держаться на одном только кэше она не будет - потому, что не умеет. Да и не хватит того кэша, чтобы продолжать работу. ГВ же постоянно дергает том - просто напомню о том, что вся система (ГВ) построена вокруг расписания, плюс всякие временные файлы и т.д. Если не будет тома - грохнется тут же.

Кстати, я бы посмотрел, первым делом, именно в сторону связки "гипервизор+система резервного копирования". Возможно, они друг другу банально не дают нормально работать.