Однако под реальной нагрузкой (терабайтный кластерный том, заполненный на треть, плюс ещё треть занята непропурженными файлами) мы продержались неделю: сервер начал выдавать на консоли сообщения о нехватке памяти (при том, что в статистике отображалось, что больше всего памяти отъедает модуль NSS - около 100 МБ, остальные - по мелочи, а в сервере полтора гига), стал подтормаживать, а после перезагрузки не смог активировать пул (который несколько минут назад без проблем перешёл на другую ноду кластера). Причём сервер не выдавал ошибок, а просто при активировании пула (которое обычно проходило за пару секунд) тихо зависал. Наверное, он при этом что-то делал, но внешне это никак не проявлялось: консоль недоступна, на экране логгера - сообщение о начале активации пула, между консолями переключаться можно, в мониторе - нагрузка процессора почти нулевая, при попытке как-то "потрогать" тома или пулы (посмотреть в MONITOR-е список томов, запустить NSSMU, ввести команду VOLUMES или NSS /POOLS с дополнительной консоли и т.п.) соответствующий экран тоже просто зависал. После нескольких перезагрузок в попытках понять, что же происходит, наконец-то получили хоть какое-то сообщение об ошибке:
- Код: Выделить всё
Activating pool "VOL1"...
** Pool layout v43.02
** Processing journal
** 1 uncommitted transaction(s)
!!! Error allocating a free snapshot block.
!!! Warning All snapshots on pool VOL1 are being deleted.
** 78 Redo(s), 1 Undo(s), 1 Logical Undo(s)
** System verification completed
** Loading system objects
** Processing volume purge log
** ...
** Processing pool purge log
** .
- Код: Выделить всё
Could not change pool VOL1 to the ACTIVE state.
Status=20810 zfsPool.c[1872].
Use 'NSS /ErrorCode=20810' to obtain more information.
- Код: Выделить всё
Error=zERR_VOLUME_SHOULD_NOT_ACTIVATE
Кончилось тем, что удалось загрузить сервер с помощью не-очень-документированного ключика /NOSNAP и только после этого от-rebuild-ить пул (потеряв несколько часов, пару файлов и все снапшоты).
После этого снова включать снапшоты как-то боязно.
Народ, поделитесь, пожалуйста, мнениями:
1) Использует ли кто-нибудь упомянутые снапшоты средствами NSS? На какой платформе (NetWare/Linux)? Какова у вас статистика (как часто делаются снапшоты, сколько их хранится, давно ли живёт у вас эта технология, были ли проблемы)?
2) Поскольку NetWare дальше не развивается - насколько обоснованны надежды, что реализация NSS в Linux-е более толковая? С одной стороны - понятно, что это та же NSS, портированная с NetWare. С другой стороны - реализация всё-таки отличается (например, те же снапшоты делаются по-другому). С третьей стороны - не все возможности, которые были в NetWare, пока ещё реализованы в Linux-е (кластерные тома, например, снапшотить пока нельзя). С четвёртой стороны - вроде бы, Linux-реализация худо-бедно, но развивается (чего не скажешь о NetWare).
3) А может, плюнуть на это дело и перейти в принципе на другую платформу? Всякие там NAS-ы, тот же NetApp у нас есть и производит приятное впечатление...