Инструменты пользователя

Инструменты сайта


windows:server:2022:dpm:2019:storage_pool:lost_disk

Добавление пропавшего диска в пул DPM

Ситуация следующая. Банальная. В массиве RAID10 вышел из строя один диск. Моментально подхватился запасной и массив успешно перестроился. Мертвый диск перестал видеться в системе.

Все бы хорошо, но!.. После перезагрузки он начал видеться, зато перестала загружаться система вовсе! – такое бывает, когда на контроллере есть совсем уже плохой диск и в этом случае, если в UEFI нет возможности отключить канал программно, помогает только физическое отключение диска, однако, сразу добраться до сервера не было возможности и на ночь я его просто выключил.

Утром решил зайти в UEFI дабы уточнить, на каком конкретно порту висит больной диск, и внезапно оказалось, что диск в общем-то жив и сейчас пребывает в состоянии потерянного… Затем он прекрасно сбросился в состояние «Non RAID»1), а система вполне бодро запустилась…

Что это был за морок пока не понятно, ибо пока нареканий на диск нет – у него и SMART в норме, он и форматируется и вообще работает… и даже Victoria HDD очень бодро и без нареканий его сканирует… Хмм?

Проблема

Однако, в связи со всеми этими пертурбациями, этот диск пропал из пула носителей Data Protection Manager 2019. Точнее не совсем пропал – строчка в оснастке DPM на закладке «Управление» в разделе «Дисковый накопитель» была, но все цифровые колонки были по нулям, а на закладке «Наблюдение» куча критических предупреждений «Отсутствует том» с текстом «Данные для восстановления <НАЗВАНИЕ> на <НАЗВАНИЕ> в группе защиты <НАЗВАНИЕ> находятся в томе, который не удалось обнаружить. Все последующие действия по защите, связанные с источником данных <НАЗВАНИЕ>, будут завершаться ошибкой до тех пор, пока этот том не вернется в оперативный режим или реплика не будет создана повторно. (ID: 3101)»2) и несколько «Том пула хранилища отсутствует» с «Том пула хранилища DPM <БУКВА> отсутствует. (Идентификатор 33518)». Также эти ошибки дублировались в оснастке «Просмотр событий» с кодом события «3101» от источника «DPM-EM».

В проводнике же этот раздел выглядел, как обычно, но с другой буквой. Со старой же буквой висел некий недоступный раздел.

А вот в оснастке «Управление дисками» было уже красочно и необычно.

Там отображался виновник событий, по объему равный всему массиву RAID10, чего, понятно, быть не могло, ибо каждый диск, это 1/2 от общего объема, с RAW-разделом, который как раз и имел букву старого.

Вот тут-то собака, вероятно, и порылась! Не могу гарантировать, но предположу, что в системе этот диск оказался со старым GUID, а восстановленный массив этот GUID поменял… или наоборот… или как-то так… но, не важно! Главное, что проблема крылась именно в появлении в системе вывалившегося ранее из массива диске. Если бы он не ожил или если бы я его еще в BIOS сразу же пометил, как «запасной», и в системе он бы не отразился, то, скорее все, проблемы можно было бы избежать. Но, как получилось.

Пошел гуглить.

  • Совет от Microsoft был краток и бесполезен, ибо нажатие кнопки «Повторное сканирование», это и так было первым, что я сделал. 8-)
  • Танцы с поиском GUID диска и заменой его через diskpart эффекта не принесли.

В общем, я уже устал искать, а Интернет все не давал хоть сколько-нибудь полезную подсказу, хотя надежда оставалась, ибо сами по себе данные и их структура остались же целыми и не тронутыми! Осталось придумать, как…

Решение

Для начала я удалил RAW-раздел выпавшего диска, через diskpart очистил всю информацию на нем и отформатировал в NTFS, указав самую дальнюю букву. После этих стандартных манипуляций он приобрел нормальный вид, как и должен выглядеть диск на 2 терабайта3). Вернул разделу с данными старую букву.

Потом, для полноты картины, добавил этот пустой диск в пул дисков DPM с меткой «test» и от балды, ибо это совершенно не важно, т.к. необходимо, чтобы процесс просто запустился, назначил на него задание защиты. Наконец запустил SQL Server Management Studio, открыл базу данных «DPMDB_<НАЗВАНИЕ>» и углубился в изучение таблиц!

Список дисков для пула я обнаружил в таблице «tbl_STM_Volume»4), а соответствия томов реплик с их хранилищами в таблице «tbl_PRM_ReplicaVolume».

Далее оказалось все максимально просто:

  1. закрываем оснастку DPM, останавливаем службу net stop msdpm5);
  2. открываем на чтение6) и копируем все содержимое таблицы «tbl_STM_Volume» в блокнот;
  3. открываем на чтение и копируем значение «StorageId» из таблицы «tbl_PRM_ReplicaVolume»7);
  4. открываем для изменения8) таблицу «tbl_STM_Volume» и удаляем из нее все лишние строки9);
  5. заменяем в этой таблице в соответствующей строке значение «StorageId»;
  6. устанавливаем значение «Tag» таким же, как для тестового диска10);
  7. проверяем, чтобы поля «Name» и «AccessPath» соответствовали историческим;
  8. сохраняем, закрываем и перезагружаемся!

После этих манипуляций диск отобразился в пуле носителей DPM, на закладке «Восстановление» все вернулось на места, а задания начали успешно выполняться. =)


Дисклеймер

  • Использование материалов данной базы знаний разрешено на условиях лицензии, указанной внизу каждой страницы! При использовании материалов активная гиперссылка на соответствующую страницу данной базы знаний обязательна!
  • Автор не несет и не может нести какую либо ответственность за последствия использования материалов, размещенных в данной базе знаний. Все материалы предоставляются по принципу «как есть». Используйте их исключительно на свой страх и риск.
  • Все высказывания, мысли или идеи автора, размещенные в материалах данной базе знаний, являются исключительно его личным субъективным мнением и могут не совпадать с мнением читателей!
  • При размещении ссылок в данной базе знаний на интернет-страницы третьих лиц автор не несет ответственности за их техническую функциональность (особенно отсутствие вирусов) и содержание! При обнаружении таких ссылок, можно и желательно сообщить о них в комментариях к соответствующей статье.
1)
Или как-то созвучно.
2)
В оригинале это должно звучать так «Recovery data for <DatasourceType> <DatasourceName> on <ServerName> in protection group <ProtectedGroup> resides on a volume that cannot be detected. All subsequent protection activities relating to <DatasourceName> will fail until this volume is brought back online or the replica is re-created».
3)
В процессе, возможно, потребуется перезагрузиться.
4)
Возможно, кстати, перед изучением этой таблицы неплохо было бы нажать «Повторное сканирование» в DPM…
5)
И проверяем, чтобы она была действительно остановлена, ибо имеет она привычку внезапно запускаться…
6)
ПКМ на названии таблицы и «Выбрать первые 1000 строк».
7)
Если ранее в пуле был только один диск и вы добавляли тестовый диск, то там во всех строках, кроме одной, будет одно и тоже значение, в противном случае – дедуктивный метод вам в руки!
8)
ПКМ на названии таблицы и «Изменить первые 200 строк».
9)
Если добавляли тестовый диск и в пуле сейчас один рабочий диск, то строк должно быть всего две – одна с тестовым диском, вторая с пропавшим.
10)
У меня это было «511» и я понятия не имею, что это такое и почему именно «511» и какое оно будет в других условиях!

Обсуждение

Ваш комментарий:
M A T J L P H Z U O L T Y L Z A
 
Последнее изменение: 2025/01/13 22:38 — Николай Солошин