Инструменты пользователя

Инструменты сайта


windows:server:2022:dpm:2019:storage_pool:lost_disk

Добавление пропавшего диска в пул DPM

Ситуация следующая. Банальная. В массиве RAID10 вышел из строя один диск. Моментально подхватился запасной и массив успешно перестроился. Мертвый диск перестал видеться в системе.

Все бы хорошо, но!.. После перезагрузки он начал видеться, зато перестала загружаться система вовсе! – такое бывает, когда на контроллере есть совсем уже плохой диск и в этом случае, если в UEFI нет возможности отключить канал программно, помогает только физическое отключение диска, однако, сразу добраться до сервера не было возможности и на ночь я его просто выключил.

Утром решил зайти в UEFI дабы уточнить, на каком конкретно порту висит больной диск, и внезапно оказалось, что диск в общем-то жив и сейчас пребывает в состоянии потерянного… Затем он прекрасно сбросился в состояние «Non RAID»1), а система вполне бодро запустилась…

Что это был за морок пока не понятно, ибо пока нареканий на диск нет – у него и SMART в норме, он и форматируется и вообще работает… и даже Victoria HDD очень бодро и без нареканий его сканирует… Хмм?

Проблема

Однако, в связи со всеми этими пертурбациями, этот диск пропал из пула носителей Data Protection Manager 2019. Точнее не совсем пропал – строчка в оснастке DPM на закладке «Управление» в разделе «Дисковый накопитель» была, но все цифровые колонки были по нулям, а на закладке «Наблюдение» куча критических предупреждений «Отсутствует том» с текстом «Данные для восстановления <НАЗВАНИЕ> на <НАЗВАНИЕ> в группе защиты <НАЗВАНИЕ> находятся в томе, который не удалось обнаружить. Все последующие действия по защите, связанные с источником данных <НАЗВАНИЕ>, будут завершаться ошибкой до тех пор, пока этот том не вернется в оперативный режим или реплика не будет создана повторно. (ID: 3101)»2) и несколько «Том пула хранилища отсутствует» с «Том пула хранилища DPM <БУКВА> отсутствует. (Идентификатор 33518)». Также эти ошибки дублировались в оснастке «Просмотр событий» с кодом события «3101» от источника «DPM-EM».

В проводнике же этот раздел выглядел, в одном случае, как обычно, но с другой буквой, а в другом, вовсе отсутствовал. Со старой же буквой висел некий недоступный раздел.

В оснастке же «Управление дисками» отображался виновник событий, по объему равный всему массиву RAID10, чего, понятно, быть не могло, ибо каждый диск, это 1/2 от общего объема, с RAW-разделом, который как раз и имел букву старого. В случае, если в проводнике нет «рабочего» массива, тут, в оснастке, он будет отображаться в режиме «Вне сети».

Вот тут-то собака, вероятно, и порылась! Не могу гарантировать, но предположу, что в системе этот диск оказался со старым GUID, а восстановленный массив этот GUID поменял… или наоборот… или как-то так… но, не важно! Главное, что проблема крылась именно в появлении в системе вывалившегося ранее из массива диске. Если бы он не ожил или если бы я его еще в BIOS сразу же пометил, как «запасной», и в системе он бы не отразился, то, скорее все, проблемы можно было бы избежать. Но, как получилось.

Пошел гуглить.

  • Совет от Microsoft был краток и бесполезен, ибо нажатие кнопки «Повторное сканирование», это и так было первым, что я сделал. 8-)
  • Танцы с поиском GUID диска и заменой его через diskpart эффекта не принесли.

В общем, я уже устал искать, а Интернет все не давал хоть сколько-нибудь полезную подсказу, хотя надежда оставалась, ибо сами по себе данные и их структура остались же целыми и не тронутыми! Осталось придумать, как…

Изыскания

Для начала я удалил RAW-раздел выпавшего диска, через diskpart очистил всю информацию на нем и отформатировал в NTFS, указав самую дальнюю букву. После этих стандартных манипуляций он приобрел нормальный вид, как и должен выглядеть диск на 2 терабайта3). Вернул разделу с данными старую букву.

Потом, для полноты картины, добавил этот пустой диск в пул дисков DPM с меткой «test» и от балды, ибо это совершенно не важно, т.к. необходимо, чтобы процесс просто запустился, назначил на него задание защиты. Наконец запустил SQL Server Management Studio, открыл базу данных «DPMDB_<НАЗВАНИЕ>» и углубился в изучение таблиц!

Список дисков для пула я обнаружил в таблице «tbl_STM_Volume»4), а соответствия томов реплик с их хранилищами в таблице «tbl_PRM_ReplicaVolume».

Решение

Далее оказалось все максимально просто:

  1. закрываем оснастку DPM, останавливаем службы DPM и DPM AccessManager выполнив команду net stop MSDPM & net stop DPMAMService5);
  2. открываем в SQL Server Management Studio (SSMS) на чтение6) таблицу «tbl_STM_Volume» и копируем все содержимое в блокнот;
  3. далее действуем в зависимости от того, производились ли какие-то действия, к примеру, описанные в разделе выше:
    1. если нет, то правильный «StorageId» скорее всего будет указан в строке со значением столбца «Status» равным «1»7) таблицы «tbl_STM_Volume»;
    2. в противном случае открываем на чтение и копируем значение «StorageId» из таблицы «tbl_PRM_ReplicaVolume»8);
  4. открываем для изменения9) таблицу «tbl_STM_Volume» и удаляем из нее строку, у которой «Status» равен «1»;
  5. в оставшейся строке заменяем данные из блокнота в столбцах «StorageId», «Tag»10) и «Name»11), беря их из строки у которой «Status» равен «1»;
  6. сохраняем, закрываем и перезагружаемся!

После этих манипуляций диск отобразился в пуле носителей DPM, на закладке «Восстановление» все вернулось на места, а задания начали успешно выполняться. =)


Дисклеймер

  • Использование материалов данной базы знаний разрешено на условиях лицензии, указанной внизу каждой страницы! При использовании материалов активная гиперссылка на соответствующую страницу данной базы знаний обязательна!
  • Автор не несет и не может нести какую либо ответственность за последствия использования материалов, размещенных в данной базе знаний. Все материалы предоставляются по принципу «как есть». Используйте их исключительно на свой страх и риск.
  • Все высказывания, мысли или идеи автора, размещенные в материалах данной базе знаний, являются исключительно его личным субъективным мнением и могут не совпадать с мнением читателей!
  • При размещении ссылок в данной базе знаний на интернет-страницы третьих лиц автор не несет ответственности за их техническую функциональность (особенно отсутствие вирусов) и содержание! При обнаружении таких ссылок, можно и желательно сообщить о них в комментариях к соответствующей статье.
1)
Или как-то созвучно.
2)
В оригинале это должно звучать так «Recovery data for <DatasourceType> <DatasourceName> on <ServerName> in protection group <ProtectedGroup> resides on a volume that cannot be detected. All subsequent protection activities relating to <DatasourceName> will fail until this volume is brought back online or the replica is re-created».
3)
В процессе, возможно, потребуется перезагрузиться.
4)
Возможно, кстати, перед изучением этой таблицы неплохо было бы нажать «Повторное сканирование» в DPM…
5)
И проверяем, чтобы они были действительно остановлены, ибо имеет оно привычку внезапно запускаться…
6)
ПКМ на названии таблицы и «Выбрать первые 1000 строк».
7)
Это, собственно, старый добавленный в DPM том.
8)
Если ранее в пуле был только один диск и вы добавляли тестовый диск, то там во всех строках, кроме одной, будет одно и тоже значение, в противном случае – дедуктивный метод вам в руки!
9)
ПКМ на названии таблицы и «Изменить первые 200 строк».
10)
У меня это было «511» и я понятия не имею, что это такое и почему именно «511» и какое оно будет в других условиях!
11)
Это «Понятное имя» старого тома в пуле носителей.

Обсуждение

Ваш комментарий:
T I R E M Z L Y X K E M J D P U
 
Последнее изменение: 2025/02/24 19:27 — Николай Солошин