Восстановление сервера после аварии

«Умерший» Dell, восстановление, настройка SQL Server 2008, 2012, 2014, 2016, 2019 для «1С:Предприятие 8.3» и другие работы по устранению последствий аварии. Рассказываем, как за пять часов спасли компанию заказчика от крупных неприятностей, зачем нужен подменный фонд и резервное копирование.

Восстановление аварийного сервера

С чем пришел клиент — с сервером Dell

Обычный рабочий день подходил к концу, когда у нашего нового клиента, с которым мы недавно подписали договор на комплексное техническое обслуживание, неожиданно «лег» основной сервер. Dell отключился и больше не проявлял признаков жизни. Авария полностью парализовала деятельность компании, поскольку  все было завязано на сервер. Здесь находилась инфраструктура, «1С:Предприятие 8.3», все данные и софт:

  • Novenco Climaster Designer;
  • LDM Ventily;
  • VASP;
  • Novema|Novagg;
  • Teploov;
  • VSVCAD;
  • Фанкойлы X_0;
  • MasterUnits 6.5;
  • Wincaps;
  • Autodesk;
  • DWG TrueView 2013.

А главное – там же хранились бэкапы корпоративной CRM и файловой системы.

Был потерян доступ к программам, сервисам и приложениям, без которых менеджеры просто не могли выполнять свою работу и обрабатывать заявки. Офис простаивал, бухгалтерские, финансовые документы, отчетность оказались недоступны (возможно, и полностью утрачены), корпоративные коммуникации нарушены. Нужно было незамедлительно найти выход из положения, иначе компании грозили большие финансовые убытки, репутационный ущерб и потеря клиентов.

Перед нами стояли следующие задачи:

  • выявление причин выхода из строя серверного оборудования;
  • возвращение сервера в рабочее состояние или поиск «железа» на замену, развертывание Raid, MS SQL Server и всей инфраструктуры, запуск сервисов;
  • виртуализация;
  • по возможности – извлечение резервных копий с дисков и восстановление из бэкапа базы данных 1С;
  • запуск и настройка других критически важных программ и приложений;
  • последующая установка всего остального софта, необходимого для нормального функционирования предприятия.

Проблемы клиента с аварийным сервером

Аварийно-спасательные мероприятия

Состояние сетевого и серверного оборудования компаний, которые находятся у нас на обслуживании, мы отслеживаем через систему удаленного мониторинга Zabbix. Как только обнаруживается проблема, соответствующее событие отражается в системе. Так было и в этом случае. “Заббикс” показал инцидент, и мы сразу связались с клиентом. Он подтвердил, что сервисы перестали работать. Поскольку дистанционно решить вопрос возможности не было, мы оперативно организовали выезд на объект и начали разбираться в том, что произошло. Попытки запустить сервер показали, что стартовать он не собирается. Стали тестировать, чтобы определить причину.

Надо сказать, что сервер клиента имел дублированный источник питания – модули подключались параллельно. Это должно было обеспечить бесперебойность работы оборудования: при отказе одного блока вся нагрузка переключалась на другой.

Однако в данном случае нас ожидал «сюрприз», который мы никак не могли предвидеть, – отказали сразу оба блока. За все годы IT-практики с таким сценарием мы столкнулись впервые.

Драматизм ситуации заключался в том, что авария произошла вечером в середине рабочей недели. Времени на восстановление инфраструктуры и критических сервисов было в обрез.

Когда мы поняли, что сервер не стартует, надо было выяснить, сохранилась ли информация на дисках. Если они тоже «умерли», положение компании становится катастрофическим: бэкапы не достать (они находятся на вышедшем из строя сервере), восстановить данные невозможно, бизнес-процессы на паузе, система не функционирует. Сюда же – претензии со стороны налоговой, дополнительные затраты на восстановление бухгалтерской и управленческой документации, нарушение договорных обязательств. В общем, полный аут, за неделю простоя могли потерять от 1 млн до 1,5 млн рублей.

Скрещиваем пальцы и начинаем проверку. Отдельно подключаем диски через контроллер к ноутбуку. К общей радости, диски оказались «живыми» и успешно запустились. Значит, у нас есть шанс вытащить резервные копии корпоративной базы 1С и рабочих файлов, чтобы затем восстановить все это на функционирующем сервере.

Если бы заказчик заранее позаботился о подменном фонде и резервном копировании, например в облако, то не попал бы в такое рискованное положение. А проблема, возникшая из-за неисправности жизненно важного оборудования, решилась бы с меньшими потерями денег и времени.

Поиск решений

Поскольку без блоков питания сервер не запустить, мы устроили мозговой штурм и начали искать способы выхода из ситуации. Очевидное решение – покупка нового физического сервера. Однако это не вариант, поскольку в таком случае весь процесс восстановления жизнедеятельности предприятия займет от нескольких дней до недель: пока закупят, привезут, пока мы установим, настроим. Столько времени компания простаивать не может, каждый час вынужденного бездействия приводит к существенным убыткам.

Думаем дальше и приходим к выводу, что проще всего найти сервер на замену. Но где его взять быстро? Предлагаем использовать подменный фонд из нашего офиса –  временно поставить его и развернуть ключевые сервисы, прежде всего SQL и базы данных для 1С 8 3. Заказчик дает добро, и на следующий день мы возвращаемся на объект со своим оборудованием и начинаем разворачивать необходимую инфраструктуру.

Но вздыхать с облегчением пока рано: передать нашу машину в постоянное пользование мы не можем. К тому же по характеристикам оборудование компании не подходит – недостаточно мощностей для выполнения рабочих задач. Объясняем клиенту, он соглашается, что решение это временное и все-таки покупать новый сервер придется. Подбираем актуальный, подходящий по параметрам, его срочно закупают, и через 5 дней привозят (быстрее можно было взять только б/у, но такой вариант не годился). Согласовываем мероприятия по настройке и уже спокойно, без спешки готовим оборудование к работе.

Развертывание и настройка сервера SQL для 1С

С нуля развернули на новом физическом сервере инфраструктуру, в первую очередь дисковую подсистему и гипервизор, начали настраивать виртуальные машины и ставить на них сервисы. Сначала подготовились к установке и запуску критических программных продуктов, таких как СУБД MS SQL Server 2008, 2012, 2014, 2016, 2019, базы данных 1C 8.3 и т. д. Затем постепенно перенесли менее значимые приложения.

Вот что сделали в рамках подготовки нового физического сервера и установки серверного программного обеспечения (ПО):

  • настроили Raid-массив;
  • установили VMware ESXi (гипервизор, позволяет разворачивать решения для виртуализации);
  • провели миграцию с физического сервера на виртуальную машину с Windows Server 2012 (аналогичные работы можно провести с версиями 2008, 2016, 2019, 2022);
  • запустили серверное оборудование и сервисы;
  • настроили FireWall;
  • выполнили настройку правил доступов на IPMI (интерфейс для удаленного подключения, мониторинга и управления сервером);
  • проверили на работоспособность VPN.

Развертывание и настройка сервера SQL для 1С

Восстановление базы 1С из резервной копии и настройка обслуживания SQL

Поскольку нам повезло и диски на «упавшем» Dell оказались «живыми», мы вытащили из них бэкапы и смогли перезалить базы 1С на новый сервер, выполнив перед этим:

  • проверку источников бесперебойного питания;
  • монтаж дисков от старого Dell в новый физический сервер;
  • подготовку виртуальной машины для установки SQL;
  • развертывание ролей (SQL, сервера приложений для 1С);
  • настройку баз данных и регламентных операций для MS SQL Server 2008 (аналогично выполняется и для версий 2012, 2014, 2016, 2017, 2019, 2022) на уровне СУБД (планы обслуживания, мониторинг).

После настройки серверного ПО, СУБД MS SQL Server, восстановления работоспособности корпоративной CRM и всех необходимых сервисов, смонтировали оборудование в серверную стойку. В процессе монтажа обнаружили, что шкаф проблемный и в будущем может начать нагреваться. Чтобы этого не происходило, рекомендовали заказчику установить вентиляцию или произвести замену телекоммуникационного шкафа на современный, оснащенный хорошей вентиляцией и достаточно вместительный для свободного размещения имеющегося сетевого и серверного оборудования.

Настройка резервного копирования

Пока настраивали новую машину, параллельно пытались реанимировать старый сервер. Спешки уже не было, так что потихоньку его тоже восстановили и он пошел под резервные копии. Помимо подготовки выделенного сервера под бэкапы, по завершении настройки СУБД MS SQL Server и 1С мы настроили план обслуживания SQL для резервного копирования баз данных штатными средствами. Таким образом, создали двойную защиту от потери информации: резервные копии отправлялись на тот же сервер, где находится SQL, и на отдельный сервер.

Как мы реанимировали б/у сервер под бэкапы:

  • установили новые диски большого объема под резервное копирование, с учетом нужной глубины хранения копий и частоты их создания;
  • смонтировали сервер в стойку;
  • развернули виртуализацию и серверы;
  • выполнили настройку процедуры создания полных резервных копий для серверов и отдельно — для баз SQL и файлов;
  • дополнительно настроили дублирование копий на внешний жесткий диск.

Какие сложности были в кейсе

Задачи, которые мы решали в рамках этого кейса, были в основном стандартными, с какими-то особыми сложностями мы не столкнулись, за исключением того, что сервер «умер» в середине рабочей недели и восстановить все необходимо было максимально быстро. Поэтому «спасательные работы» пришлось проводить в экстренном порядке во внерабочее время: в день аварии – до поздней ночи, а на следующий день – с раннего утра и до победного конца.

Небольшая загвоздка вышла, когда встал вопрос о восстановлении лицензий для 1С. Чтобы активировать корпоративную CRM, нужны ПИН-коды, а их в «зоне видимости» не оказалось. Пришлось еще некоторое время потратить на поиски лицензий. Возьмите на заметку: хранить желтые бланки с ПИН-кодами лучше в доступном месте, где их легко найти.

От as-is к to-be – итоги операции по устранению последствий аварии

Из любого негативного события можно извлечь пользу. В нашем случае неисправность сервера позволила клиенту не только обновить оборудование, но и увидеть слабые места в системе защиты данных, из-за которых деятельность компании подвергалась серьезной угрозе. Ну а мы помогли выявить и исправить технические уязвимости, напрямую влияющие на бизнес-процессы, минимизировать риски и прийти от as-is к to-be.

Какие еще профиты получил клиент:

  • стоит новое «железо» с подходящими для выполнения рабочих задач характеристиками;
  • обновлены операционные системы;
  • больше нет устаревших документов и лишних программ, которые давно не нужны и только занимают место на дисках;
  • приведены в порядок учетные записи пользователей;
  • реанимирован старый физический сервер, который теперь можно использовать в качестве подменного фонда и для хранения бэкапов на случай повторения аварийной ситуации с основным серверным оборудованием;
  • сохранен доступ к жизненно важной для предприятия коммерческой информации и ПО, которые могли быть утрачены.

Какую выгоду извлек клиент из аварии

Перерыв в работе серверов (а следовательно, и в работе самой компании) составил около пяти рабочих часов плюс еще примерно два часа при миграции. Общее время, затраченное на восстановление, – немногим более 80 часов (часть процедур выполнялась дистанционно).

Участники «спасательной операции»:

  • системный администратор;
  • руководитель технической поддержки;
  • технический директор.

Выводы из случившегося и рекомендации

Аварийные ситуации спрогнозировать невозможно, однако можно свести к минимуму риски, связанные с авариями. Нашему заказчику повезло: мы смогли вытащить информацию с дисков и восстановить данные 1С – главной CRM, на которую завязано функционирование компании. Но все могло оказаться гораздо хуже, и тогда информация была бы полностью потеряна. Чем подобные ситуации грозят бизнесу, объяснять не нужно.

Делайте вывод из чужих ошибок и не жалейте средств на резервное копирование! Пусть оно будет – на отдельном оборудовании или в облаке. Когда возникнет форс-мажор (как показывает практика, он рано или поздно случается), бэкап вас спасет – данные останутся целыми и их можно будет легко и быстро восстановить.

Реанимируя «умершие» физические серверы, проводя восстановление ПО после вирусов, и вообще при любых технических работах, мы всегда закладываем в план мероприятий настройку автоматического создания резервных копий.

Второй момент, который может защитить от потерь, – наличие подменного фонда. Чтобы на рабочие процессы не влиял выход из строя основного серверного оборудования, обязательно запаситесь резервными устройствами.

Бэкапирование плюс подменный фонд повысят степень защиты от сбоев и обеспечат сохранность критически важного софта и данных при поломке оборудования.

IT-сопровождение от компании “Интегрус”

Начало партнерства в бизнесе – непростое время для обеих сторон. Первые два-три месяца определяют, насколько длительным и успешным будет сотрудничество в дальнейшем. А любые нестандартные ситуации, тем более форс-мажор, в этот период становятся серьезным испытанием, которое может заложить прочный фундамент для дальнейших отношений или, наоборот, покажет, что партнерам не по пути.

Именно такой проверкой партнерства на прочность стала нештатная ситуация, в которой оказался новый клиент компании «Интегрус». Так сложилось, что у нас не было возможности провести комплексную техническую диагностику. Прерывание рабочего процесса грозит бизнесу огромными потерями, поэтому мы не могли запланировать физическую остановку оборудования. Даунтайм произошел непредвиденно и не оставил нам выбора. Пришлось устранять последствия инцидента в условиях жесткого ограничения по времени.

Справившись с проблемой в кратчайшие сроки, мы еще раз доказали на практике, что наша команда всегда готова к любым неожиданностям и в экстренных случаях действует быстро, четко и по-снайперски точно. Обращайтесь к нам за IT-поддержкой!

Ответы на FAQ

Что делать, если сервер недоступен (не отвечает)? Основные причины выхода из строя

Остановка сервера может быть вызвана физическим сбоем. Поэтому прежде всего необходимо проверить:

  • кабели и блоки питания;
  • диски;
  • систему охлаждения;
  • ethernet-кабель;
  • сетевое оборудование.

Если проблема связана с программным сбоем, нужно убедиться в том, что:

  • лицензии установлены и активированы;
  • на сервере достаточно свободного дискового пространства и хватает выделенных ресурсов (возможно, превышены лимиты);
  • брандмауэр не блокирует интернет-соединения.

Сломался SQL что делать? Алгоритм проверки при сбое 

Проблема физического характера? Проверьте:

  • кабели и блоки питания;
  • диски;
  • систему охлаждения;
  • ethernet-кабель;
  • сетевое оборудование.

Исключив физические причины, выявляем, где произошел программный сбой. Для этого проверяем следующие пункты:

  • доступность сервера;
  • запущены ли нужные для работы SQL службы;
  • есть ли доступ к базам данных;
  • наличие свободного дискового пространства для файлов .mdf и .log;
  • настройки брандмауэра.

Подробнее об ошибках SQL Server читайте здесь.

Сломался Exchange как исправить?

Если перестал работать Exchange Server 2016/2019, и есть подозрения, что причина кроется в физической инфраструктуре, в первую очередь необходимо удостовериться в целостности и надежном присоединении кабелей, а также в работоспособности блоков питания. Затем проверяем состояние жестких дисков, систему охлаждения, ethernet-кабель и сетевое оборудование.

Чтобы исключить причины программного характера, важно выполнить проверку: запущенных служб, сертификатов, доступности почты через OWA, мобильных приложений, установки последних обновлений, а также посмотреть логи.

Сломалась 1С как восстановить работу? 

Что делать, когда перестала работать файловая база «1С:Предприятие»:

  • проверить доступность базы по сети / по пути, доступы к файлам 1С, наличие установленной лицензии;
  • провести тестирование и исправление ошибок;
  • сделать восстановление из бэкапа.

Если не работает SQL-база 1С, прежде всего проверьте доступность сервера и убедитесь, что нужные службы запущены. Затем проверьте наличие свободного дискового пространства для .mdf и .log, настройки брандмауэра, сервер приложений и лицензии 1С.

Не удается самостоятельно восстановить работоспособность 1С? Обращайтесь к нам за технической поддержкой.