Полезное

Superdoctor 5 для Supermicro: мониторинг и управление сервером

Вадим Заплетин 3 мин чтения
Superdoctor 5 для Supermicro: мониторинг и управление сервером

Superdoctor 5 — утилита для мониторинга и диагностики серверов Supermicro. Программа собирает данные с аппаратных датчиков: температуру процессоров, скорость вентиляторов, напряжение на линиях питания, состояние дисков, событийный журнал IPMI. Работает в Windows и Linux, подключается к локальным и удалённым серверам через IPMI.

В этом гайде разберём, где скачать Superdoctor 5, как установить и настроить мониторинг, какие данные отслеживать и как быстро находить проблемы в железе.

Для кого нужен Superdoctor 5

Утилиту используют системные администраторы и инженеры, которые обслуживают парки серверов Supermicro. Superdoctor 5 решает несколько задач:

  • Контроль температуры. Видите перегрев процессора или чипсета до того, как сервер уйдёт в троттлинг или аварийную перезагрузку.
  • Мониторинг вентиляторов. Программа показывает обороты каждого кулера. Если один из них замедлился или остановился, вы получите уведомление.
  • Проверка напряжения. Superdoctor отслеживает линии питания +12V, +5V, +3.3V. Просадки напряжения часто указывают на проблемы с блоком питания или материнской платой.
  • Состояние дисков. Утилита читает SMART-атрибуты и показывает, какие накопители работают стабильно, а какие приближаются к отказу.
  • Журнал событий IPMI. История критических событий — перегревы, отказы памяти, сбои питания — хранится в журнале SEL. Superdoctor выводит его в удобном формате.

Если вы обслуживаете несколько серверов, Superdoctor позволяет мониторить их из одной консоли. Это удобнее, чем подключаться к каждому BMC отдельно через веб-интерфейс.

Где скачать Superdoctor 5 для Supermicro

Superdoctor 5 доступен на официальном сайте Supermicro в разделе утилит. Процесс скачивания:

Скачивание Superdoctor 5

  1. Откройте страницу supermicro.com и перейдите в раздел Support → Downloads → Management Software.
  2. Найдите Superdoctor 5 в списке утилит.
  3. Выберите версию для вашей ОС: Windows (установщик .exe) или Linux (пакеты .rpm и .deb для разных дистрибутивов).
  4. Скачайте файл. Для Windows это архив с установщиком, для Linux — пакет под вашу систему (CentOS, Ubuntu, Debian).

На момент написания статьи актуальная версия — Superdoctor 5.3. Она поддерживает все современные платформы Supermicro на процессорах Intel Xeon Scalable и AMD EPYC.

Важно: для работы Superdoctor 5 нужен активный IPMI-интерфейс на сервере. Убедитесь, что BMC настроен и доступен по сети, либо установите утилиту прямо на сервер для локального мониторинга.

Установка Superdoctor 5 в Windows

Процесс установки в Windows простой. Распакуйте скачанный архив и запустите установщик:

Установка в Windows

  1. Запустите файл Superdoctor5_Setup.exe от имени администратора.
  2. Примите лицензионное соглашение и выберите папку установки (по умолчанию C:\Program Files\Supermicro\Superdoctor5).
  3. Установщик предложит установить драйвер IPMI. Согласитесь — без него утилита не сможет читать данные с локального BMC.
  4. Дождитесь завершения установки и запустите Superdoctor 5 через ярлык на рабочем столе или из меню «Пуск».

При первом запуске программа попросит указать, какие серверы мониторить: локальный (на котором установлена утилита) или удалённые по IPMI. Если вы ставите Superdoctor на рабочую станцию для управления парком серверов, выбирайте удалённый режим.

Установка Superdoctor 5 в Linux

В Linux установка зависит от дистрибутива. Supermicro предоставляет пакеты для RPM-based и DEB-based систем.

Установка в CentOS / RHEL / Rocky Linux

sudo rpm -ivh superdoctor5-5.3-1.x86_64.rpm

После установки запустите службу:

sudo systemctl start superdoctor5
sudo systemctl enable superdoctor5

Установка в Ubuntu / Debian

sudo dpkg -i superdoctor5_5.3_amd64.deb
sudo apt-get install -f

Команда apt-get install -f доустановит зависимости, если их не хватает.

Запуск службы:

sudo systemctl start superdoctor5
sudo systemctl enable superdoctor5

Веб-интерфейс Superdoctor 5 в Linux доступен по адресу http://<IP-сервера>:5900. Логин по умолчанию — admin, пароль — admin (смените после первого входа).

Настройка мониторинга локального сервера

Если Superdoctor 5 установлен непосредственно на сервер Supermicro, программа автоматически обнаружит локальное железо через IPMI. Откройте утилиту и проверьте, что все датчики отображаются:

  • CPU Temperature — температура процессоров (обычно два датчика для двухпроцессорных серверов).
  • System Temperature — температура на материнской плате (ambient, chipset).
  • Fan Speed — обороты вентиляторов (FAN1, FAN2, FAN3 и т.д.).
  • Voltage — напряжение на линиях питания (+12V, +5V, +3.3V, Vcore).
  • Power Supply — состояние блоков питания (для серверов с резервированием).

Если какой-то датчик не отображается, убедитесь, что IPMI включён в BIOS (раздел IPMI Configuration → BMC LAN Configuration → Enable IPMI).

Добавление удалённых серверов через IPMI

Superdoctor 5 может мониторить серверы по сети. Это удобно, если у вас несколько машин в стойке и вы хотите видеть их состояние из одной консоли.

Добавление удалённого сервера

  1. Откройте Superdoctor 5 и перейдите в раздел Settings → Add Server.
  2. Укажите IP-адрес IPMI-интерфейса удалённого сервера.
  3. Введите логин и пароль BMC (по умолчанию ADMIN / ADMIN, но на продакшене должен быть изменён).
  4. Нажмите Connect. Через несколько секунд утилита опросит сервер и отобразит данные с датчиков.

Если подключение не устанавливается, проверьте:

  • Доступен ли IPMI-интерфейс по сети (ping, telnet на порт 623 для IPMI).
  • Не блокирует ли файрвол UDP-трафик на порт 623.
  • Правильные ли логин и пароль для BMC.

Для управления несколькими серверами удобно использовать серверные платформы Supermicro с унифицированной прошивкой IPMI — это упрощает централизованный мониторинг.

Мониторинг температуры и порогов перегрева

Superdoctor 5 показывает текущую температуру и предупреждает, если она приближается к критическим значениям. В разделе Sensors → Temperature отображаются все датчики:

Датчик Норма (°C) Предупреждение (°C) Критично (°C)
CPU1 / CPU2 40–70 75–85 90+
System (Ambient) 25–35 40–45 50+
Chipset 50–65 70–75 80+
Memory (DIMM) 40–60 65–70 75+

Если температура превышает порог предупреждения, Superdoctor подсвечивает датчик жёлтым. При критичных значениях — красным, и может отправить уведомление по email или SNMP-trap (если настроено).

Рекомендация: если процессоры греются выше 75 °C в штатном режиме, проверьте систему охлаждения. Возможно, забились рёбра радиатора или вентиляторы работают на пониженных оборотах. Для серверов с высокой нагрузкой стоит использовать дополнительное охлаждение.

Контроль вентиляторов и политика управления

В разделе Sensors → Fan Speed отображаются обороты всех вентиляторов. Superdoctor показывает текущую скорость в RPM (оборотах в минуту) и процент от максимума.

Большинство серверов Supermicro используют автоматическую политику управления вентиляторами: BMC повышает обороты при росте температуры и снижает при её падении. Это режим Optimal (оптимальный). Есть ещё два режима:

  • Standard — средние обороты, баланс между охлаждением и шумом.
  • Full Speed — вентиляторы на максимуме. Используется при серьёзном перегреве или в дата-центрах, где шум не критичен.

Изменить политику можно в BIOS или через IPMI. Superdoctor 5 позволяет переключать режимы из интерфейса утилиты (раздел Settings → Fan Control).

Частая проблема: один из вентиляторов показывает 0 RPM или вращается заметно медленнее остальных. Это признак отказа кулера. Замените его — BMC может перевести остальные вентиляторы на полную мощность, что увеличит шум и энергопотребление.

Мониторинг напряжения и диагностика блоков питания

Superdoctor отслеживает напряжение на основных линиях питания. В разделе Sensors → Voltage показаны значения для:

  • +12V — основная линия питания процессоров, дисков, вентиляторов.
  • +5V — питание логики, некоторых периферийных устройств.
  • +3.3V — питание чипсета, оперативной памяти.
  • Vcore — напряжение ядра процессора (зависит от модели CPU).

Нормальные отклонения — не более ±5% от номинального значения. Если напряжение на +12V проседает до 11.4V и ниже, это указывает на проблемы с блоком питания или перегрузку линии.

Пример диагностики: Superdoctor показывает +12V = 11.2V при нагрузке. Сервер периодически уходит в перезагрузку. Скорее всего, блок питания не справляется с пиковым потреблением. Решение — замена БП на модель с большей мощностью или установка резервированного питания (redundant PSU).

Для серверов с двумя блоками питания Superdoctor показывает состояние каждого. Если один из БП вышел из строя, утилита подсветит его красным и отправит уведомление.

Мониторинг дисков и SMART-атрибуты

Superdoctor 5 читает SMART-данные с жёстких дисков и SSD, подключённых через SATA, SAS или NVMe. В разделе Storage → Disks отображаются:

  • Модель и серийный номер диска.
  • Температура (для дисков с поддержкой температурного датчика).
  • Статус SMART: Healthy (здоров), Warning (предупреждение), Failed (отказ).
  • Критичные атрибуты: Reallocated Sectors, Pending Sectors, Uncorrectable Errors.

Если диск показывает статус Warning, это сигнал к замене. Обычно предупреждение появляется при росте числа переназначенных секторов (Reallocated Sectors Count) или ошибок чтения.

Рекомендация: регулярно проверяйте SMART-статус дисков через Superdoctor. Это позволяет предотвратить потерю данных, заменив диск до полного отказа. Для критичных данных используйте RAID-массивы и держите под рукой запасные HDD или SSD.

Журнал событий SEL и диагностика сбоев

SEL (System Event Log) — журнал событий, который ведёт BMC. В нём фиксируются все критичные происшествия: перегревы, отказы памяти, сбои питания, перезагрузки. Superdoctor 5 выводит журнал в удобном формате в разделе Event Log.

Каждое событие содержит:

  • Временную метку (дата и время).
  • Тип события (Temperature, Voltage, Fan, Power, Memory и т.д.).
  • Статус (Asserted — событие произошло, Deasserted — событие завершено).
  • Описание (например, «CPU1 Temperature Upper Critical — going high»).

Пример использования: сервер неожиданно перезагрузился ночью. Открываете SEL в Superdoctor и видите событие «Power Unit — AC lost» за минуту до перезагрузки. Это означает кратковременное пропадание питания. Проверяете ИБП и обнаруживаете, что батарея разряжена и не выдержала просадку напряжения.

SEL имеет ограниченный размер (обычно 512–1024 записи). Когда журнал заполняется, старые события вытесняются новыми. Чтобы не потерять историю, периодически экспортируйте SEL в файл (Superdoctor позволяет сохранить журнал в .txt или .csv).

Настройка уведомлений и алертов

Superdoctor 5 умеет отправлять уведомления при критичных событиях. Поддерживаются три способа:

  • Email — письмо на указанный адрес.
  • SNMP Trap — отправка SNMP-сообщения в систему мониторинга (Zabbix, Nagios, PRTG).
  • Syslog — запись события в syslog-сервер.

Настройка email-уведомлений

  1. Откройте Settings → Alerts.
  2. Включите Enable Email Alerts.
  3. Укажите SMTP-сервер (например, smtp.gmail.com для Gmail или корпоративный SMTP).
  4. Введите порт (обычно 587 для TLS или 465 для SSL), логин и пароль отправителя.
  5. В поле Recipients укажите адреса получателей (можно несколько через запятую).
  6. Нажмите Test, чтобы проверить отправку тестового письма.

После настройки Superdoctor будет отправлять уведомления при срабатывании любого датчика (превышение температуры, падение оборотов вентилятора, отказ диска).

Для интеграции с системами мониторинга используйте SNMP Trap. Укажите IP-адрес SNMP-сервера и community string (обычно public или кастомное значение). Zabbix, Nagios и другие системы умеют принимать SNMP-ловушки от Superdoctor и генерировать алерты по своим правилам.

Частые ошибки при использовании Superdoctor 5

Ошибка «Unable to communicate with BMC»

Причины:

  • IPMI не включён в BIOS (раздел IPMI Configuration).
  • IPMI-интерфейс не настроен (отсутствует IP-адрес или неверная маска сети).
  • Файрвол блокирует UDP-трафик на порт 623.
  • Неверный логин или пароль BMC.

Решение: Зайдите в BIOS, включите IPMI, назначьте статический IP или настройте DHCP. Проверьте, что BMC доступен по сети (ping на IPMI-адрес). Убедитесь, что логин и пароль правильные.

Датчики не отображаются или показывают «N/A»

Возможные причины:

  • Датчик не поддерживается вашей моделью материнской платы.
  • Прошивка BMC устарела (обновите через Firmware Update в веб-интерфейсе IPMI).
  • Драйвер IPMI не установлен (для Windows) или модуль ядра не загружен (для Linux).

Решение: Обновите прошивку BMC до последней версии с сайта Supermicro. В Windows переустановите драйвер IPMI из комплекта Superdoctor 5. В Linux загрузите модули ядра:

sudo modprobe ipmi_si
sudo modprobe ipmi_devintf
sudo modprobe ipmi_msghandler

Superdoctor показывает некорректные значения температуры

Иногда утилита показывает явно неправильные данные: процессор -40 °C или +120 °C. Это ошибка калибровки датчика или бага в прошивке BMC.

Решение: Обновите BIOS и BMC. Если проблема остаётся, используйте альтернативную утилиту для проверки (например, IPMItool в Linux или IPMI View в Windows). Если и там данные некорректны — скорее всего, неисправен датчик на материнской плате, требуется диагностика в сервисе.

Интеграция Superdoctor 5 с системами мониторинга

Superdoctor 5 можно интегрировать с популярными системами мониторинга. Два основных способа:

Через SNMP

BMC Supermicro поддерживает SNMP (Simple Network Management Protocol). Вы можете настроить Zabbix, Nagios или PRTG на опрос IPMI-интерфейса по SNMP и получать данные с датчиков без запуска Superdoctor.

Для этого в настройках BMC (веб-интерфейс IPMI, раздел Configuration → SNMP) включите SNMP Agent и укажите community string. Затем в системе мониторинга добавьте устройство с IP-адресом IPMI и настройте шаблон для сбора метрик.

Через экспорт логов

Superdoctor может экспортировать данные датчиков и журнал SEL в текстовый файл. Настройте периодический экспорт (например, раз в час) и передавайте файл в систему мониторинга для парсинга.

Этот способ менее удобен, чем SNMP, но работает, если ваша система мониторинга не умеет опрашивать IPMI напрямую.

Типовые сценарии использования Superdoctor 5

Мониторинг парка серверов из одной консоли

У вас 10 серверов Supermicro в стойке. Вместо того чтобы подключаться к каждому BMC отдельно, установите Superdoctor 5 на рабочую станцию и добавьте все серверы по IPMI. Вы увидите состояние всех машин на одном экране: температуры, вентиляторы, напряжение, диски.

Настройте алерты на email — если на любом сервере произойдёт критичное событие, вы получите уведомление.

Диагностика перегрева в серверной комнате

Летом серверная комната перегревается, и серверы начинают троттлить процессоры. Superdoctor показывает, что температура ambient (окружающей среды) поднялась до 45 °C, а процессоры греются до 85 °C.

Вы проверяете обороты вентиляторов — они на максимуме. Проблема не в кулерах, а в недостатке холодного воздуха. Решение — улучшить вентиляцию серверной или добавить кондиционирование.

Предотвращение отказа диска

Superdoctor показывает, что один из дисков имеет статус Warning и SMART-атрибут Reallocated Sectors вырос до 50. Это признак деградации диска. Вы заказываете замену и меняете диск до того, как он полностью откажет. RAID-массив не ломается, данные не теряются.

Полезные команды для управления через CLI

Superdoctor 5 имеет графический интерфейс, но иногда удобнее работать через командную строку. В Linux утилита предоставляет несколько CLI-команд.

Проверка состояния датчиков

sudo superdoctor5 sensor list

Выводит список всех датчиков и их текущие значения.

Экспорт журнала SEL

sudo superdoctor5 sel export /path/to/sel.log

Сохраняет журнал событий в текстовый файл.

Очистка журнала SEL

sudo superdoctor5 sel clear

Удаляет все записи из журнала. Делайте это после экспорта, чтобы не потерять данные.

Альтернативно можно использовать IPMItool — универсальную утилиту для работы с IPMI:

ipmitool sensor list
ipmitool sel list
ipmitool sel clear

IPMItool работает с любыми серверами, поддерживающими IPMI, не только с Supermicro.

Часто задаваемые вопросы

Можно ли использовать Superdoctor 5 для серверов других производителей?

Нет, Superdoctor 5 разработан специально для серверов и материнских плат Supermicro. Утилита использует проприетарные расширения IPMI, которые есть только в BMC Supermicro. Для серверов Dell используйте OpenManage, для HP/HPE — Intelligent Provisioning или iLO, для Lenovo — XClarity.

Как часто нужно обновлять Superdoctor 5?

Supermicro выпускает обновления Superdoctor 5 несколько раз в год. Обновляйтесь при появлении новой версии, особенно если у вас свежие модели серверов или вы столкнулись с багами. Проверяйте наличие обновлений на сайте Supermicro раз в квартал.

Влияет ли Superdoctor на производительность сервера?

Нет, утилита потребляет минимум ресурсов. Superdoctor опрашивает BMC раз в несколько секунд, эти запросы не влияют на производительность процессора или сети. Даже на загруженных серверах влияние незаметно. Если вы мониторите удалённые серверы, трафик IPMI составляет несколько килобайт в минуту.

Чек-лист: что контролировать через Superdoctor 5

Регулярно проверяйте следующие параметры, чтобы предотвратить отказы оборудования:

  • Температура процессоров. Норма — до 70 °C под нагрузкой. Выше 80 °C — проверьте охлаждение.
  • Обороты вентиляторов. Все кулеры должны вращаться. Если один показывает 0 RPM — замените.
  • Напряжение на линиях +12V, +5V, +3.3V. Отклонение более ±5% — признак проблем с БП.
  • SMART-статус дисков. Статус Warning — готовьтесь к замене диска.
  • Журнал SEL. Регулярно экспортируйте и анализируйте на предмет повторяющихся ошибок.
  • Состояние блоков питания. При резервировании оба БП должны быть в статусе OK.

Создайте в Superdoctor профиль алертов, чтобы получать уведомления при отклонении любого из этих параметров.