Ошибка nmi watchdog bug soft lockup разбор возможных вариантов решения
Вдруг ни с того ни с сего стала вываливаться эта ошибка nmi watchdog bug soft lockup процессоры загружались на 100 процентов виснет намертво. Самое интересное что виснет виртуалка(Debian 9) в гипервизоре proxmox, а не сам гипервизор. Пока гуглил читал именно про зависание гипервизора, в основном.
1. Проблема в ядре, вариант изменить ядро загрузки, например если было недавнее обновление либо скачать более раннюю версию и загрузить ее.
2. Проблема в блоке питания, типо не хватает питания для процессора и происходит перекос, в основном инфа про это, вариантов решения несколько.
3. Проблема в видеокарточке nvidia, маловероятный вариант, в моем случае видюха встроенная. Но это может быть одно из следствий, так как типо происходит перекос питания из за нее. Или какого то другого оборудования.
Варианты решения.
1. Загружать ядро с отключенной ACPI
2. Отключить HyperTreading
3. Обновить ядро
4. Выставить kernel.watchdog_thresh = 20(по умолчанию 10) в sysctl (Текущий вариант проверяется)
UPD1: Не прокатил вариант максимальное я так понял значение 60
5. kernel.softlockup_panic = 0 в sysctl работает более 2х суток
6. Выставить параметры ядра
vm.dirty_background_ratio = 5
vm.swappiness = 1
vm.dirty_ratio = 1
UPD Все решения не прокатили, решение оказалось кординальным переход с openvz на LXC контейнеры
1. Проблема в ядре, вариант изменить ядро загрузки, например если было недавнее обновление либо скачать более раннюю версию и загрузить ее.
2. Проблема в блоке питания, типо не хватает питания для процессора и происходит перекос, в основном инфа про это, вариантов решения несколько.
3. Проблема в видеокарточке nvidia, маловероятный вариант, в моем случае видюха встроенная. Но это может быть одно из следствий, так как типо происходит перекос питания из за нее. Или какого то другого оборудования.
Варианты решения.
1. Загружать ядро с отключенной ACPI
2. Отключить HyperTreading
3. Обновить ядро
4. Выставить kernel.watchdog_thresh = 20(по умолчанию 10) в sysctl (Текущий вариант проверяется)
UPD1: Не прокатил вариант максимальное я так понял значение 60
5. kernel.softlockup_panic = 0 в sysctl работает более 2х суток
6. Выставить параметры ядра
vm.dirty_background_ratio = 5
vm.swappiness = 1
vm.dirty_ratio = 1
UPD Все решения не прокатили, решение оказалось кординальным переход с openvz на LXC контейнеры
Комментарии
Отправить комментарий