Docker 容器中 NVML 初始化失败：未知错误解决方案

问题描述

在使用 Docker 容器运行 GPU 应用时，用户可能会遇到一个奇怪的问题：容器启动初期可以正常识别和使用 GPU，但运行几小时或几天后，在容器内执行 nvidia-smi 命令会显示：

"Failed to initialize NVML: Unknown Error"

此时在宿主机上执行 nvidia-smi 命令却能正常显示所有 GPU 信息。只有重启 Docker 容器才能暂时解决问题，这对于需要持续运行的推理服务来说是不可接受的。

根本原因

这个问题通常与 Linux 系统的 cgroup（控制组）管理机制有关：

cgroups 版本冲突：当宿主机执行 systemctl daemon-reload 或类似操作时，会重新加载包含 NVIDIA GPU 引用的单元文件
容器失去访问权限：重新加载过程中，容器内的 GPU 设备引用可能失效
驱动兼容性问题：在某些系统升级后，NVIDIA 驱动与 Docker 运行时可能存在版本不匹配

解决方案

根据问题严重程度和系统环境，可以选择以下一种或多种解决方案：

方法一：修改 NVIDIA 容器运行时配置（推荐）

这是最常见且有效的解决方案，通过禁用 cgroups 来避免冲突：

编辑 NVIDIA 容器运行时配置文件：

bash

sudo vim /etc/nvidia-container-runtime/config.toml

找到并修改以下配置项：

toml

no-cgroups = false

改为：

toml

no-cgroups = true

重启 Docker 服务：

bash

sudo systemctl restart docker

测试配置是否生效：

bash

sudo docker run --rm --runtime=nvidia --gpus all ubuntu nvidia-smi

TIP

此方法适用于大多数情况，且对系统改动最小。

方法二：修改 Docker 守护进程配置

如果方法一无效，可以尝试修改 Docker 的 cgroup 驱动设置：

编辑 Docker 配置文件：

bash

sudo nano /etc/docker/daemon.json

添加或修改 exec-opts 配置项：

json

{
  "runtimes": {
    "nvidia": {
      "args": [],
      "path": "nvidia-container-runtime"
    }
  },
  "exec-opts": ["native.cgroupdriver=cgroupfs"]
}

重启 Docker 服务：

bash

sudo service docker restart

WARNING

请确保 JSON 格式正确，每个配置项后使用逗号分隔（最后一项不加逗号）。

方法三：升级内核 cgroup 版本

如果系统条件允许，将内核 cgroup 从 v1 升级到 v2 可以彻底解决此问题：

检查当前 cgroup 版本：

bash

cat /proc/filesystems | grep cgroup

升级内核到 4.5 或更高版本（如果当前版本较低）
配置系统使用 cgroup v2

DANGER

生产环境升级内核前请做好充分测试和备份，确保业务兼容性。

方法四：容器健康检查与自动恢复

作为临时解决方案，可以设置健康检查机制自动重启异常容器：

Docker Compose 配置：

yaml

services:
  gpu_container:
    # ... 其他配置
    healthcheck:
      test: ["CMD-SHELL", "nvidia-smi || exit 1"]
      start_period: 1s
      interval: 20s
      timeout: 5s
      retries: 2
    labels:
      - autoheal=true
    restart: always

  autoheal:
    image: willfarrell/autoheal
    environment:
      - AUTOHEAL_CONTAINER_LABEL=all
    volumes:
      - /var/run/docker.sock:/var/run/docker.sock
    restart: always

独立容器配置：

bash

docker run -d \
  --name autoheal \
  --restart=always \
  -e AUTOHEAL_CONTAINER_LABEL=all \
  -v /var/run/docker.sock:/var/run/docker.sock \
  willfarrell/autoheal

方法五：简单重启尝试

在深入研究复杂解决方案前，先尝试最简单的步骤：

重启容器：

bash

docker restart <container_name>

如果无效，重启宿主机：

bash

sudo reboot

INFO

系统或驱动升级后，重启宿主机往往能解决临时的版本不匹配问题。

预防措施

保持系统更新：定期更新 NVIDIA 驱动、Docker 和 nvidia-docker 工具包
监控容器状态：设置监控告警，及时发现 GPU 访问异常
版本兼容性检查：在升级前验证各组件版本的兼容性
使用容器编排平台：考虑使用 Kubernetes 等平台，它们有更完善的健康检查和恢复机制

总结

NVML 初始化失败问题通常源于 cgroup 管理冲突或驱动版本不匹配。建议按以下顺序尝试解决方案：

首先尝试重启容器和宿主机
修改 NVIDIA 容器运行时配置（方法一）
调整 Docker cgroup 驱动设置（方法二）
考虑内核升级（方法三）
实施健康检查机制作为保障措施（方法四）

选择解决方案时，请根据具体环境和业务需求权衡复杂度与稳定性要求。对于生产环境，建议在测试环境中充分验证后再部署。

相关文章

Docker 容器中 NVML 初始化失败：未知错误解决方案 ​

问题描述 ​

根本原因 ​

解决方案 ​

方法一：修改 NVIDIA 容器运行时配置（推荐） ​

方法二：修改 Docker 守护进程配置 ​

方法三：升级内核 cgroup 版本 ​

方法四：容器健康检查与自动恢复 ​

方法五：简单重启尝试 ​

预防措施 ​

总结 ​

Docker 容器中 NVML 初始化失败：未知错误解决方案

问题描述

根本原因

解决方案

方法一：修改 NVIDIA 容器运行时配置（推荐）

方法二：修改 Docker 守护进程配置

方法三：升级内核 cgroup 版本

方法四：容器健康检查与自动恢复

方法五：简单重启尝试

预防措施

总结