🔥 痛点:显存满了,却找不到是谁在用?
对于搞 AI 训练或做 GPU 运维的兄弟们来说,最头疼的莫过于:显存被莫名其妙占满,或者跑了个死循环任务,想停都停不掉。
通常我们得用 nvidia-smi 查 PID,再手动 Kill,还得担心手滑误删了别人的训练任务。
一句话推荐:
今天要推的 GPU Kill,就是一把运维界的“瑞士军刀”。它能一键跨平台管理(N卡/A卡/M芯片),甚至能结合 AI 帮你自动清理僵尸进程。
30 秒省流:它值不值得装?
- 核心功能:统一了 NVIDIA/AMD/Apple Silicon 的管理命令,支持一键清理、实时监控。
- 杀手锏:内置 MCP 服务,可以对接 Claude/ChatGPT,让 AI 帮你运维 GPU。
- 适用人群:AI 算法工程师、实验室管理员、Mac Studio 深度用户。
- 一句话建议:如果你受够了在不同机器上记不同的显卡命令,装它就对了。
GPU Kill 能解决什么痛点?
在 AI 基础设施管理场景中,GPU Kill 可以作为轻量级算力监控与资源调度工具:显存爆满、任务卡死、异常进程这种“日常事故”,它能用统一命令快速定位并处理。
它的野心很大,试图做一个“大一统”的管理接口。无论你是 Linux 服务器还是 Mac 开发机,命令完全一致。
1) 跨平台的大一统 (Multi-Vendor)
这是最惊喜的功能。以前 Mac 用 Activity Monitor,Linux 用 nvidia-smi。现在,一个 gpukill 命令全搞定。无论是查看显存、温度还是功耗,体验完全一致。
2) 专治“资源滥用” (Security Audit)
很多时候 GPU 变慢是因为有“幽灵进程”。它内置了审计模式 (--audit),能扫描显卡上是否有疑似高负载计算的特征行为(比如实验室里偷偷跑的未授权任务),一键抓出资源刺客。
3) AI 时代的运维:MCP 服务集成
这个功能非常前卫。 它内置了 MCP (Model Context Protocol) Server。
这意味着你可以把它连接到 Claude Desktop。然后直接用自然语言说:“帮我看看 GPU 0 为什么卡住了,把占用最高的非系统进程清理掉。” AI 就会自动调用工具执行。这才是未来运维该有的样子。
同类工具对比:为什么选它?
| 工具 | 支持平台 | 核心能力 | 推荐指数 |
|---|---|---|---|
| GPU Kill | NVIDIA / AMD / Mac | 监控 + 清理 + AI 交互 | ⭐⭐⭐⭐⭐ |
| nvidia-smi | 仅 NVIDIA | 基础监控 / 状态查询 | ⭐⭐⭐ |
| nvtop | 多平台 | 可视化监控 (只看不杀) | ⭐⭐⭐⭐ |
安装与使用速查表
🚀 极速安装 (含安全提示):
虽然支持一键安装,但作为运维规范,建议先下载脚本审查内容,确认无误后再执行:
# macOS/Linux 一键安装
curl -fsSL https://gpukill.com/install | sh
# Windows (PowerShell)
irm https://gpukill.com/install-windows | iex
常用命令 Cheatsheet:
gpukill watch:像 top 一样实时监控 GPU。gpukill --list:列出所有显卡及当前状态。gpukill --audit --rogue:扫描异常占用和资源异常模式。
⚠️ 避坑指南 (FAQ):
- Q: 会误杀别人的任务吗?
A:--kill --gpu X威力很大,会清除该卡上所有进程。在多用户环境(如学校实验室),务必配合--pid参数精准点杀。 - Q: 安装后找不到 GPU?
A: 工具依赖底层驱动。请确保已安装 NVIDIA Drivers 或 ROCm。Mac M系列芯片用户无需额外驱动。
项目地址与资源
- 🌐 GitHub 项目主页:GPU Kill – Cross-platform GPU Management
- 📄 官方文档:https://gpukill.com/
(包含 MCP 服务配置指南)
⚠️ 风险提示: 本工具涉及系统进程管理。请在生产环境中谨慎操作,误操作可能导致关键服务中断。建议在执行终止命令前二次确认 PID。风险由用户自行承担。