GPU Server 监控不完全指南(Zabbix + Grafana)
By Yuyang Li and Yixin Zhu. 不定期更新优化。Last update: Jun 1, 2023. Using Zabbix 6.4 (Server / Agent 2) and Grafana Cloud. 完成这一手册后,监控运行的基本原理是: Client 端主动联系 Server 端并完成自动注册; Client 端定期与 Server 通信,获取一组 ...
By Yuyang Li and Yixin Zhu. 不定期更新优化。Last update: Jun 1, 2023. Using Zabbix 6.4 (Server / Agent 2) and Grafana Cloud. 完成这一手册后,监控运行的基本原理是: Client 端主动联系 Server 端并完成自动注册; Client 端定期与 Server 通信,获取一组 ...
Windows 不支持直接挂载 EXT4 格式分区,但这可以通过 WSL2 实现。 通过 wmic.exe 查看硬盘与分区信息通过 wmic 分别列举本机 Disk Drive 与 Partition 的信息: 12wmic diskdrive list briefwmic partition list brief 输出如图: 根据信息找到需要挂载的分区,主要确定硬盘的 Device...
此文记录在使用 NVIDIA GPU 时遇到的驱动问题: 1NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 验证 Kernel 和 CUDA...
自建 NAS 且选择 iXsystems 的 TrueNAS 用户经常会在使用 TrueNAS 的时候遇到各种各样奇怪的坑,本文记录了作者遇到的部分常见或略微有些坑的坑,通过关键词和报错内容双重索引的方式在此简单分享。由于这些问题目前积累得并不多,和 Torch 那些坑 一文一样,就先按照出现频率划分。 0x01 关键词:mount from cd9660 error 2在使用 Ventor...
Torch 用户经常会在使用 Torch 的时候遇到各种各样奇怪的坑,本文记录了作者遇到的部分常见或略微有些坑的坑,通过关键词和报错内容双重索引的方式在此简单分享。不过目前积累得并不多,就先按照出现频率划分。 0x01 关键词:inplace operation报错内容:one of the variables needed for gradient computation has been...
本文主要介绍在 VSCode 中配置 C、C++ 开发、调试环境的方式。
版本号 0.1.0 build 20121402 项目地址:清华大学代码托管平台TitHub 更新 - 已暂时停更v0.2.0 build 20122301 加入了“视频评论区”统计,但限于服务器设置,此步骤无法自动完成视频清单的获取,需手动添加 加入了评论内容整合 优化内存使用 v0.1.0 build 20122001 修复了输出csv文件的格式:以”stdID”、”count”...