共计 97 个字符,预计需要花费 1 分钟才能阅读完成。
有一个千卡,甚至是万卡级的智算中心,我们想做个监控平台,来监控这个智算中心 GPU、算力、电量等等一些参数,主要是想看每个卡及整个智算中心的使用情况以及物理卡是否被人掉包等情况,老哥们有啥点子没?
正文完
共计 97 个字符,预计需要花费 1 分钟才能阅读完成。
有一个千卡,甚至是万卡级的智算中心,我们想做个监控平台,来监控这个智算中心 GPU、算力、电量等等一些参数,主要是想看每个卡及整个智算中心的使用情况以及物理卡是否被人掉包等情况,老哥们有啥点子没?