Air M3 24G 能不能跑不量化的 7B 本地大模型推理?

15次阅读

共计 305 个字符,预计需要花费 1 分钟才能阅读完成。

无风扇:温度应该不是问题,跑几分钟,然后就可以休息一下,不会太被温度墙限制。

看了一下 ollama 上的 7B fp16(或者 bf16)模型,权重文件大多在 15GB~17GB 范围内,内存应该内放下,还能给别的应用留一点儿空间。
(我看到 PyTorch 的 issues 中提到加载模型过程,即使开了 mmap 也会有剧烈的内存波动,峰值内存占用会到模型权重文件的两倍大,这样的话 24G 就不够用了。不知道别的推理框架例如 ollama 有没有这个问题。)

cpu-monkey 的测试显示 M3 的 fp16 性能为 7TFLOPS,大概桌面版 4060 Ti 的三分之一。担心即使能跑,token 输出速度也很低。

所以,有 V 友真的用 Air 跑过本地大模型吗?

正文完
 0