mac mini 24g 大模型推理怎么样

5次阅读

共计 247 个字符,预计需要花费 1 分钟才能阅读完成。

背景:
之前有一个 2018 年的 mac intel 16g 的 mbp,但是由于续航不行和有点儿发热。故喜新厌旧的换成了 apple M 芯片 18g 的 2023mbp。

有时候偶尔本地跑下大模型推理,使用 ollama 在 2018 mbp 和 2023 mbp 都部署了下 14b 的 Qwen 量化模型,发现 2018 mbp 的更加流畅(目测 10token/ 秒),2023 mbp 比较卡顿(目测 3token/ 秒)。

问题:

准备入手一个 Mac mini 24g , 想问下有没有大佬测试过,Qwen 模型 8b、14b 各个量化精度情况下的每秒 token 表现。

正文完
 0