如题。 纯推理,主要用于个人学习 (sd, ollama 小参数模型), 没有微调需求。
搞到了 4 张 a100 显卡,两张 80GB 显存的,两张 40GB 显存的,准备跑 Qwen1.5-110…
我在读研期间,一直在芯片公司做一些编译器或者推理加速相关的工作,做过模型压缩,算子融合,动态算子相关的一些工作…
想请教一下各位大牛, 现在楼主开发的项目涉及到使用 HuggingFace 和 Django 来进行多用户推理…
v0.6.0 主要更新 可通过 “ 智子工程 ” 加载本地大语言模型进行推理。 示例 …
动机 边缘端模型推理会逐步打开新的应用市场,如 AI PC。一方面个人计算设备的计算能力会更快地发展,另一方面…