如何使用Ollama运行Qwen大模型



Ollama 简介

Ollama 是一个开源的大型语言模型服务工具，它帮助用户快速在本地运行大模型。通过简单的安装指令，用户可以执行一条命令就在本地运行开源大型语言模型，如qwen。Ollama极大地简化了在Docker容器内部署和管理LLM的过程，使得用户能够快速地在本地运行大型语言模型。

Qwen 大模型

Qwen是一个全能的语言模型系列，包含各种参数量的模型，如 Qwen（基础预训练语言模型，即基座模型）和 Qwen-Chat（聊天模型，该模型采用人类对齐技术进行微调）。基座模型在众多下游任务中始终表现出卓越的性能，而聊天模型，尤其是使用人类反馈强化学习（RLHF）训练的模型，具有很强的竞争力。聊天模型Qwen-Chat拥有先进的工具使用和规划能力，可用于创建agent应用程序。即使在使用代码解释器等复杂任务上，Qwen-Chat与更大的模型相比也能表现出极具竞争力的性能。此外，官方还开发了编码专用模型 Code-Qwen 和 Code-Qwen-Chat，以及基于基座模型开发的数学专用模型 Math-Qwen-Chat。

安装硬件要求

CPU：当前最佳目标是第 11 代英特尔 CPU 或基于Zen4 的 AMD CPU，因为它支持AVX512，可加速 AI 模型所需的矩阵乘法运算。CPU 指令集功能比核心数量更重要，由于内存带宽增加，较新的 CPU 中的 DDR5 支持对于性能也很重要。

RAM：获得良好体验的最低要求：16GB 是有效运行 7B 参数等模型的起点。它足以舒适地运行较小的模型或谨慎地管理较大的模型。

磁盘空间：实际最小值：大约 50GB就足够了。

GPU：非强制性但建议增强性能，GPU 可以显着提高模型推理性能。但是，运行量化模型的能力和对 VRAM 的要求取决于 GPU 的性能。对于运行量化模型：支持 4 位量化格式的 GPU 可以更有效地处理大型模型，所需的 VRAM 明显更少，如7B 模型需要 4 GB，13B 模型需要 8 GB，30B 模型需要 16 GB，65B 模型需要 32 GB。