这些强大的配置为使用 Ollama 进行 LLM 基准测试提供了坚实的基础。
模型 | deepseek-r1 | deepseek-r1 | deepseek-r1 | llama2 | llama2 | llama3 | llama3.3 | qwen | qwen | qwen2.5 | qwen2.5 | gemma2 | llava | qwq | phi4 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
参数 | 14b | 32b | 70b | 13b | 70b | 70b | 70b | 32b | 72b | 14b | 32b | 27b | 34b | 32b | 14b |
文件大小(GB) | 9GB | 20GB | 43GB | 7.4GB | 39GB | 40GB | 43GB | 18GB | 41GB | 9GB | 20GB | 16GB | 19GB | 20GB | 9.1GB |
量化程度 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 |
运行平台 | Ollama0.5.11 | Ollama0.5.11 | Ollama0.5.11 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 |
模型下载速度(mb/s) | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 |
CPU 利用率 | 3% | 3% | 3% | 3% | 5% | 3% | 3% | 3% | 3% | 3% | 3% | 3% | 3% | 3% | |
RAM 利用率 | 4% | 4% | 4% | 3% | 3% | 3% | 3% | 4% | 3% | 3% | 4% | 3% | 4% | 4% | 4% |
GPU vRAM | 78% | 68% | 90% | 30% | 85% | 88% | 91% | 42% | 91% | 22% | 67% | 40% | 85% | 91% | 70% |
GPU 利用率 | 86% | 92% | 96% | 87% | 96% | 94% | 94% | 89% | 94% | 83% | 89% | 84% | 68% | 89% | 83% |
模型输出速率(tokens/s) | 48.40 | 26.23 | 13.65 | 63.63 | 15.28 | 14.67 | 13.56 | 27.96 | 14.51 | 50.32 | 26.08 | 31.59 | 28.67 | 25.57 | 52.62 |
指标 | 各模型的数值 |
---|---|
下载速度 | 所有模型为11 MB/s,当订购1gbps带宽附加包时,速度为118 MB/s。 |
CPU利用率 | 保持在3% |
RAM利用率 | 保持在3% |
GPU vRAM利用率 | 22%-91%。模型越大,利用率越高。 |
GPU利用率 | 80%以上,保持高利用率。 |
评估速度 | 13.56 - 63.63 tokens/s。模型越大,推理速度越慢。 |
GPU云服务器 - A4000
GPU物理服务器 - A5000
GPU物理服务器 - A40
GPU物理服务器 - A6000
Nvidia Quadro RTX A6000,在专用GPU服务器上运行,通过Ollama执行LLM时表现出色。其强大的性能指标、计算资源的高效利用以及与多种模型的兼容性,使其成为AI开发者的顶级选择。
如果您正在寻找高性能的A6000托管或用于LLM基准测试的环境,这种配置在研究和生产应用场景中都能提供卓越的价值。
Nvidia Quadro RTX A6000, A6000基准测试, LLM基准测试, Ollama基准测试, A6000 GPU性能, 在A6000上运行LLM, Nvidia A6000托管, Ollama GPU测试, AI GPU基准测试, 大型语言模型的GPU, A6000与RTX 4090对比, AI GPU托管