这款GPU在成本和性能之间取得了平衡,非常适合AI工作负载和游戏基准测试。在LLM托管方面,8GB的显存足以运行量化模型(4位精度),这种方法大幅降低了内存需求,同时不会显著影响性能。
模型 | llama2 | llama2 | llama3.1 | mistral | gemma | gemma2 | llava | wizardlm2 | qwen2 | qwen2.5 | stablelm2 | falcon2 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
参数 | 7b | 13b | 8b | 7b | 7b | 9b | 7b | 7b | 7b | 7b | 12b | 11b |
文件大小(GB) | 3.8 | 7.4 | 4.9 | 4.1 | 5.0 | 5.4 | 4.7 | 4.1 | 4.4 | 4.7 | 7.0 | 6.4 |
量化 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 |
运行平台 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 |
模型下载速度(mb/s) | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 |
CPU 利用率 | 2% | 27-42% | 3% | 3% | 20% | 21% | 3% | 3% | 3% | 3% | 15% | 8 |
RAM 利用率 | 3% | 7% | 5% | 5% | 9% | 6% | 5% | 5% | 5% | 5% | 5% | 5% |
GPU vRAM | 63% | 84% | 80% | 70% | 81% | 83% | 80% | 70% | 65% | 68% | 90% | 85% |
GPU 利用率 | 98% | 30-40% | 98% | 88% | 93% | 68% | 98% | 100% | 98% | 96% | 90% | 80% |
文本输出速率(tokens/s) | 73.07 | 9.25 | 57.34 | 71.16 | 31.95 | 23.80 | 72.00 | 70.79 | 63.73 | 58.13 | 18.73 | 31.20 |
GPU物理服务器 - T1000
GPU物理服务器 - RTX 3060 Ti
GPU物理服务器 - A5000
RTX 3060 Ti证明是一款具有成本效益的LLM基准测试选择,尤其是在配合Ollama的高效量化时。对于涉及13亿参数以下的模型,这一配置提供了竞争力的性能、高效性和低资源消耗。如果你在寻找一种负担得起的RTX 3060托管解决方案来运行Ollama中的LLM,这款GPU提供了稳定的表现,并且价格适中。
RTX 3060基准测试, Ollama基准测试, LLM基准测试, Ollama测试, Nvidia RTX 3060基准测试, Ollama 3060, RTX 3060托管, Ollama RTX服务器