如何使用 Ollama 运行 Gemma

Ollama 可以很好地支持 Google 的 Gemma 大模型。让我们看看如何使用 Ollama 运行 Gemma 和 Gemma 2。

Ollama应用简介

在当今快速发展的人工智能时代,大型语言模型(LLMs)已经成为技术前沿的热点话题。Ollama,作为一个开创性的工具,使得开发者能够在本地环境中轻松运行和管理这些强大的模型。无论是进行自然语言处理、代码生成还是其他AI驱动的任务,Ollama都提供了一个简单、高效的解决方案。

Ollama的主要特点包括其对多种操作系统的支持、对Docker的集成、以及一个丰富的模型库,让用户可以根据自己的需要选择和运行不同的模型。此外,Ollama提供了模型自定义的功能,让用户可以根据特定需求调整模型参数,或者导入自有的模型进行使用。

安装环境要求

CPU:当前最佳目标是第 11 代英特尔 CPU 或基于Zen4 的 AMD CPU,因为它支持AVX512,可加速 AI 模型所需的矩阵乘法运算。CPU 指令集功能比核心数量更重要,由于内存带宽增加,较新的 CPU 中的 DDR5 支持对于性能也很重要。

RAM:获得良好体验的最低要求:16GB 是有效运行 7B 参数等模型的起点。它足以舒适地运行较小的模型或谨慎地管理较大的模型。

磁盘空间:实际最小值:大约 50GB就足够了。

GPU:非强制性但建议增强性能,GPU 可以显着提高模型推理性能。但是,运行量化模型的能力和对 VRAM 的要求取决于 GPU 的性能。对于运行量化模型:支持 4 位量化格式的 GPU 可以更有效地处理大型模型,所需的 VRAM 明显更少,如7B 模型需要 4 GB,13B 模型需要 8 GB,30B 模型需要 16 GB,65B 模型需要 32 GB

如何使用 Ollama 运行 Gemma

Gemma 是 Google 及其 DeepMind 团队开发的一种新的开放模型。它的灵感来自于谷歌的 Gemini 模型。

运行Gemma

Gemma 有 2b 和 7b 参数大小,请访问:https://ollama.com/library,选择自己想要的模型,复制下载命令即可。

ollama run gemma:2b
ollama run gemma:7b

# 可以选择特定量化版的模型
ollama run gemma:2b-instruct-fp16
ollama run gemma:7b-instruct-fp16

注意最低运行条件:2B版本需要2G显存,7B版本需要4G显存,其他版本需要更大的显存。

运行Gemma2

Gemma 2 型号有 9B 和 27B 两种尺寸,采用全新架构,旨在实现一流的性能和效率。

# 9B 参数
ollama run gemma2

# 27B 参数 
ollama run gemma2:27b

在Ubuntu 20上安装运行的截图

Ollama run gemma 7b
chat with gemma using ollama