如何使用Ollama运行Gemma



Ollama应用简介

在当今快速发展的人工智能时代，大型语言模型（LLMs）已经成为技术前沿的热点话题。Ollama，作为一个开创性的工具，使得开发者能够在本地环境中轻松运行和管理这些强大的模型。无论是进行自然语言处理、代码生成还是其他AI驱动的任务，Ollama都提供了一个简单、高效的解决方案。

Ollama的主要特点包括其对多种操作系统的支持、对Docker的集成、以及一个丰富的模型库，让用户可以根据自己的需要选择和运行不同的模型。此外，Ollama提供了模型自定义的功能，让用户可以根据特定需求调整模型参数，或者导入自有的模型进行使用。

安装环境要求

CPU：当前最佳目标是第 11 代英特尔 CPU 或基于Zen4 的 AMD CPU，因为它支持AVX512，可加速 AI 模型所需的矩阵乘法运算。CPU 指令集功能比核心数量更重要，由于内存带宽增加，较新的 CPU 中的 DDR5 支持对于性能也很重要。

RAM：获得良好体验的最低要求：16GB 是有效运行 7B 参数等模型的起点。它足以舒适地运行较小的模型或谨慎地管理较大的模型。

磁盘空间：实际最小值：大约 50GB就足够了。

GPU：非强制性但建议增强性能，GPU 可以显着提高模型推理性能。但是，运行量化模型的能力和对 VRAM 的要求取决于 GPU 的性能。对于运行量化模型：支持 4 位量化格式的 GPU 可以更有效地处理大型模型，所需的 VRAM 明显更少，如7B 模型需要 4 GB，13B 模型需要 8 GB，30B 模型需要 16 GB，65B 模型需要 32 GB

如何使用 Ollama 运行 Gemma

Gemma 是 Google 及其 DeepMind 团队开发的一种新的开放模型。它的灵感来自于谷歌的 Gemini 模型。

运行Gemma

Gemma 有 2b 和 7b 参数大小，请访问：https://ollama.com/library，选择自己想要的模型，复制下载命令即可。

ollama run gemma:2b
ollama run gemma:7b

# 可以选择特定量化版的模型
ollama run gemma:2b-instruct-fp16
ollama run gemma:7b-instruct-fp16

注意最低运行条件：2B版本需要2G显存，7B版本需要4G显存，其他版本需要更大的显存。

运行Gemma2

Gemma 2 型号有 9B 和 27B 两种尺寸，采用全新架构，旨在实现一流的性能和效率。

# 9B 参数
ollama run gemma2

# 27B 参数 
ollama run gemma2:27b

在Ubuntu 20上安装运行的截图