大模型部署
API调用
模型由特定组织开发以及托管,例如 OpenAI 的 GPT-4 和 Anthropic 的 Claude,用户通过 API 接口来访问。
功能强大,用户无须拥有强大的 GPU 也能够使用功能强大的 LLM,但费用较高, 隐私得不到保证。
本地部署
通过一些工具来做本地部署,部署到用户自己的设备上面。
一般来讲,部署的都是开源模型,例如 Meta 的 Llama、微软的 Phi 、阿里的千问、以及 Deepseek 等模型
Ollama
Ollama 是一个开源的大语言模型运行平台,提供简洁易用的 命令行工具 和 REST API,帮助用户在本地轻松下载、部署和运行各种开源的 LLM(大语言模型)。
- 开源免费
- 即装即用
- 支持多种模型:Llama、deepseek、qwen...
- 本地运行
- 灵活扩展
- 提供 REST API:本地会启动一个 Web 服务,监听 11434 端口
常用命令
- ollama list:查看已下载模型
- ollama show <模型名称>:显示模型信息
- ollama pull <模型名称>:拉取模型
- ollama run <模型名称>:拉取并且运行模型。如果模型存在,则直接运行模型;否则先拉取下来,然后运行
- ollama run <模型名称> --verbose:查看每次对话后模型执行的效率细节
默认启动模型后,支持的是长期对话,如果是一次性对话,那么可以:
ollama run <模型名称> "提示词"
也支持多行提示词对话。在启动模型后,将多行对话放入三个双引号里面就能够输入多行提示词。
ollama run llama3.2
>"""
>提示词内容
>提示词内容
>提示词内容
>"""
官方模型库
在 官网模型库 中,Ollama 提供了丰富的模型选型,这些模型大致可以分为两大类:
- 语言处理类大模型
- 图像处理类大模型
语言处理类大模型(LLMs)
这类模型专注于自然语言生成与理解,常用于文本生成、问答、代码编写、翻译、总结等任务。Ollama 支持的主要语言模型包括:
| 模型名称 | 来源机构 | 规模(参数量) | 主要特点 |
|---|---|---|---|
| LLaMA 2 / 3 | Meta | 7B / 13B / 70B | 通用语言理解与生成,支持中文、对话能力强 |
| Mistral | Mistral AI | 7B | 小而强的模型,推理速度快,多语言支持 |
| Gemma | Google DeepMind | 2B / 7B | 开源许可宽松,轻量且效率高,适合嵌入式应用 |
| Phi | Microsoft | 2.7B | 适合教育和低算力环境,训练数据精细设计 |
| Code LLaMA | Meta | 7B+ | 专注于编程任务,如代码补全、代码解释等 |
| Neural Chat | Intel | 多种参数量 | 聊天风格自然,适合交互式对话 |
此外,Ollama 也支持部分微调版本模型(如 llama2-chinese, mistral-instruct, orca-mini 等),可以根据任务需求选择指令微调或对话优化模型。
这里的参数量以 B 为单位,B 来自于英语单词 billion(十亿),因此例如参数量写的是 7B,则意味着参数量为 70亿。
图像处理类大模型(Vision / Multimodal Models)
Ollama 近期开始逐步支持 图像 + 文本联合建模 的多模态模型(Multimodal),如:
| 模型名称 | 来源机构 | 模态类型 | 说明 |
|---|---|---|---|
| llava | LLaVA 项目 | 图文联合(image+text) | 支持图像描述、图像问答、OCR 等任务 |
| bakllava | 社区开源 | 多模态 | 类似 LLaVA,支持多图问答 |
| clip | OpenAI | 图像 + 文本 | 图文相似度匹配,适合搜索、推荐系统 |
这类模型适合构建如:AI 看图说话、图片问答助手、图像内容搜索等系统。由于涉及图像输入,目前仍需配合本地 API 接口使用,CLI 中支持有限。
Web 服务器
Ollama 还会启动一个 Web 服务器,监听 11434 端口,用来提供模型调用能力。
curl http://localhost:11434/api/tags
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:latest",
"prompt": "你是谁?"
}'