大模型部署

模型由特定组织开发以及托管，例如 OpenAI 的 GPT-4 和 Anthropic 的 Claude，用户通过 API 接口来访问。

功能强大，用户无须拥有强大的 GPU 也能够使用功能强大的 LLM，但费用较高，隐私得不到保证。

通过一些工具来做本地部署，部署到用户自己的设备上面。

一般来讲，部署的都是开源模型，例如 Meta 的 Llama、微软的 Phi 、阿里的千问、以及 Deepseek 等模型

Ollama 是一个开源的大语言模型运行平台，提供简洁易用的 命令行工具 和 REST API，帮助用户在本地轻松下载、部署和运行各种开源的 LLM（大语言模型）。

默认启动模型后，支持的是长期对话，如果是一次性对话，那么可以：

ollama run <模型名称> "提示词"

也支持多行提示词对话。在启动模型后，将多行对话放入三个双引号里面就能够输入多行提示词。

ollama run llama3.2
>"""
>提示词内容
>提示词内容
>提示词内容
>"""

在官网模型库中，Ollama 提供了丰富的模型选型，这些模型大致可以分为两大类：

语言处理类大模型（LLMs）

这类模型专注于自然语言生成与理解，常用于文本生成、问答、代码编写、翻译、总结等任务。Ollama 支持的主要语言模型包括：

模型名称	来源机构	规模（参数量）	主要特点
LLaMA 2 / 3	Meta	7B / 13B / 70B	通用语言理解与生成，支持中文、对话能力强
Mistral	Mistral AI	7B	小而强的模型，推理速度快，多语言支持
Gemma	Google DeepMind	2B / 7B	开源许可宽松，轻量且效率高，适合嵌入式应用
Phi	Microsoft	2.7B	适合教育和低算力环境，训练数据精细设计
Code LLaMA	Meta	7B+	专注于编程任务，如代码补全、代码解释等
Neural Chat	Intel	多种参数量	聊天风格自然，适合交互式对话

此外，Ollama 也支持部分微调版本模型（如 llama2-chinese, mistral-instruct, orca-mini 等），可以根据任务需求选择指令微调或对话优化模型。

这里的参数量以 B 为单位，B 来自于英语单词 billion（十亿），因此例如参数量写的是 7B，则意味着参数量为 70亿。

图像处理类大模型（Vision / Multimodal Models）

Ollama 近期开始逐步支持 图像 + 文本联合建模 的多模态模型（Multimodal），如：

这类模型适合构建如：AI 看图说话、图片问答助手、图像内容搜索等系统。由于涉及图像输入，目前仍需配合本地 API 接口使用，CLI 中支持有限。

Ollama 还会启动一个 Web 服务器，监听 11434 端口，用来提供模型调用能力。

curl http://localhost:11434/api/tags

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:latest",
  "prompt": "你是谁？"
}'