Ollama 面试题

30 道题

分类: LLM
题目数: 30 道

已阅读 0 / 30 题

1 Ollama 的核心架构及各命令职责

答案：

Ollama 由三个核心子命令构成：ollama serve 启动后台推理服务，ollama pull 从模型仓库下载模型，ollama run 以交互式或非交互式方式执行推理。

命令	职责	关键行为
`ollama serve`	启动推理守护进程	加载 runner 子进程、暴露 HTTP API（默认 `127.0.0.1:11434`）、管理 GPU 显存与模型生命周期
`ollama pull`	从 registry 下载模型	解析 Modelfile、拉取 GGUF 层（layer）、验证 SHA256、缓存至 `~/.ollama/models`
`ollama run`	客户端入口运行模型	检查本地模型是否存在、按需自动 `pull`、构造请求发送至 `ollama serve`

启动流程：

ollama serve 启动后检测 GPU（CUDA / Metal / ROCm / DirectML），初始化显存管理器。
CLI 执行 ollama run llama3.2，经 gRPC 与 serve 进程通信。
serve 进程加载量化后 GGUF 模型文件，初始化 KV Cache、Attention 等后端。
首次推理触发 JIT 算子编译（llama.cpp 后端），后续请求复用已编译的 CUDA kernel / Metal shader。

各子命令共享同一 ~/.ollama 目录，模型文件以 OCI 兼容 layer blob 存储于 ~/.ollama/models/blobs/。

2 Ollama 的模型打包机制

答案：

Ollama 的核心打包格式为 Modelfile，底层模型权重采用 GGUF 量化格式，遵循 OCI 分发规范执行层式增量传输。

层级	格式/协议	说明
打包层	Modelfile	描述 FROM 源模型、PARAMETER 推理参数、SYSTEM 提示词、TEMPLATE 模板
量化层	GGUF	llama.cpp 原生单文件量化格式，屏蔽 PyTorch 复杂依赖，内置词表、超参、量化权重
存储层	SHA256 Blob	每个 GGUF 文件按 blob 分片存储，支持增量更新与跨模型复用
分发层	OCI 注册协议	对接 `registry.ollama.ai`，支持 pull / push / create 模型版本管理

GGUF 对比 Safetensors：

特性	GGUF	Safetensors
文件数量	单文件	可分片（多文件）
依赖	零依赖	需 safetensors 库
量化支持	内置 K-Quant / I-Quant	仅存储格式，量化由上层框架控制
生态	llama.cpp / Ollama	Hugging Face Transformers
CPU 推理	原生优化（mmap、NUMA）	需 PyTorch 等框架

Ollama 在底层使用 llama.cpp 加载 GGUF，再封装 OpenAI 兼容 API、并发管理、模型缓存等上层服务。

3 Modelfile 语法详解

答案：

Modelfile 是 Ollama 的模型定义 DSL，以下为各指令详解：

FROM llama3.2:8b-instruct-q4_K_M
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|start_header_id|>"
SYSTEM """You are a DevOps engineer specializing in cloud-native technologies."""
TEMPLATE """XQOPEN .System XQCLOSE<|start_header_id|>user<|end_header_id|>

XQOPEN .Prompt XQCLOSE<|eot_id|><|start_header_id|>assistant<|end_header_id|>

"""
LICENSE """MIT License"""

指令	必选	说明
`FROM`	是	基础模型，可为 Ollama 库名（`llama3.2:8b`）或本地 GGUF 路径（`./model.gguf`）
`PARAMETER`	否	推理参数，`temperature` / `top_p` / `top_k` / `num_ctx` / `num_predict` / `repeat_penalty` / `seed` / `stop`
`SYSTEM`	否	系统提示词，注入 Template 的 `{{ .System }}` 占位符
`TEMPLATE`	否	Go template 提示词模板，变量含 `{{ .System }}` / `{{ .Prompt }}` / `{{ .Response }}`（仅 generate 的上下文模板）
`LICENSE`	否	模型许可声明
`MESSAGE`	否	预设对话消息（user / assistant 角色）
`ADAPTER`	否	引用 LoRA adapter GGUF 文件路径

PARAMETER 常用项默认值与最大值受 ~/.ollama/models/manifests/ 内拉取时记录的 base manifest 约束。

TEMPLATE 是 Go template 格式，支持条件分支与循环，但实践中大多数 Modelfile 仅使用上述三个占位符。

4 Ollama 的模型注册与 ollama.com/library 生态

答案：

Ollama 使用 OCI 分发协议对接 registry.ollama.ai，模型通过 ollama show 和 ollama.com/library 进行浏览与搜索。

概念	说明
`ollama.com/library`	官方模型目录，每个模型以 Model + Tag 标识
Tag 体系	`:latest` 指向最高默认量化版本；显式 tag（如 `:8b-instruct-q4_K_M`）锁定参数规模与量化级别
Namespace	用户可上传自定义模型至 `ollama.com/<username>/<model>`
版本管理	Pull 时默认拉取最新 digest；show 可查看精确 SHA256 摘要用于复现

# 拉取指定量化标签
ollama pull llama3.2:8b-instruct-q4_K_M

# 查看本地模型详情（量化级别、context length、Modelfile）
ollama show llama3.2:8b-instruct-q4_K_M

# 自定义模型
ollama create my-custom-model -f Modelfile

# 推送至 ollama.com（需注册账号）
ollama push jangrui/my-custom-model

Ollama 模型标签的版本语义举例：

llama3.2:8b —— 默认量化（通常 Q4_K_M）
llama3.2:8b-instruct-q4_0 —— 指令微调版 + Q4_0 量化
llama3.2:8b-text-q8_0 —— 文本版 + Q8_0 量化

5 GPU 加速机制

答案：

Ollama 跨四种 GPU 后端实现自动检测与加速：

后端	平台	核心库	自动检测条件
CUDA	Linux / Windows	cuBLAS, cuDNN	`nvidia-smi` 可执行
Metal	macOS	Metal Performance Shaders (MPS)	macOS 系统默认
ROCm	Linux	MIOpen, rocBLAS	`/dev/kfd` 设备节点存在
DirectML	Windows	DirectML	无 NVIDIA GPU 且 Windows 环境

模型加载策略：

Serve 启动时遍历 GPU 列表，统计每 GPU 的可用显存。
模型优先加载至 GPU 显存，超限部分回退至 CPU 内存（NGL — Number of GPU Layers 控制）。
可在 Modelfile 中通过 PARAMETER num_gpu 指定 GPU 层数，或环境变量 CUDA_VISIBLE_DEVICES 控制可见 GPU。

# 仅使用第一块 GPU
CUDA_VISIBLE_DEVICES=0 ollama serve

# macOS Metal 自动启用，无需额外配置
ollama run llama3.2

GPU 层分配计算方法：NUM_GPU_LAYERS = (可用显存 - 上下文预留) / 每层量化大小，Ollama 自动计算最优层数，仅在跨模型或显存紧张时需手动干预。

6 量化级别详解

答案：

Ollama 支持多种 GGUF 量化方案，在质量、速度、显存三者之间折中。

量化级别	每权重位数	推荐场景	质量折损	典型显存（8B 模型）
Q2_K	~2.6 bit	极低显存、边缘设备	显著	~3 GB
Q3_K_S / Q3_K_M / Q3_K_L	~3.4–3.6 bit	极低显存	明显	~4 GB
Q4_0	4.0 bit	基础压缩、小显存	中等	~5 GB
Q4_K_M	~4.5 bit	推荐默认（平衡）	轻微	~5.5 GB
Q5_K_M	~5.5 bit	偏高精度推理	极小	~6.5 GB
Q6_K	~6.6 bit	高精度场景	极低	~7.5 GB
Q8_0	8.0 bit	高精度、接近原生	几乎无损	~9 GB
F16	16.0 bit	全精度推理/精调基座	无损	~16 GB
FP32	32.0 bit	最高保真	无损	~32 GB

K-Quant（K_M / K_S / K_L 后缀）核心技术：

不同层采用不同量化精度：Attention 层和 FFN 层高频权重用高位（如 6-bit），不敏感层用低位（如 4-bit）。
_S（Small）/ _M（Medium）/ _L（Large）指参数量大幅模型（70B+）的量化配置，对 8B 级别影响较小。
K-Quant 在相同平均位宽下，perplexity 优于旧版纯均匀量化。

选型推荐：

生产 API 优先 Q4_K_M（速度/质量折中），开发验证优先 Q8_0。
显存 < 6 GB 选择 Q4_0 或 Q3_K_M。

7 并发请求处理模型

答案：

Ollama 通过并行加载队列实现并发请求处理：

机制	说明
请求调度	serve 进程维护请求队列，同一模型可处理多个并发请求（batch 合并）
模型加载	不同模型之间切换需先卸载当前模型，再加载目标模型，期间请求排队
并行线程数	环境变量 `OLLAMA_NUM_PARALLEL` 控制最大并发请求数（默认 1）
最大加载模型数	`OLLAMA_MAX_LOADED_MODELS` 控制可同时驻留显存的不同模型数

# 允许 4 个并发请求
export OLLAMA_NUM_PARALLEL=4

# 允许同时加载 2 个模型（需足够显存）
export OLLAMA_MAX_LOADED_MODELS=2

并发本质上是 llama.cpp 的 n_parallel + dynamic batching 能力。多请求同时到达时，Ollama 尽量将请求组合成 batch 批处理，提升 GPU 利用率。

限流策略： Ollama 本身无内置速率限制，需通过反向代理（Nginx / HAProxy）或 LiteLLM Proxy 在接入层实施限流与队列管理。

8 Context Window / Context Length 管理

答案：

Context Window 决定模型一次推理可处理的 token 数上限，直接影响多轮对话的记忆长度。

参数	设置位置	说明
`num_ctx`	Modelfile PARAMETER	默认 2048，推荐设为 4096 / 8192 / 32768
`num_predict`	Modelfile PARAMETER	每次生成的最大输出 token 数
上下文配置	API 请求 `context` / `options.num_ctx`	API 级别覆盖，优先级高于 Modelfile

# 拉取时即指定大上下文
ollama pull llama3.2:8b-instruct-q4_K_M

# 创建自定义模型并设置上下文
ollama create my-model -f - <<EOF
FROM llama3.2:8b-instruct-q4_K_M
PARAMETER num_ctx 32768
PARAMETER num_predict 2048
EOF

# API 请求中覆盖上下文
import ollama
response = ollama.chat(
    model="llama3.2",
    options={"num_ctx": 16384},
    messages=[{"role": "user", "content": "..."}]
)

KV Cache 消耗： Context Window 每增加 1 倍，KV Cache 显存消耗近似线性增长。32768 tokens 上下文通常需额外 6–10 GB 显存。

9 Keep-Alive 与模型自动卸载

答案：

Keep-Alive 控制模型在完成请求后在内存中的驻留时长，超时后自动卸载以释放显存。

配置方式	示例	说明
环境变量 `OLLAMA_KEEP_ALIVE`	`300s` / `5m` / `-1`	全局默认值，`-1` 为永久驻留
API 请求 `keep_alive`	`{"keep_alive": "10m"}`	请求级别覆盖

# 模型空闲 10 分钟后自动卸载
export OLLAMA_KEEP_ALIVE=10m

# 模型永不自动卸载（一直占用显存）
export OLLAMA_KEEP_ALIVE=-1

# 请求时指定 keep_alive
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [{"role": "user", "content": "Hello"}],
  "keep_alive": "5m"
}'

卸载触发逻辑：

模型完成最后一次请求，计时器启动。
Keep-Alive 期间有新请求到达，计时器重置。
超时后模型从显存/内存卸载，释放 GPU/CPU 内存。
卸载与加载均为同步操作，期间该模型的新请求需排队等待重新加载。

Keep-Alive 设置为 -1 时，模型仅在满足以下条件之一才卸载：同模型重新加载（版本更新）、显存不足触发 OOM 策略、ollama stop 手动停止。

10 OpenAI 兼容 API

答案：

Ollama 提供 OpenAI 兼容接口，无缝替换 OpenAI SDK 或 LangChain 中的 api_base。

端点	对应 OpenAI 端点	说明
`/v1/chat/completions`	`https://api.openai.com/v1/chat/completions`	对话补全
`/v1/embeddings`	`https://api.openai.com/v1/embeddings`	文本嵌入向量
`/v1/models`	`https://api.openai.com/v1/models`	列出本地模型

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # Ollama 不验证 API key，值可为任意非空字符串
)

# 对话补全
response = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role": "user", "content": "解释 Kubernetes Service 类型"}]
)
print(response.choices[0].message.content)

# 嵌入向量
embed = client.embeddings.create(
    model="nomic-embed-text",
    input="Kubernetes 集群高可用架构"
)
print(len(embed.data[0].embedding))  # 768

兼容性差异：

特性	OpenAI	Ollama
Streaming	支持	支持
Function Calling	原生支持	依赖模型内置能力（非 API 级支持）
Vision	原生多模态 API	需模型支持（llava 等）
Logprobs	支持	部分模型支持
Seed	支持	支持（`options.seed`）

LangChain 集成方式：

from langchain_ollama import ChatOllama, OllamaEmbeddings

llm = ChatOllama(model="llama3.2", base_url="http://localhost:11434")
embeddings = OllamaEmbeddings(model="nomic-embed-text")

11 Embedding 生成与向量检索

答案：

Ollama 内置 embedding 模型支持，通过 /api/embed 和 /v1/embeddings 端点生成文本向量。

常用 Embedding 模型	维度	适用场景
`nomic-embed-text`	768	通用向量检索
`mxbai-embed-large`	1024	高精度语义检索
`all-minilm`	384	轻量级本地检索
`snowflake-arctic-embed`	1024	多语言向量检索

# 拉取 embedding 模型
ollama pull nomic-embed-text

# 生成嵌入向量
curl http://localhost:11434/api/embed -d '{
  "model": "nomic-embed-text",
  "input": "Kubernetes 集群高可用架构"
}'

import ollama

# 批量生成向量
docs = ["Kubernetes Service", "Deployment 控制器", "Ingress 路由"]
embeddings = [ollama.embed(model="nomic-embed-text", input=doc)["embedding"] for doc in docs]
# 每条向量长度 768

RAG 典型集成流程：

使用 ollama.embed() 将知识库文档向量化并存入向量数据库（ChromaDB / Qdrant / Milvus）。
用户查询时用同一 embedding 模型生成查询向量。
在向量数据库中执行相似度检索召回 Top-K 文档片段。
将召回文档注入 LLM prompt 作为上下文补充。

# ChromaDB 集成示例
import chromadb
client = chromadb.HttpClient(host="localhost", port=8000)
collection = client.get_collection("docs")

query_embed = ollama.embed(model="nomic-embed-text", input=query)["embedding"]
results = collection.query(query_embeddings=[query_embed], n_results=3)
context = "\n".join(results["documents"][0])

response = ollama.chat(model="llama3.2", messages=[
    {"role": "system", "content": f"根据以下上下文回答：\n{context}"},
    {"role": "user", "content": query}
])

12 Vision 多模态模型支持

答案：

Ollama 支持 vision 多模态模型，可接收图片输入，实现基于图像的问答、OCR 与场景理解。

模型	基础架构	图片格式	推荐场景
llava / llava:13b	LLaVA + Llama 2	PNG, JPEG	通用图像理解
llava-llama3	LLaVA + Llama 3	PNG, JPEG	多模态对话
llava-phi3	LLaVA + Phi-3	PNG, JPEG	轻量视觉推理
bakllava	多语言 LLaVA	PNG, JPEG	多语言图像问答
minicpm-v	MiniCPM-V	PNG, JPEG	边缘设备多模态
gemma3	Gemma 3 系列	PNG, JPEG	Google 多模态模型

import ollama

# 单张图片问答
with open("k8s-architecture.png", "rb") as f:
    response = ollama.chat(
        model="llava",
        messages=[{
            "role": "user",
            "content": "描述图中的 Kubernetes 架构组件",
            "images": [f.read()]
        }]
    )
print(response["message"]["content"])

# 多张图片对比
with open("before.png", "rb") as f1, open("after.png", "rb") as f2:
    response = ollama.chat(
        model="llava",
        messages=[{
            "role": "user",
            "content": "对比这两张截图中的差异",
            "images": [f1.read(), f2.read()]
        }]
    )

Vision 模型底层将图片编码为 embedding patch，与文本 token 拼接后共同输入 Transformer。

注意事项：

图片分辨率过高会导致特征向量膨胀，建议先压缩至 1024px 以内。
Vision 模型推理显存消耗高于纯文本模型，8B 多模态模型大约需 6–8 GB 显存。

13 Function Calling / Tool Calling

答案：

Ollama 不提供原生 API 级 Function Calling 支持（如 OpenAI 的 tools / tool_choice 参数）。其 tool calling 依赖模型训练时内置的指令跟随能力，需通过 prompt 工程实现。

实现方式一：Prompt 引导 JSON 输出

import ollama
import json

functions = [
    {
        "name": "get_weather",
        "description": "获取指定城市的天气",
        "parameters": {
            "city": "城市名称",
            "unit": "温度单位（celsius/fahrenheit）"
        }
    }
]

prompt = f"""可用函数：{json.dumps(functions, ensure_ascii=False)}

用户说："北京今天天气如何？"
如果用户意图匹配某函数，仅返回 JSON：
XQOPEN"function": "get_weather", "parameters": {{"city": "北京", "unit": "celsius"XQCLOSE}}
否则返回："no_function""

response = ollama.generate(model="llama3.2", prompt=prompt)

实现方式二：使用支持 Tool Calling 的模型

模型	Tool Calling 能力
llama3.1 / llama3.2 / llama3.3	原生支持，需 JSON 模式 prompt
mistral / mixtral	原生支持 function calling
qwen2.5:7b / qwen2.5:14b	指令微调支持 tool use
command-r / command-r-plus	原生 RAG + tool use
granite3.1-dense	IBM Granite 工具调用
nemotron-mini	NVIDIA tool calling

# llama3.1 内置 tool calling 模式
response = ollama.chat(model="llama3.1:8b", messages=[
    {"role": "system", "content": "对用户请求返回 JSON，包含 intention 和参数"},
    {"role": "user", "content": "北京明天天气"}
])

Ollama 的 Function Calling 在以下条件可用：选用支持 tool call 的指令微调模型，且以 JSON 格式约束输出，但无内置 tool_choice 强制机制。对严格生产环境，建议通过 LiteLLM Proxy 拦截请求，由网关层注入 OpenAI 兼容的 tools 参数到 prompt。

14 REST API 详解

答案：

Ollama 提供两套 API：原生 API（/api/*）与 OpenAI 兼容 API（/v1/*）。

端点	方法	说明
`/api/generate`	POST	文本生成（补全模式，支持 streaming）
`/api/chat`	POST	对话生成（chat 模式，支持 streaming）
`/api/create`	POST	从 Modelfile 创建模型
`/api/pull`	POST	从 registry 拉取模型
`/api/push`	POST	推送本地模型至 registry
`/api/delete`	DELETE	删除本地模型
`/api/copy`	POST	复制模型（重命名）
`/api/list`	GET	列出本地模型
`/api/show`	POST	查看模型详情（Modelfile、量化、参数）
`/api/embed`	POST	生成嵌入向量
`/api/tags`	GET	列出本地模型标签
`/api/ps`	GET	查看当前加载的模型进程
`/api/version`	GET	Ollama 版本信息
`/api/blobs/:digest`	HEAD / POST	二进制模型 Blob 操作

# 对话（streaming 关闭）
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [{"role": "user", "content": "什么是 SRE？"}],
  "stream": false,
  "options": {"temperature": 0.2, "num_ctx": 4096}
}'

# 生成（streaming）
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Generate a Dockerfile for Go application",
  "stream": true
}'

# 查看当前加载的模型
curl http://localhost:11434/api/ps

# 查看模型详情
curl http://localhost:11434/api/show -d '{"model": "llama3.2:8b"}'

# 删除模型
curl -X DELETE http://localhost:11434/api/delete -d '{"model": "old-model:latest"}'

# 复制模型
curl http://localhost:11434/api/copy -d '{
  "source": "llama3.2:8b",
  "destination": "my-llama:prod"
}'

Generate 与 Chat 端点差异：

特性	`/api/generate`	`/api/chat`
输入格式	`prompt` 字符串	`messages` 数组
上下文	手动拼接 `context`	自动管理对话上下文
Streaming	`response` 逐 token 返回	`message.content` 逐 token 返回
适用	补全任务、代码生成	多轮对话、助手交互

15 Kubernetes 部署方案

答案：

Ollama 在 Kubernetes 上的部署包含推理服务和 Web UI 两层。

部署方案一：Helm Chart（社区方案）

# 添加社区 Helm 仓库并部署
helm repo add ollama-helm https://otwld.github.io/ollama-helm/
helm install ollama ollama-helm/ollama \
  --set runtimeClassName=nvidia \
  --set ollama.gpu.enabled=true \
  --set ollama.models[0].name=llama3.2:8b \
  --set ollama.models[1].name=nomic-embed-text \
  --set service.type=ClusterIP \
  --set persistence.enabled=true \
  --set persistence.size=50Gi

部署方案二：纯 Kubernetes YAML

apiVersion: apps/v1
kind: Deployment
metadata:
  name: ollama
spec:
  replicas: 1
  selector:
    matchLabels:
      app: ollama
  template:
    metadata:
      labels:
        app: ollama
    spec:
      runtimeClassName: nvidia
      containers:
      - name: ollama
        image: ollama/ollama:latest
        ports:
        - containerPort: 11434
        env:
        - name: OLLAMA_HOST
          value: "0.0.0.0"
        - name: OLLAMA_KEEP_ALIVE
          value: "24h"
        - name: NVIDIA_VISIBLE_DEVICES
          value: "all"
        resources:
          limits:
            nvidia.com/gpu: "1"
            memory: "16Gi"
        volumeMounts:
        - name: models
          mountPath: /root/.ollama
      volumes:
      - name: models
        persistentVolumeClaim:
          claimName: ollama-models
apiVersion: v1
kind: Service
metadata:
  name: ollama
spec:
  ports:
  - port: 11434
    targetPort: 11434
  selector:
    app: ollama

Open WebUI 集成：

# Open WebUI Deployment 连接 Ollama Service
apiVersion: apps/v1
kind: Deployment
metadata:
  name: open-webui
spec:
  template:
    spec:
      containers:
      - name: open-webui
        image: ghcr.io/open-webui/open-webui:main
        env:
        - name: OLLAMA_BASE_URL
          value: "http://ollama.default.svc.cluster.local:11434"
        ports:
        - containerPort: 8080

注意事项：

GPU 节点需预先安装 NVIDIA Operator（gpu-operator）、Intel GPU Plugin 或 AMD GPU Operator。
模型首次拉取延迟较大（数分钟至数十分钟），建议使用 Init Container 预拉取或在 PV 中预置。
多副本场景下每副本独立加载模型至显存，成倍消耗 GPU 内存，推荐使用 OLLAMA_KEEP_ALIVE=-1 减少重复加载。

16 多 GPU 环境配置

答案：

Ollama 支持多 GPU 推理，将模型层分布到不同 GPU，减轻单卡显存压力。

配置方式	说明
`CUDA_VISIBLE_DEVICES`	控制 Ollama 可见 GPU 序号
自动检测	serve 启动时遍历所有可见 NVIDIA GPU，按显存容量和当前占用分配层
Modelfile 微调	PARAMETER 无直接多 GPU 参数，全由环境变量和 llama.cpp 层分配决定

# 仅使用 GPU 0 和 GPU 2
export CUDA_VISIBLE_DEVICES=0,2
ollama serve

层分配策略：

llama.cpp 后端按 GPU PCIe 拓扑顺序逐层分配：Layer 0 从 GPU 0 开始。
每个 GPU 可容纳的最大层数 = (显存空闲 - KV Cache预留) / 单层量化大小。
单 GPU 装不下的层自动溢出到下一 GPU 或 CPU 内存（split 模式）。
Tensor Parallelism（张量并行）在 Ollama 中未原生化支持，模型跨 GPU 仅为层拆分（Layer Split），非张量拆分。

对于超大模型（70B+）必须依赖多 GPU 层拆分：

# 四卡 A100 80GB 加载 llama3.1:70b
# 自动分配大约：GPU 0: 20层, GPU 1: 20层, GPU 2: 20层, GPU 3: 20层
CUDA_VISIBLE_DEVICES=0,1,2,3 ollama run llama3.1:70b

17 显存与内存管理

答案：

两个核心环境变量控制 Ollama 的资源使用：

环境变量	默认值	说明
`OLLAMA_NUM_PARALLEL`	1	同一模型的最大并发请求数。设为 n 则预分配 n 套 KV Cache
`OLLAMA_MAX_LOADED_MODELS`	1	同时驻留显存的不同模型最大数量。超出时按 LRU 卸载

# 支持 4 并发推理（一个模型同时处理 4 个请求）
export OLLAMA_NUM_PARALLEL=4

# 同时驻留 3 个不同模型
export OLLAMA_MAX_LOADED_MODELS=3

显存消耗估算公式（8B 模型）：

组件	Q4_K_M 消耗	Q8_0 消耗
模型权重	~5 GB	~9 GB
KV Cache（4096 ctx / 并行1）	~0.5 GB	~0.5 GB
KV Cache（32768 ctx / 并行4）	~16 GB	~16 GB
运行时 overhead	~0.5 GB	~0.5 GB
总计（典型场景）	~6 GB	~10 GB

内存回退机制：

当 GPU 显存不足以容纳全部模型层时，Ollama 自动将超出层加载至 CPU 内存。代价：部分层在 CPU 执行推理，吞吐下降 10–50 倍（取决于 CPU 与 GPU 层数比例）。

# 查看模型层在 GPU/CPU 上的分布
ollama ps

# 示例输出：
# NAME          ID           SIZE    PROCESSOR    UNTIL
# llama3.2:8b   abc123...    5.9 GB  100% GPU    4 minutes from now

18 OLLAMA_HOST / OLLAMA_ORIGINS / OLLAMA_KEEP_ALIVE 配置

答案：

环境变量	默认值	作用
`OLLAMA_HOST`	`127.0.0.1:11434`	API 监听地址与端口
`OLLAMA_ORIGINS`	`chrome-extension://*`	CORS 允许来源
`OLLAMA_KEEP_ALIVE`	`5m`	模型空闲后自动卸载的超时时间
`OLLAMA_MAX_LOADED_MODELS`	`1`	可同时驻留显存的不同模型最大数量
`OLLAMA_NUM_PARALLEL`	`1`	单模型最大并发请求数
`OLLAMA_DEBUG`	关闭	开启调试日志
`OLLAMA_MAX_VRAM`	不限制	限制 Ollama 最大使用显存量（字节）
`OLLAMA_MODELS`	`~/.ollama/models`	模型文件存储路径
`OLLAMA_TMPDIR`	系统默认	临时文件目录
`OLLAMA_FLASH_ATTENTION`	关闭	开启 Flash Attention（部分模型支持）
`OLLAMA_LLM_LIBRARY`	自动	指定 llama.cpp 库路径

# 生产环境 Service 启动配置
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_ORIGINS="https://webui.example.com,https://api.example.com"
export OLLAMA_KEEP_ALIVE=24h
export OLLAMA_NUM_PARALLEL=4
export OLLAMA_MAX_LOADED_MODELS=3
ollama serve

# systemd Unit
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
Environment="OLLAMA_KEEP_ALIVE=24h"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=2"
ExecStart=/usr/local/bin/ollama serve

19 并发队列与请求排队机制

答案：

Ollama 内部基于 goroutine + channel 实现请求排队与批处理。

机制	说明
请求入口	HTTP /api/chat、/api/generate 路由至对应 handler
模型加载模式	同一模型到达的并发请求被路由到同一 runner 子进程
队列	若模型未加载，请求在 serve 进程内排队，等待模型加载完成后按 FIFO 顺序处理
批处理	llama.cpp 后端将多个并发请求组成 batch，提升 GPU 吞吐
超时	serve 进程无请求级别超时；连接超时需在反向代理层配置

请求处理流程：

HTTP 请求到达 serve。
serve 根据 model 名称查找 runner 子进程。
若 runner 未启动：先加载模型至显存，再处理请求。
若 runner 已启动且有空闲槽位：立即处理。
若 runner 并发槽位已满（达到 OLLAMA_NUM_PARALLEL）：请求在 goroutine channel 排队，等待空闲槽位。

反向代理层流量管理：

# Nginx 并发限制与排队
upstream ollama_backend {
    server 127.0.0.1:11434;
}

limit_req_zone $binary_remote_addr zone=ollama_limit:10m rate=10r/s;

server {
    location /api/ {
        limit_req zone=ollama_limit burst=20 nodelay;
        proxy_pass http://ollama_backend;
        proxy_read_timeout 300s;
    }
}

20 日志与调试

答案：

Ollama 日志通过环境变量 OLLAMA_DEBUG 控制，支持多种输出级别。

环境变量	值	行为
`OLLAMA_DEBUG`	未设置	仅 ERROR 级别日志
`OLLAMA_DEBUG`	`1`	INFO 级别（模型加载、层分配、请求处理）
`OLLAMA_DEBUG`	`2`	DEBUG 级别（详细 KV Cache、算子编译）

# 启动调试模式
OLLAMA_DEBUG=1 ollama serve 2>&1 | tee ollama-debug.log

日志输出示例与含义：

# OLLAMA_DEBUG=1 输出
time=... level=INFO source=... msg="starting llama runner" cmd="/tmp/ollama20999/rocm-smi/ollama_llama_server"
time=... level=INFO source=... msg="model loaded" model=llama3.2:8b layers=32 gpuLayers=32 mem=5.4GB
time=... level=INFO source=... msg="llama runner started" duration="2.3s"
time=... level=INFO source=... msg="request" method=POST uri=/api/chat status=200 duration=3.2s

# OLLAMA_DEBUG=2 额外输出
time=... level=DEBUG source=... msg="loaded 1536MB of model to GPU 0"
time=... level=DEBUG source=... msg="allocated KV cache" size=524288

关键日志字段解读：

字段	含义
`gpuLayers=32`	模型共 32 层全部加载至 GPU
`gpuLayers=24`	仅 24 层在 GPU，剩余在 CPU
`mem=5.4GB`	模型 + KV Cache 总显存消耗
`status=200 duration=3.2s`	单次请求延迟

# 实时监控模型状态
watch -n 2 'curl -s http://localhost:11434/api/ps | jq .'

# 查看 runner 日志位置
ls /tmp/ollama*/ollama_llama_server

故障排查常用日志模式：

out of memory —— 显存不足，降低 num_ctx 或切换更低量化级别。
ollama_llama_server not found —— CUDA / ROCm 库缺失或 runner 编译失败。
connection refused —— serve 未启动或 OLLAMA_HOST 仅绑定 127.0.0.1。

21 模型量化选择策略

答案：

量化选型需在质量（perplexity）、推理速度（tokens/s）与显存三者间权衡。

场景	推荐量化	理由
开发调试 / 代码补全	Q8_0	高精度，输出质量接近 F16
生产 API（客服/问答）	Q4_K_M	速度与质量最佳平衡，显存效率高
RAG 检索增强	Q4_K_M	检索对模型精度不敏感，速度优先
内容生成 / 写作	Q5_K_M	创意任务需要更高精度
低显存设备	Q4_0 / Q3_K_M	4 GB 以下显存适配
边缘设备 / IoT	Q3_K_S / Q2_K	极低资源占用
微调基座模型	F16 / FP32	需全精度参数
代码审核 / 法律	Q8_0	关键任务需最小质量折损

质量损失量化参考（8B 模型，MMLU 基准）：

量化	MMLU 相对得分	推理速度（RTX 4090）	显存
FP32	100%	基准	32 GB
F16	99.9%	1.2x	16 GB
Q8_0	99.5%	1.5x	9 GB
Q5_K_M	98.5%	2.0x	6.5 GB
Q4_K_M	97.5%	2.5x	5.5 GB
Q4_0	95.0%	2.8x	5 GB
Q3_K_M	91.0%	3.0x	4 GB

22 Template 与 Prompt 自定义

答案：

Ollama 使用 Go template 引擎渲染 prompt，System Prompt 与 Template 相互配合控制模型的输入格式。

Template 变量：

变量	Chat 模式	Generate 模式	说明
`{{ .System }}`	有	无	SYSTEM 指令内容
`{{ .Prompt }}`	无	有	用户输入的 prompt 字符串
`{{ .Response }}`	无	有	已生成的回复（用于续写）
`{{ .Messages }}`	有	无	对话消息数组

# chat 模式模板示例（llama3.2 格式）
TEMPLATE """XQOPEN if .System XQCLOSE<|start_header_id|>system<|end_header_id|>

XQOPEN .System XQCLOSE<|eot_id|>XQOPEN end XQCLOSEXQOPEN range .Messages XQCLOSEXQOPEN if eq .Role "user" XQCLOSE<|start_header_id|>user<|end_header_id|>

XQOPEN .Content XQCLOSE<|eot_id|><|start_header_id|>assistant<|end_header_id|>

XQOPEN else if eq .Role "assistant" XQCLOSEXQOPEN .Content XQCLOSE<|eot_id|>XQOPEN end XQCLOSEXQOPEN end XQCLOSE"""

# generate 模式模板示例
TEMPLATE """XQOPEN .System XQCLOSE
### Instruction:
XQOPEN .Prompt XQCLOSE
### Response:
XQOPEN .Response XQCLOSE"""

OpenAI 兼容 API 模板行为：

当通过 /v1/chat/completions 调用时，Ollama 将标准 messages 数组转换为 Ollama 原生消息格式后，再套用 Template 渲染。这意味着改变 Template 会影响所有上层调用方式。

23 安全考量

答案：

Ollama 设计初衷为本地开发工具，默认安全配置不适用于直接暴露在公网。

风险	说明	缓解措施
无认证机制	API key 不验证，任意可达者均可调用	反代层添加 Basic Auth / Bearer Token / API Gateway
无访问控制	无角色隔离、无 model 级权限	代理层按 model 路由，注入权限校验
默认仅监听 127.0.0.1	误设为 0.0.0.0 即暴露至全网	仅监听内网接口；防火墙白名单限制来源 IP
OLLAMA_ORIGINS 宽松	设为 `*` 允许任意源 CORS	精确指定允许的前端域名列表
敏感数据泄露	请求日志未脱敏，prompt 可能含 PII	网络层日志脱敏；生产环境使用 obfuscation 中间件
模型投毒	`ollama pull` 无签名校验，依赖 registry 信任链	仅使用官方 library 模型；手动验证 SHA256 digest
接口无速率限制	可被高频请求打崩	Nginx / Envoy / Ingress 限流；LiteLLM 集成限速

# 安全部署示例：反代 + Nginx Basic Auth
export OLLAMA_HOST=127.0.0.1:11434

# Nginx 反代配置
# 生成 htpasswd: htpasswd -c /etc/nginx/.htpasswd ollama-admin

server {
    listen 443 ssl;
    server_name ollama.internal.example.com;

    ssl_certificate     /etc/nginx/ssl/fullchain.pem;
    ssl_certificate_key /etc/nginx/ssl/privkey.pem;

    auth_basic "Ollama API";
    auth_basic_user_file /etc/nginx/.htpasswd;

    location / {
        proxy_pass http://127.0.0.1:11434;
        proxy_read_timeout 300s;
    }
}

生产安全增强架构：

User/App --> Auth Gateway (OAuth2/OIDC) --> LiteLLM Proxy --> Ollama (127.0.0.1 only)
                  |
            Rate Limiting + Audit Log

24 推理性能优化

答案：

Ollama 推理性能受模型加载策略、并行数、batch 大小等因素影响。

参数	位置	作用	推荐值
`num_gpu` (NGL)	Modelfile PARAMETER	加载至 GPU 的层数，设为 999 表示全加载	默认自动，显存充足不修改
`num_thread`	Modelfile PARAMETER	CPU 推理线程数（仅 GPU 层不足时生效）	CPU 核心数 – 2
`num_batch`	Modelfile PARAMETER	单次 batch 处理的 token 数（影响 prompt 评估速度）	512（默认），可调至 1024
OLLAMA_NUM_PARALLEL	环境变量	最大并发请求，对应 KV Cache 预分配数	4–8
OLLAMA_FLASH_ATTENTION	环境变量	开启 Flash Attention，节省 KV Cache 显存	开启（若模型支持）

FROM llama3.2:8b-instruct-q4_K_M
PARAMETER num_gpu 999
PARAMETER num_thread 14
PARAMETER num_batch 1024
PARAMETER num_ctx 8192

# 启用 Flash Attention
export OLLAMA_FLASH_ATTENTION=1
ollama serve

关键性能指标优化：

瓶颈	症状	优化方向
Prompt 处理慢	TTFT 过高	提高 num_batch（512→1024）
生成速度慢	TPS 低	提高 num_gpu（减少 CPU 层）、降低量化精度
并发阻塞	队列积压	提高 OLLAMA_NUM_PARALLEL
显存不足 OOM	进程 crash	降低 num_ctx、换更低量化、增加 GPU 数量
加载延迟大	首次请求超时	OLLAMA_KEEP_ALIVE=-1 保持热加载

性能基准（RTX 4090，llama3.2:8b-instruct-q4_K_M）：

场景	TPS（tokens/s）	TTFT（Time to First Token）
Prompt 评估（512 tokens）	—	~50 ms
Token 生成（单并发）	~95 t/s	—
Token 生成（4 并发）	~75 t/s per request	—
num_batch=1024 时 Prompt 评估	—	~35 ms

25 Ollama 与 vLLM 对比

答案：

Ollama 与 vLLM 是两种不同定位的本地 LLM 推理引擎。

维度	Ollama	vLLM
设计理念	易用性优先、开箱即用	高吞吐、生产级推理性能
易用性	`ollama run llama3.2` 一条命令启动	需准备 Python 环境、HuggingFace 模型
模型格式	GGUF（量化单文件）	HF Transformers（Safetensors / PyTorch）
底层引擎	llama.cpp	vLLM 自研（PagedAttention + Continuous Batching）
量化	内置多级 K-Quant（Q4–Q8）	AWQ、GPTQ、FP8、INT8（需 HF 权重）
并发吞吐	中等（llama.cpp batch）	高（Continuous Batching + PagedAttention）
KV Cache	固定预分配	PagedAttention 动态管理（近零浪费）
分布式	单节点层拆分（无张量并行）	多节点张量并行 + 管道并行
API 兼容	OpenAI 兼容 + 原生 API	原生兼容 OpenAI API
CPU 推理	原生高效（mmap + NUMA 优化）	不推荐（性能极差）
GPU 内存效率	中	高（PagedAttention 共享 KV Cache）
适合场景	本地开发、个人实验、边缘部署	高并发生产 API、batch 离线推理

PagedAttention 核心差异：

vLLM 将 KV Cache 按 block 分页管理，不同请求共享同一物理 block，碎片趋近于零，显存利用率可达 90%+。Ollama 依赖 llama.cpp 预分配连续 KV Cache，并发越高浪费越大。

选型决策：

条件	推荐
个人笔记本 / 单 GPU 开发	Ollama
高吞吐生产 API（> 100 QPS）	vLLM
CPU 推理	Ollama（无替代方案）
需要 GGUF 量化生态	Ollama
需要 Prefix Caching / 动态 Batching	vLLM
快速原型验证	Ollama
企业级 API Gateway 集成	vLLM

26 Ollama 与 llama.cpp 的关系

答案：

Ollama 是 llama.cpp 的上层封装，二者关系如下：

维度	llama.cpp	Ollama
定位	C/C++ LLM 推理库	开发者工具 + HTTP 服务
接口	C API / CLI `llama-cli`	HTTP REST API + OpenAI Compat API + CLI
使用方式	编译 C++ 项目 + 传参 CLI 启动	一条命令拉取并运行模型
模型管理	手动下载 GGUF	自动 Pull / Push / Create / Tag
Modelfile	无	有（FROM / PARAMETER / SYSTEM / TEMPLATE）
并发管理	需自己实现	内置 runner 管理 + goroutine 并发
GPU 自动检测	编译时指定后端	运行时自动检测 CUDA/Metal/ROCm
跨平台	Linux / macOS / Windows	Linux / macOS / Windows + Docker

架构层级：

Ollama CLI / SDK
      |
   Ollama Serve (Go)
      |
   runner (llama.cpp C/C++ 子进程)
      |
   CUDA / Metal / ROCm / CPU BLAS

Ollama 在每次启动时编译 llama.cpp 为 runner 可执行文件（/tmp/ollama*/ollama_llama_server），然后以子进程方式启动 runner，serve 与 runner 之间通过 gRPC 通信。

版本跟随： Ollama 随版本升级捆绑不同版本的 llama.cpp。可通过 ollama version 查看捆绑的 llama.cpp commit hash。

ollama --version
# ollama version is 0.5.7
# llama.cpp version is b4385

27 Ollama 与 Text Generation WebUI（Oobabooga）对比

答案：

维度	Ollama	Text Gen WebUI (Oobabooga)
定位	CLI 优先 + REST API 推理服务	全功能 Web UI + 实验平台
安装	`brew install ollama` / `apt install ollama`	需 clone GitHub + conda/Python 环境
模型格式	GGUF 专用	GGUF / GPTQ / AWQ / HF Transformers / ExLlamaV2
后端引擎	仅 llama.cpp	llama.cpp / ExLlamaV2 / AutoGPTQ / Transformers
训练/微调	不支持	支持 LoRA / QLoRA 微调
Web 界面	无（需 Open WebUI）	内置 Gradio Web UI
API	OpenAI 兼容 + 原生 API	OpenAI 兼容 + 原生 API + Streaming
GPU 加速	自动检测	需手动选择 loader
Extension	无插件系统	内置扩展（Whisper STT、Coqui TTS、SillyTavern 集成）
便携性	单二进制	Python + 大量 pip 依赖

适用场景分工：

场景	推荐
快速运行模型、API 集成	Ollama
模型对比实验、参数调优	Text Gen WebUI
LoRA 微调	Text Gen WebUI
CPU 推理	Ollama
各类量化格式混用	Text Gen WebUI
生产 API 服务	Ollama + 反代
RAG 集成开发	Ollama（OpenAI 兼容 API 生态）

28 生产环境局限性与适用场景

答案：

局限性：

局限	详情
无高可用	单节点单实例，无负载均衡、无故障转移
无认证授权	开放 API 无内建访问控制
无速率限制	自身无流控，需反向代理补足
无监控指标	无 Prometheus /metrics 端点，无 OpenTelemetry tracing
KV Cache 效率低	固定预分配（非 PagedAttention），并发对显存的利用率仅 ~50%
无 Prefix Caching	无法跨请求共享相同 prefix 的 KV Cache
模型切换延迟	不同模型间切换需全量卸载+重新加载，耗时数十秒至数分钟
无分布式推理	不支持 Tensor Parallelism 跨节点
无内置 gateway	无请求路由、模型版本灰度、回滚

适用场景：

场景	合适程度
本地开发与调试	最佳
企业内部小团队共享 API（< 10 并发）	合适
CI/CD 中的 LLM 评测（单次调用）	合适
边缘设备推理	最佳
CPU 环境推理	最佳
对外生产 API（> 50 并发 SLA）	不合适，建议 vLLM / TGI
需要审计、认证、多租户的 SaaS	不合适

29 常见故障排查

答案：

故障一：连接被拒绝（Connection Refused）

排查项	检查命令 / 方法
serve 是否运行	`curl http://localhost:11434/api/version`
端口监听状态	`lsof -i :11434` 或 `ss -tlnp \| grep 11434`
OLLAMA_HOST 绑定地址	若为 `127.0.0.1`，仅本机可达
防火墙规则	`iptables -L -n \| grep 11434`

# 重启 serve 并绑定所有网卡
OLLAMA_HOST=0.0.0.0:11434 ollama serve

故障二：显存不足（Out of Memory / CUBLAS_STATUS_ALLOC_FAILED）

排查项	解决方案
其他进程占用显存	`nvidia-smi` 确认显存状态
num_ctx 设置过高	调低 Context Window（4096 → 2048）
量化级别过高	从 Q8_0 降为 Q4_K_M
多模型同时加载	`OLLAMA_MAX_LOADED_MODELS=1`
OLLAMA_NUM_PARALLEL 过高	降低至 1–2
限制 Ollama 最大显存	`export OLLAMA_MAX_VRAM=8000000000`（约 8 GB）

故障三：模型拉取失败

# 排查网络与 registry 连通性
curl -I https://registry.ollama.ai/v2/

# 检查代理设置
env | grep -i proxy

# 手动验证模型存在
curl -s https://ollama.com/library/llama3.2 | grep -o "llama3.2.*"

# 清理损坏下载
rm -rf ~/.ollama/models/blobs/sha256-<partial-hash>
ollama pull <model>

故障四：模型加载缓慢

原因	解决
首次使用需下载 GGUF（几 GB）	提前预热：`ollama pull` 预加载
每请求触发冷加载	设置 `OLLAMA_KEEP_ALIVE=-1`
模型频繁切换	增加 `OLLAMA_MAX_LOADED_MODELS` 或专用多个实例

故障五：GPU 未被检测

# 验证 CUDA 驱动
nvidia-smi

# 查看 serve 日志中的 GPU 检测信息
OLLAMA_DEBUG=1 ollama serve 2>&1 | grep -i "gpu\|cuda\|rocm"

# 确认 llama.cpp runner 是否编译了 CUDA support
ollama serve 2>&1 | grep "cuda\|rocm\|metal"

故障六：输出乱码或截断

原因	方案
stop token 配置错误	Modelfile PARAMETER stop 调整
num_predict 过低	提高或移除 num_predict
num_ctx 不足以容纳 prompt + 生成	提高 num_ctx
模型 Tokenizer 不匹配	确认 FROM 引用的模型与 Template 匹配

30 生产环境增强方案

答案：

方案一：Open WebUI + Ollama（轻量生产）

Browser --> Open WebUI (8080) --> Ollama (11434)

version: "3.8"
services:
  ollama:
    image: ollama/ollama:latest
    volumes:
      - ollama_data:/root/.ollama
    environment:
      - OLLAMA_KEEP_ALIVE=24h
      - OLLAMA_HOST=0.0.0.0
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            count: 1
            capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    ports:
      - "8080:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - webui_data:/app/backend/data

volumes:
  ollama_data:
  webui_data:

方案二：LiteLLM Proxy 增强（企业级）

Client --> LiteLLM Proxy (4000) --> Ollama (11434)
              |
        Auth + Rate Limit + Logging + Cost Tracking

# LiteLLM Proxy config
model_list:
  - model_name: gpt-4o-mini
    litellm_params:
      model: ollama/llama3.2:8b-instruct-q4_K_M
      api_base: http://ollama:11434
  - model_name: text-embedding-3-small
    litellm_params:
      model: ollama/nomic-embed-text
      api_base: http://ollama:11434

general_settings:
  master_key: ${LITELLM_MASTER_KEY}

litellm_settings:
  num_retries: 3
  request_timeout: 300
  set_verbose: true
  drop_params: true

pip install 'litellm[proxy]'
litellm --config proxy_config.yaml --port 4000

方案三：Nginx Auth Gateway + Ollama（运维团队）

upstream ollama {
    server 127.0.0.1:11434;
}

server {
    listen 443 ssl;
    server_name llm.internal.company.com;

    ssl_certificate     /etc/nginx/ssl/cert.pem;
    ssl_certificate_key /etc/nginx/ssl/key.pem;

    # 服务间认证
    auth_request /auth;
    auth_request_set $auth_status $upstream_status;

    # 速率限制：每 IP 10 req/s，burst 20
    limit_req_zone $binary_remote_addr zone=ollama:10m rate=10r/s;
    limit_req zone=ollama burst=20 nodelay;

    location / {
        proxy_pass http://ollama;
        proxy_read_timeout 300s;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
    }

    location = /auth {
        internal;
        proxy_pass http://127.0.0.1:8081/validate;  # 自建 Auth Service
        proxy_pass_request_body off;
        proxy_set_header X-Original-URI $request_uri;
        proxy_set_header X-Api-Key $http_authorization;
    }
}

方案四：Docker Compose 完整栈

graph TD
    Nginx["Nginx (443: Auth)"]
    O1["Ollama #1 (llama3.2)"]
    O2["Ollama #2"]
    O3["Ollama #3 (llama3.1)"]
    PV["Shared PV (models/)"]

    Nginx --> O1
    Nginx --> O2
    Nginx --> O3
    O1 --> PV
    O2 --> PV
    O3 --> PV

增强总结：

方案	适用场景	复杂度	核心收益
Open WebUI	团队共享 UI、文档 RAG	低	Web 界面、对话历史、RAG
LiteLLM Proxy	多模型网关、统一鉴权	中	Auth、Rate Limit、指标、多后端
Nginx Auth Gateway	内部 API 暴露	低	基础认证、限流、TLS
Docker Compose 多实例	多个不同模型常驻	中	避免模型切换延迟、资源隔离