开源模型选型指南¶

一句话说明：这篇教程帮你搞清楚 2025-2026 年主流开源大模型的区别，并根据你 8G 显存的实际情况，选出最适合生信面试准备和日常使用的模型。

目录¶

为什么要学模型选型
核心概念白话版
主流开源模型详解
按场景选型指南
8G 显存实用方案
显存计算速查
模型下载与使用
基准测试对比表
常见问题与解决
速查表
延伸学习资源

1. 为什么要学模型选型¶

开源模型的优势¶

优势	白话解释
免费	不用按 token 付费，本地跑多少次都不花钱
隐私安全	数据不出你的电脑，生信数据（比如病人肠道菌群）不会泄露
可离线使用	断网也能用，实验室网络不好也不怕
可定制微调	可以用自己的数据训练，比如专门训一个懂宏基因组的助手
学习价值	面试会问"你了解哪些开源模型"，这就是加分项

为什么选型很重要¶

错误选型的后果： - 选太大的模型 → 显存炸了，根本跑不起来 - 选太小的模型 → 回答质量差，还不如不用 - 选错方向的模型 → 要写代码却选了个擅长聊天的，事倍功半

正确选型 = 在你的硬件条件下，找到质量和速度的最佳平衡点。

2. 核心概念白话版¶

2.1 参数量：1B / 7B / 70B 是什么意思¶

参数就是模型的"脑细胞连接数"。B = Billion（十亿）。

参数量	白话类比	大致能力
0.5B-1.7B	小学生的大脑	简单问答、文本分类，速度极快
4B-8B	高中生的大脑	日常对话、简单代码、翻译，性价比最高
14B-32B	大学生的大脑	复杂推理、长文写作、专业代码
70B+	研究生的大脑	接近 GPT-4 水平，但需要大量显存

对你的意义：8G 显存，主力战场在 4B-8B 区间（量化后），偶尔可以挑战 14B 的量化版。

2.2 量化：Q4 / Q5 / Q8 / FP16¶

模型原始精度是 FP16（每个参数用 16 位浮点数存储）。量化就是"压缩"——牺牲一点精度换取更小的体积和更少的显存占用。

量化级别	每个参数占用	白话解释	质量损失
FP16	2 字节	原画质蓝光，最清晰	无
Q8	1 字节	1080p 高清，几乎看不出区别	极小
Q5_K_M	~0.68 字节	720p，日常够用	小
Q4_K_M	~0.56 字节	480p，够看但细节丢失	中等
Q3_K_M	~0.44 字节	360p，凑合用	较大
Q2_K	~0.31 字节	马赛克画质，应急用	很大

推荐：日常使用选 Q4_K_M（性价比最高），对质量有要求选 Q5_K_M。

2.3 上下文长度¶

上下文长度 = 模型一次能"看到"多少文字。

上下文	大约等于	适合场景
4K	~3000 字	短对话
8K	~6000 字	普通对话
32K	~24000 字	长文档
128K	~10 万字	一整篇论文
1M	~75 万字	一本书

注意：上下文越长，占用显存越多。8G 显存建议实际使用控制在 4K-8K，最多 16K。

2.4 GGUF 格式¶

GGUF 是 llama.cpp 项目定义的模型文件格式，专门为本地 CPU/GPU 推理优化。

白话说： - HuggingFace 上的原始模型 = .safetensors 格式，需要 Python + PyTorch 加载 - GGUF = 打包好的"绿色免安装版"，Ollama / llama.cpp / LM Studio 直接能用 - GGUF 文件名告诉你量化级别，比如 qwen3-8b-q4_k_m.gguf

2.5 显存计算公式¶

# 核心公式（白话版）：
模型占用显存(GB) ≈ 参数量(B) × 每参数字节数

# 实际例子：
# 7B 模型 FP16：7 × 2 = 14 GB  → 你的 8G 跑不了
# 7B 模型 Q4：  7 × 0.56 ≈ 4 GB → 加上系统开销约 5-6 GB，8G 能跑！
# 14B 模型 Q4： 14 × 0.56 ≈ 8 GB → 刚好塞满，会比较卡
# 4B 模型 Q4：  4 × 0.56 ≈ 2.2 GB → 很轻松，还有余量给上下文

# 更精确的估算（包含 KV Cache 等开销）：
实际占用 ≈ 模型权重 + KV Cache + 系统开销
         ≈ 参数量 × 量化字节 + 上下文长度 × 0.5MB/1K tokens + 0.5GB

实用口诀：Q4 量化下，参数量(B) × 0.6 ≈ 需要的显存(GB)，再留 1-2GB 余量给系统。

3. 主流开源模型详解¶

3.1 Qwen3 系列（阿里通义千问）¶

最新版本：Qwen3-2507（2025年7月更新），之前版本为 Qwen3-2504（2025年4月）

可用尺寸（Dense 密集模型）：0.6B、1.7B、4B、8B、14B、32B 可用尺寸（MoE 混合专家模型）：30B-A3B（总参数 30B，每次激活 3B）、235B-A22B

维度	评价
特点	支持"思考模式"和"非思考模式"无缝切换；MoE 架构让小激活量实现大模型效果；支持 100+ 语言；256K 上下文（可扩展到 1M）
中文能力	★★★★★ 国产模型，中文是母语级别，C-Eval 表现顶尖
代码能力	★★★★☆ HumanEval 表现优秀，支持主流编程语言，Agent/工具调用能力强
推荐用途	中文对话、代码生成、RAG 问答、Agent 应用、论文翻译

对你最有用的版本： - Qwen3-8B（Q4 量化约 5GB）：8G 显存主力模型 - Qwen3-4B（Q4 量化约 2.5GB）：轻量快速版 - Qwen3-30B-A3B（MoE，Q4 量化约 18GB）：8G 显存跑不了全 GPU，但可以 CPU+GPU 混合

# Ollama 下载命令
ollama pull qwen3:8b          # 8B 默认量化，约 5GB
ollama pull qwen3:4b          # 4B 默认量化，约 2.5GB
ollama pull qwen3:1.7b        # 1.7B 超轻量，约 1GB
ollama pull qwen3:30b-a3b     # 30B MoE（需要大内存做 CPU offload）

3.2 DeepSeek 系列（深度求索）¶

主要模型： - DeepSeek-V3（2024年12月发布）：671B 总参数，37B 激活，MoE 架构 - DeepSeek-R1（2025年1月发布）：推理专用模型，基于 V3 架构 - DeepSeek-R1-Distill 蒸馏版：1.5B、7B、8B、14B、32B、70B（基于 Qwen2.5 和 Llama3 微调）

维度	评价
特点	R1 系列主打深度推理（类似 OpenAI o1 的"慢思考"），V3 是综合能力模型；开创了 RL 训练推理能力的新范式；蒸馏版让小模型也有强推理能力
中文能力	★★★★★ 国产模型，中文理解和生成都很强
代码能力	★★★★★ DeepSeek-Coder 系列专门优化过代码，V3/R1 代码能力也很强
推荐用途	复杂推理、数学证明、代码调试、逻辑分析

对你最有用的版本： - DeepSeek-R1-Distill-Qwen-7B（Q4 约 4.5GB）：推理能力超强的 7B 模型 - DeepSeek-R1-Distill-Qwen-14B（Q4 约 8.5GB）：勉强能跑，推理能力接近 o1-mini - DeepSeek-R1-Distill-Qwen-1.5B（Q4 约 1GB）：超轻量推理模型

# Ollama 下载命令
ollama pull deepseek-r1:7b     # R1 蒸馏 7B，推理能力强
ollama pull deepseek-r1:14b    # R1 蒸馏 14B（8G 显存紧张）
ollama pull deepseek-r1:1.5b   # R1 蒸馏 1.5B 超轻量
ollama pull deepseek-v3        # 需要通过 API 使用，本地跑不了

3.3 Llama 3.1 / 3.3 / 4 系列（Meta）¶

最新版本： - Llama 3.1（2024年7月）：8B、70B、405B，128K 上下文 - Llama 3.3（2024年12月）：70B，性能接近 405B - Llama 4（2025年4月）：Scout-17B-16E（MoE，10M 上下文）、Maverick-17B-128E（MoE，1M 上下文）

维度	评价
特点	生态最好，几乎所有工具都优先支持 Llama；Llama 4 引入 MoE 和超长上下文；社区最活跃
中文能力	★★★☆☆ 英文为主，中文能力不如 Qwen/DeepSeek，但 3.1 之后明显改善
代码能力	★★★★☆ 英文代码能力强，HumanEval 表现好
推荐用途	英文任务、生态兼容性、学术研究（很多论文基于 Llama）

对你最有用的版本： - Llama 3.1 8B（Q4 约 4.7GB）：综合能力不错，英文场景优选 - Llama 3.2 3B（Q4 约 2GB）：超轻量，嵌入式场景 - Llama 4 Scout/Maverick 本地 8G 显存暂时跑不了

# Ollama 下载命令
ollama pull llama3.1:8b        # Llama 3.1 8B
ollama pull llama3.2:3b        # Llama 3.2 3B 轻量版
ollama pull llama3.3:70b       # 需要 40GB+ 显存

3.4 Gemma 系列（Google）¶

最新版本：Gemma 3（2025年3月），尺寸 1B、4B、12B、27B

维度	评价
特点	Google 出品，训练数据质量高；Gemma 3 支持多模态（图文理解）；128K 上下文；体积小但能力强
中文能力	★★★☆☆ 中文能力一般，英文优先
代码能力	★★★★☆ 继承了 Gemini 的代码能力，在同等参数量表现优异
推荐用途	多模态任务（看图识字）、英文任务、Google 生态集成

# Ollama 下载命令
ollama pull gemma3:4b          # 4B 轻量版
ollama pull gemma3:12b         # 12B（Q4 约 7GB，8G 显存能跑）
ollama pull gemma3:1b          # 1B 超轻量

3.5 Mistral / Mixtral 系列（法国 Mistral AI）¶

主要模型： - Mistral 7B（Dense）：开源 7B 模型的标杆 - Mixtral 8x7B（MoE）：47B 总参数，12.9B 激活 - Mistral Small / Medium / Large：逐步走向闭源 API

维度	评价
特点	最早证明 MoE 在开源模型上可行；推理速度快；欧洲团队，多语言支持好
中文能力	★★☆☆☆ 中文能力弱，主要面向英语和欧洲语言
代码能力	★★★★☆ Codestral 系列专门优化代码，代码能力强
推荐用途	英文场景、代码生成（Codestral）、对推理速度有要求的场景

# Ollama 下载命令
ollama pull mistral:7b         # Mistral 7B
ollama pull mixtral:8x7b       # Mixtral MoE（需要大内存）
ollama pull codestral:22b      # 代码专用（Q4 约 13GB，8G 跑不了）

3.6 Yi 系列（零一万物 / 01.AI）¶

主要模型：Yi-1.5（6B、9B、34B）

维度	评价
特点	李开复团队，训练数据质量高；中英双语优化；Yi-1.5 在同尺寸对比中表现不错
中文能力	★★★★☆ 中文能力很好，仅次于 Qwen 和 DeepSeek
代码能力	★★★☆☆ 代码能力中等，不是主要优化方向
推荐用途	中英文对话、文本生成、知识问答

# Ollama 下载命令
ollama pull yi:9b              # Yi 9B
ollama pull yi:6b              # Yi 6B

3.7 GLM 系列（智谱 AI / 清华）¶

主要模型：GLM-4（9B）、ChatGLM3（6B）

维度	评价
特点	清华出品，学术背景深；GLM 架构独特（双向注意力）；中文学术场景有优势
中文能力	★★★★☆ 中文能力很好，学术中文尤其优秀
代码能力	★★★☆☆ CodeGeeX 系列专门做代码，但生态不如 DeepSeek
推荐用途	中文学术写作、知识问答、教育场景

# Ollama 下载命令
ollama pull glm4:9b            # GLM-4 9B

4. 按场景选型指南¶

4.1 中文对话¶

需求：日常中文问答、面试准备、知识学习

推荐排序	模型	理由
🥇 首选	Qwen3-8B	中文能力最强，思考模式加持
🥈 次选	DeepSeek-R1-7B（蒸馏版）	回答有推理深度，中文好
🥉 备选	GLM-4-9B	学术中文优秀

4.2 代码生成¶

需求：写 Python/R/Shell 脚本，调试生信 pipeline

推荐排序	模型	理由
🥇 首选	Qwen3-8B	代码+中文解释双强
🥈 次选	DeepSeek-R1-7B	深度推理帮助调试复杂 bug
🥉 备选	Llama 3.1 8B	英文代码注释场景

4.3 生信分析辅助¶

需求：解释宏基因组分析流程、帮助理解 MetaPhlAn/HUMAnN/Kraken2 等工具

推荐排序	模型	理由
🥇 首选	Qwen3-8B（思考模式）	能深度思考分析流程，中文解释清楚
🥈 次选	DeepSeek-R1-7B	推理链条清晰，适合分析复杂 pipeline 逻辑
🥉 备选	Qwen3-4B	快速回答简单问题

生信特别提示：目前没有专门针对生信训练的开源小模型。建议用通用模型 + RAG（把生信文档喂给模型）的方式获得最好效果。

4.4 论文阅读 / 翻译¶

需求：翻译英文论文摘要、理解方法论部分

推荐排序	模型	理由
🥇 首选	Qwen3-8B	支持 100+ 语言翻译，学术词汇覆盖好
🥈 次选	GLM-4-9B	清华背景，学术翻译质量高
🥉 备选	DeepSeek-R1-7B	能推理论文逻辑，但翻译不是强项

4.5 Embedding（文本向量化）¶

需求：为 RAG 系统做文本嵌入，把文档变成向量方便检索

推荐排序	模型	理由
🥇 首选	bge-m3（BAAI）	专门的中英文 embedding 模型，效果最好
🥈 次选	nomic-embed-text	轻量级，Ollama 直接支持
🥉 备选	mxbai-embed-large	英文效果好

# Embedding 模型下载
ollama pull bge-m3              # 中英文 embedding 最佳选择
ollama pull nomic-embed-text    # 轻量级 embedding
ollama pull mxbai-embed-large   # 英文 embedding

注意：Embedding 模型和生成模型不一样，它不生成文字，只把文字变成数字向量。体积小（几百 MB），不占多少显存。

5. 8G 显存实用方案¶

我的推荐¶

对于彭文强的情况（生信面试准备 + 日常学习），建议：

必装：Qwen3-8B（Q4_K_M）—— 中文最强的通用模型，你的 8G 刚好够用
必装：bge-m3 —— 做 RAG 知识库的 embedding
推荐装：DeepSeek-R1-7B —— 遇到复杂推理问题时切换使用
可选装：Qwen3-4B —— 快速响应场景

注意：同一时间只能运行一个大模型。用 Ollama 切换很方便，ollama run qwen3:8b 会自动卸载上一个模型。

6. 显存计算速查¶

速查表：模型大小 → 需要多少显存¶

参数量	FP16	Q8	Q5_K_M	Q4_K_M	Q3_K_M
1.5B	3 GB	1.6 GB	1.2 GB	1 GB	0.8 GB
4B	8 GB	4.3 GB	3 GB	2.5 GB	2 GB
7B	14 GB	7.5 GB	5.2 GB	4.5 GB	3.8 GB
8B	16 GB	8.5 GB	6 GB	5 GB	4.2 GB
9B	18 GB	9.5 GB	6.5 GB	5.5 GB	4.5 GB
12B	24 GB	12.5 GB	8.5 GB	7 GB	6 GB
14B	28 GB	15 GB	10 GB	8.5 GB	7 GB
32B	64 GB	34 GB	23 GB	19 GB	16 GB
70B	140 GB	74 GB	51 GB	42 GB	35 GB

以上为模型权重占用，实际运行还需额外 0.5-2GB 给 KV Cache 和系统开销。

你的 8G 显存能跑什么¶

✅ 可以舒适运行（剩余 2GB+ 给上下文）：
   - 任何 ≤ 4B 模型的 Q4_K_M 量化
   - 7B-8B 模型的 Q4_K_M 量化（推荐！）

⚠️ 勉强能跑（上下文受限）：
   - 12B 模型的 Q4_K_M 量化
   - 7B-8B 模型的 Q5_K_M 量化

❌ 跑不了（显存不够）：
   - 14B+ 模型的 Q4_K_M 量化
   - 7B+ 模型的 Q8 / FP16
   - 任何 32B+ 模型

7. 模型下载与使用¶

7.1 Ollama 下载（推荐，最简单）¶

# ===== 基础命令 =====

# 下载并运行模型（第一次会自动下载）
ollama run qwen3:8b
# 解释：run = 下载 + 启动交互对话

# 只下载不运行
ollama pull qwen3:8b
# 解释：pull = 只下载模型文件到本地

# 查看已下载的模型列表
ollama list
# 解释：列出本地所有模型，显示名称、大小、修改时间

# 删除模型（释放磁盘空间）
ollama rm qwen3:8b
# 解释：删除指定模型

# 查看模型详细信息
ollama show qwen3:8b
# 解释：显示模型的参数量、量化级别、上下文长度等

# ===== 推荐下载清单（8G显存用户）=====

# [必装] 中文通用主力
ollama pull qwen3:8b

# [必装] 中英文 embedding（RAG 用）
ollama pull bge-m3

# [推荐] 深度推理
ollama pull deepseek-r1:7b

# [可选] 轻量快速版
ollama pull qwen3:4b

# ===== 指定量化版本 =====
# Ollama 默认用 Q4_K_M，如果想要更高质量：
ollama pull qwen3:8b-q5_K_M    # Q5 量化，约 6GB
ollama pull qwen3:8b-q8_0      # Q8 量化，约 8.5GB（8G 显存装不下）

7.2 HuggingFace 下载（更灵活）¶

适合需要精确控制量化版本、或者要用 Python 代码加载模型的场景。

# ===== 方法一：用 huggingface-cli =====

# 先安装
pip install huggingface_hub
# 解释：安装 HuggingFace 官方下载工具

# 下载 GGUF 格式（给 Ollama / llama.cpp 用）
huggingface-cli download \
  Qwen/Qwen3-8B-GGUF \
  qwen3-8b-q4_k_m.gguf \
  --local-dir ./models/
# 解释：
#   Qwen/Qwen3-8B-GGUF = HuggingFace 上的仓库名
#   qwen3-8b-q4_k_m.gguf = 要下载的具体文件（Q4_K_M 量化）
#   --local-dir = 保存到本地哪个目录

# ===== 方法二：用 Python 代码 =====

# 适合需要用 transformers 库加载的场景
pip install transformers torch accelerate
# 解释：安装 PyTorch 生态的模型加载库

# download_model.py
# 用 Python 下载并测试模型

from transformers import AutoModelForCausalLM, AutoTokenizer
# 解释：从 transformers 库导入模型和分词器的自动加载类

model_name = "Qwen/Qwen3-8B"
# 解释：指定要下载的模型名称

# 下载分词器（tokenizer，把文字变成数字的工具）
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 下载模型（注意：这会下载 FP16 原始版本，约 16GB）
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",       # 自动选择精度
    device_map="auto"         # 自动分配到 GPU/CPU
)

# 测试一下
prompt = "解释一下宏基因组测序的原理"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

7.3 镜像加速（国内网络）¶

# HuggingFace 国内镜像（ModelScope）
pip install modelscope
# 解释：阿里的模型镜像平台，国内下载速度快

# 用 ModelScope 下载
modelscope download --model qwen/Qwen3-8B --local_dir ./models/Qwen3-8B/
# 解释：从 ModelScope 下载，不需要翻墙

# 设置 HuggingFace 镜像（如果坚持用 HuggingFace）
export HF_ENDPOINT=https://hf-mirror.com
# 解释：把 HuggingFace 下载地址切换到国内镜像
# 设置后，所有 huggingface-cli 命令都会走镜像

# Ollama 本身下载走的是 Ollama 自己的 CDN，国内速度一般还行
# 如果慢，可以设置代理：
export https_proxy=socks5://127.0.0.1:10808
ollama pull qwen3:8b

8. 基准测试对比表¶

8.1 综合能力对比（同等参数量级 7B-9B）¶

模型	MMLU（知识）	HumanEval（代码）	C-Eval（中文）	GSM8K（数学）	上下文
Qwen3-8B	82.5	72.0	87.3	83.5	128K
DeepSeek-R1-Distill-7B	74.8	68.5	79.2	88.0*	128K
Llama 3.1 8B	73.0	66.5	55.8	77.2	128K
Gemma 3 4B	67.2	58.0	48.5	70.5	128K
Yi-1.5 9B	72.5	54.3	74.1	72.8	4K
GLM-4 9B	72.0	55.2	76.5	73.0	128K
Mistral 7B	62.5	52.8	42.3	65.0	32K

*DeepSeek-R1 的数学分数高是因为它用推理链（CoT）解题，其他模型用直接回答模式。数据来源：各模型官方论文和社区测评，实际表现因量化级别和提示词而异。

8.2 各维度冠军¶

维度	冠军	说明
中文综合	Qwen3-8B	C-Eval 遥遥领先
英文知识	Qwen3-8B	MMLU 最高
代码生成	Qwen3-8B	HumanEval 最高
数学推理	DeepSeek-R1-7B	深度推理模式下数学最强
中文对话体验	Qwen3-8B / DeepSeek-R1-7B	两者都很好
英文对话	Llama 3.1 8B	英文原生最自然
多模态	Gemma 3	支持图文理解

8.3 关键结论¶

8B 级别综合冠军：Qwen3-8B，各项表现最均衡
推理深度冠军：DeepSeek-R1-Distill-7B，数学和逻辑推理最强
中文场景：优先选国产模型（Qwen > DeepSeek > GLM > Yi）
英文场景：Llama 3.1 8B 最自然，Qwen3 也不差

9. 常见问题与解决¶

Q1：Ollama 下载太慢怎么办？¶

# 方案一：设置代理
export https_proxy=socks5://127.0.0.1:10808
# 解释：如果你有代理，设置后 Ollama 下载走代理通道

# 方案二：从 ModelScope 下载 GGUF 然后手动导入
# 1. 先下载 GGUF 文件
modelscope download --model qwen/Qwen3-8B-GGUF --local_dir ./
# 2. 创建 Modelfile
echo 'FROM ./qwen3-8b-q4_k_m.gguf' > Modelfile
# 3. 导入到 Ollama
ollama create my-qwen3 -f Modelfile
# 4. 运行
ollama run my-qwen3

Q2：运行时报 "out of memory" 怎么办？¶

# 方案一：换更小的量化版本
ollama pull qwen3:8b           # 默认 Q4，约 5GB（推荐）
# 如果还不行，换更小的模型：
ollama pull qwen3:4b           # 4B 版本，约 2.5GB

# 方案二：减少上下文长度
# 创建自定义 Modelfile
cat > Modelfile << 'EOF'
FROM qwen3:8b
PARAMETER num_ctx 2048
EOF
# 解释：把上下文从默认 4096 降到 2048，省约 1GB 显存

ollama create qwen3-short -f Modelfile
ollama run qwen3-short

# 方案三：关闭其他占用 GPU 的程序
nvidia-smi
# 解释：查看 GPU 显存占用情况，关掉浏览器硬件加速等

Q3：模型回答质量不好怎么办？¶

换思考模式：Qwen3 支持 /think 开启深度思考
优化提示词：把问题描述得更具体，给模型角色设定
换 DeepSeek-R1：推理类问题 R1 效果更好
增加上下文：给模型提供更多背景信息

Q4：多个模型可以同时运行吗？¶

不建议。8G 显存只够跑一个 7B-8B 模型。Ollama 会自动管理：运行新模型时自动卸载旧的。

# 查看当前正在运行的模型
ollama ps
# 解释：类似 docker ps，列出当前加载的模型

# 停止所有模型
ollama stop qwen3:8b

Q5：怎么判断一个模型适不适合我？¶

# 简单测试方法：跑一组你自己的测试题
ollama run qwen3:8b

# 测试中文能力
>>> 解释一下宏基因组测序和 16S rRNA 测序的区别

# 测试代码能力
>>> 用 Python 写一个读取 FASTA 文件的函数，要求加详细注释

# 测试推理能力
>>> 如果 MetaPhlAn 分析结果显示某个样本中拟杆菌门占比 80%，这正常吗？可能的原因是什么？

# 对比不同模型的回答质量，选最好的那个

Q6：MoE 模型（如 Qwen3-30B-A3B）8G 能跑吗？¶

理论上 Q4 量化后需要约 18GB，8G 显存单独跑不了。但可以 CPU+GPU 混合推理： - GPU 加载部分层，CPU 处理其余层 - 速度会变慢（约 3-5 token/s），但质量明显提升 - Ollama 会自动处理 offload，不需要手动配置

10. 速查表¶

一张表搞定选型¶

你想做什么	推荐模型	Ollama 命令	显存占用
中文日常对话	Qwen3-8B	`ollama run qwen3:8b`	~5.5GB
写 Python/R 脚本	Qwen3-8B	`ollama run qwen3:8b`	~5.5GB
数学/逻辑推理	DeepSeek-R1-7B	`ollama run deepseek-r1:7b`	~4.5GB
翻译英文论文	Qwen3-8B	`ollama run qwen3:8b`	~5.5GB
RAG embedding	bge-m3	`ollama pull bge-m3`	~0.7GB
快速问答	Qwen3-4B	`ollama run qwen3:4b`	~2.5GB
看图识字	Gemma3-12B	`ollama run gemma3:12b`	~7.5GB
英文对话	Llama 3.1 8B	`ollama run llama3.1:8b`	~4.7GB

量化选择速查¶

你的显存	推荐量化	可跑最大模型
4GB	Q3_K_M / Q4_K_M	4B
6GB	Q4_K_M	7B-8B
8GB	Q4_K_M	8B（舒适）/ 12B（紧张）
12GB	Q5_K_M	14B
16GB	Q5_K_M / Q8	14B（舒适）/ 32B（Q3）
24GB	Q5_K_M	32B
48GB	Q8 / FP16	70B

模型推荐总排名（8G 显存 + 中文场景）¶

排名	模型	综合评分	一句话评价
1	Qwen3-8B	95/100	中文最强的 8B 模型，你的首选
2	DeepSeek-R1-7B	90/100	推理最强，数学逻辑问题切这个
3	Qwen3-4B	82/100	轻快小巧，批量任务用
4	GLM-4-9B	78/100	学术中文好，但生态不如前两个
5	Llama 3.1 8B	75/100	英文最佳，中文一般
6	Gemma3-12B	73/100	多模态加分，但 8G 略紧张
7	Yi-1.5 9B	70/100	中规中矩，更新较慢
8	Mistral 7B	65/100	中文弱，不推荐给你

11. 延伸学习资源¶

官方文档¶

资源	链接	说明
Qwen3 官方	https://qwen.readthedocs.io/	最全的 Qwen 使用文档
DeepSeek 官方	https://github.com/deepseek-ai	DeepSeek 系列开源仓库
Llama 官方	https://llama.meta.com/	Meta Llama 模型主页
Ollama 官方	https://ollama.ai/	Ollama 使用文档和模型库
HuggingFace	https://huggingface.co/	最大的开源模型平台
ModelScope	https://modelscope.cn/	国内模型下载平台（不用翻墙）

学习路线建议¶

第一步：装好 Ollama，下载 Qwen3-8B，跑起来对话 → 你已经完成了
第二步：学会用不同模型回答不同问题（本文的场景选型）
第三步：搭建 RAG 系统（参考知识库的 LangChain 教程）
第四步：了解 LoRA 微调（用自己的数据让模型更懂生信）
第五步：面试时能说清楚"我选了 XX 模型因为 XX 原因"

面试加分点¶

当面试官问"你了解哪些开源大模型"时，你可以这样回答：

"我主要用过 Qwen3 和 DeepSeek-R1。Qwen3 是阿里的，8B 版本在 8G 显存上用 Q4 量化可以流畅运行，中文能力很强，我用它辅助写生信分析脚本和翻译论文。DeepSeek-R1 是深度求索的推理模型，它有蒸馏版本（基于 Qwen2.5 微调的 Dense 模型）可以在 7B 参数量下实现接近 o1-mini 的推理能力，我用它做复杂的逻辑分析。在 MoE 架构方面，Qwen3 的 30B-A3B 版本总参数 30B 但每次只激活 3B，DeepSeek-V3/R1 全量版也是 MoE（671B 总参数，37B 激活），这种架构能用更少的算力实现更强的能力。"

最后更新：2025年8月（基于 Qwen3-2507、DeepSeek-R1、Llama 4 最新信息）作者：AI 教练为彭文强定制 适用显存：8GB（RTX 3060/3070/4060 等）

方案	模型组合	显存占用	适合场景	推荐指数
A：主力方案	Qwen3-8B (Q4_K_M)	~5.5GB	日常对话、代码、翻译、生信	★★★★★
B：推理方案	DeepSeek-R1-7B (Q4)	~4.5GB	复杂推理、数学、逻辑分析	★★★★★
C：轻量方案	Qwen3-4B (Q4_K_M)	~2.5GB	快速问答、批量处理	★★★★☆
D：极轻方案	Qwen3-1.7B (Q4)	~1.2GB	文本分类、简单问答	★★★☆☆
E：双模型方案	Qwen3-4B + bge-m3	~3.5GB	RAG 知识库问答	★★★★☆
F：挑战方案	Gemma3-12B (Q4)	~7.5GB	多模态（图文理解）	★★★☆☆