Galaxy 在线生信分析平台完整教程¶
彭文强 | 2026届 | 生信分析工程师求职
1. 一句话说明¶
Galaxy 是一个免费的网页版生物信息学分析平台,让你不用写一行代码,只需要点点鼠标就能完成从质控、比对到差异分析的全套生信流程。
为什么要学 Galaxy¶
| 理由 | 说明 |
|---|---|
| 零代码门槛 | 不需要 Linux 命令行基础,浏览器打开就能用 |
| 面试加分 | 面试官问"如果服务器挂了/没有计算资源怎么办",答 Galaxy 证明你有 Plan B |
| 可复现 | Workflow 可以保存、分享、发表,论文审稿人能一键复现你的分析 |
| 学习工具逻辑 | 在 Galaxy 上点参数 = 理解命令行工具的参数含义,反过来帮你学命令行 |
| 真实科研使用 | Nature Methods 多次推荐,欧洲 ELIXIR 官方培训平台 |
白话总结:Galaxy 就像"生信界的美图秀秀"——专业功能都有,但操作方式是拖拽+点击,不用背命令。
核心概念白话版¶
1. Galaxy 界面(三栏布局)¶
┌──────────┬──────────────────┬──────────┐
│ 工具栏 │ 中间主面板 │ History │
│ (左侧) │ (参数设置/结果) │ (右侧) │
└──────────┴──────────────────┴──────────┘
- 左侧工具栏:所有分析工具的列表,像手机里的 App 列表
- 中间面板:你当前在操作的区域,设置参数、查看结果都在这里
- 右侧 History:你所有的数据和分析结果,按时间排列
2. History(历史记录)¶
白话解释:History 就是你的"项目文件夹"。你上传的数据、每一步分析的结果都自动保存在这里,颜色表示状态:
| 颜色 | 含义 |
|---|---|
| 灰色 | 排队中,还没开始跑 |
| 黄色 | 正在运行 |
| 绿色 | 成功完成 |
| 红色 | 出错了 |
一个 History = 一个完整的分析项目。你可以同时有多个 History,互不干扰。
3. Workflow(工作流)¶
白话解释:Workflow 就是把你手动点击的一步步操作"录制"下来,变成一个可以一键重放的流水线。
类比:就像你在手机上录制了一个"自动化快捷指令"——以后新数据来了,不用重新一步步点,直接跑 Workflow 就行。
4. Tool Shed(工具仓库)¶
白话解释:Tool Shed 是 Galaxy 的"应用商店"。全世界开发者把生信工具打包上传到这里,管理员可以从 Tool Shed 安装新工具到自己的 Galaxy 服务器。
普通用户不需要操作 Tool Shed,但面试时知道这个概念说明你理解 Galaxy 的架构。
注册与使用¶
推荐的公共服务器¶
| 服务器 | 地址 | 特点 |
|---|---|---|
| usegalaxy.org | https://usegalaxy.org | 美国主站,工具最全 |
| usegalaxy.eu | https://usegalaxy.eu | 欧洲站,存储空间大(250GB) |
| usegalaxy.org.au | https://usegalaxy.org.au | 澳洲站,速度适中 |
注册步骤¶
- 打开 https://usegalaxy.org
- 点击顶部 Login or Register
- 填写邮箱、密码、公开名称
- 验证邮箱
- 登录后即可使用(免费,有存储配额限制,一般 250GB)
注意:不注册也能用,但数据不会保存。注册后数据永久保留。
实操教程:从上传到分享的完整流程¶
Step 1:上传数据¶
- 点击左侧工具栏顶部的 Upload Data (上传图标 ⬆)
- 选择上传方式:
- Choose local files:从电脑选文件
- Paste/Fetch data:粘贴 URL 让 Galaxy 下载(推荐大文件用这个)
- 设置文件格式(Type):fastqsanger.gz、tabular、bed 等
- 点击 Start 开始上传
- 上传完成后关闭窗口,数据出现在右侧 History 中
白话提示:Galaxy 会自动检测大多数格式,但 FASTQ 文件建议手动选 fastqsanger.gz,避免格式识别错误。
Step 2:运行 FastQC 质控¶
- 左侧搜索框输入
FastQC - 点击 FastQC: Read Quality reports
- 中间面板出现参数设置:
- Short read data:选择你刚上传的 FASTQ 文件
- 其他参数保持默认
- 点击底部 Run Tool
- 右侧 History 出现新条目(先灰→黄→绿)
- 点击绿色条目的 👁 眼睛图标查看 HTML 报告
Step 3:运行比对(以 HISAT2 为例)¶
- 搜索
HISAT2 - 参数设置:
- Source for the reference genome:选
Use a built-in genome(Galaxy 内置了人类、小鼠等参考基因组) - Select a reference genome:选 hg38(人类)
- Input reads:选 Single-end 或 Paired-end
- FASTA/Q file:选择你的 FASTQ 文件
- 点击 Run Tool
- 等待运行完成(比对通常需要 10-30 分钟)
- 输出为 BAM 格式文件
Step 4:查看结果¶
- 点击 History 中绿色条目的 👁 图标:快速预览
- 点击条目名称展开:看到完整元信息(行数、大小、格式)
- 点击 📊 图表图标:可视化(部分工具支持)
- 点击 💾 保存图标:下载到本地
Step 5:构建 Workflow¶
方法一:从 History 提取
- 顶部菜单点击 Workflow
- 点击 Extract Workflow from History
- 选择要包含的步骤(勾选/取消勾选)
- 命名 Workflow,点击 Create Workflow
方法二:手动搭建
- 顶部菜单点击 Workflow → Create new workflow
- 进入可视化编辑器(拖拽界面)
- 从左侧拖入工具节点
- 用连线将输出连接到下一步的输入
- 保存
Step 6:分享¶
- 分享 History:History 菜单 → Share or Publish → 生成链接
- 分享 Workflow:Workflow 列表 → 点击分享图标 → 生成链接或发布到公共库
- 导出 Workflow:下载为 .ga 文件(JSON 格式),可上传到其他 Galaxy 服务器
Galaxy 做 RNA-seq 分析完整流程¶
这是面试中最常被问到的 Galaxy 应用场景:
原始 FASTQ
│
▼
[FastQC] ──→ 质控报告
│
▼
[Trimmomatic/Cutadapt] ──→ 去接头、修剪低质量碱基
│
▼
[HISAT2/STAR] ──→ 比对到参考基因组 (BAM)
│
▼
[featureCounts/htseq-count] ──→ 基因计数矩阵
│
▼
[DESeq2] ──→ 差异表达基因列表
│
▼
[GO enrichment / KEGG] ──→ 功能富集分析
具体操作要点¶
| 步骤 | Galaxy 工具 | 关键参数 |
|---|---|---|
| 质控 | FastQC | 默认即可 |
| 修剪 | Trimmomatic | ILLUMINACLIP + SLIDINGWINDOW:4:20 |
| 比对 | HISAT2 | 选内置基因组,注意单端/双端 |
| 计数 | featureCounts | 需要 GTF 注释文件(Galaxy 内置) |
| 差异分析 | DESeq2 | 设置分组(实验组 vs 对照组) |
| 富集 | goseq 或 clusterProfiler | 需要物种注释数据库 |
白话提示:Galaxy 版 DESeq2 的界面会让你手动指定哪些样本是实验组、哪些是对照组,不需要写 R 代码来定义 design matrix。
Galaxy 做微生物组分析¶
这是你简历项目(宏基因组)的直接相关应用:
16S rRNA 扩增子分析流程¶
原始 FASTQ (16S)
│
▼
[Cutadapt] ──→ 去引物
│
▼
[DADA2] ──→ ASV 表(比 OTU 更精确)
│
▼
[assign taxonomy] ──→ 物种分类注释
│
▼
[diversity metrics] ──→ Alpha/Beta 多样性
│
▼
[LEfSe/ANCOM] ──→ 差异物种分析
宏基因组(Shotgun)分析流程¶
原始 FASTQ (WGS)
│
▼
[FastQC + Trimmomatic] ──→ 质控
│
▼
[Kraken2/MetaPhlAn] ──→ 物种组成
│
▼
[HUMAnN] ──→ 功能通路分析
│
▼
[MaxBin2/MetaBAT2] ──→ Binning (MAGs)
Galaxy 上的微生物组分析优势: - 欧洲站 (usegalaxy.eu) 有完整的 microbiome 工具集 - 官方提供 GTN (Galaxy Training Network) 教程,按步骤跟着点就能做完 - ASV/OTU 表生成后可直接用 Galaxy 内置的统计工具做下游分析
Galaxy vs 命令行的优劣对比¶
| 维度 | Galaxy(网页版) | 命令行 |
|---|---|---|
| 上手难度 | 低,点击操作 | 高,需要学 Linux/Shell |
| 可复现性 | 高,Workflow 自动记录 | 中,需要手写脚本+版本管理 |
| 灵活性 | 中,受限于已有工具和参数 | 高,完全自定义 |
| 大数据处理 | 受服务器配额限制 | 取决于自己的计算资源 |
| 批量处理 | 支持 Dataset Collection | 原生支持,for 循环即可 |
| 自定义分析 | 需要管理员安装工具 | 随时安装任何软件 |
| 学习价值 | 理解流程逻辑 | 掌握底层操作 |
| 论文发表 | 越来越多期刊接受 | 传统方式,普遍接受 |
| 适合场景 | 教学、快速验证、小数据量 | 生产环境、大规模分析 |
| 面试评价 | 加分项(知道多种方案) | 必备技能 |
面试话术建议¶
"我日常用命令行做分析,但也熟悉 Galaxy 平台。Galaxy 的优势是可复现性强、适合快速原型验证和协作分享。比如我需要让不会写代码的合作者重复我的分析时,我会把流程导出为 Galaxy Workflow 分享给他们。"
常见问题¶
Q1:Galaxy 免费吗?有什么限制?¶
免费。主要限制: - 存储配额:usegalaxy.org 约 250GB,usegalaxy.eu 约 250GB - 并发任务数:同时运行的任务有上限(通常 4-8 个) - 单任务内存/CPU:有上限,超大数据集可能跑不动 - 解决方案:删除不需要的旧数据,或申请配额增加
Q2:数据安全吗?能上传病人数据吗?¶
公共服务器上不应上传含有个人隐私信息的临床数据(PHI)。如果有合规要求: - 使用机构内部部署的私有 Galaxy 服务器 - 或使用 Galaxy 的 Docker 镜像在本地运行
Q3:Galaxy 上的工具版本和命令行的一样吗?¶
一样。Galaxy 上的工具就是命令行工具的"外壳包装"——底层跑的是同一个程序(如 HISAT2 2.2.1),只是 Galaxy 帮你把参数变成了可点击的下拉菜单和输入框。
Q4:运行失败(红色)怎么办?¶
- 点击红色条目展开
- 查看 stderr(标准错误输出)——这和命令行报错信息一样
- 常见原因:
- 输入文件格式不对(比如 fastq 写成了 fasta)
- 参考基因组选错了
- 内存不够(换小数据试试或换欧洲站)
- 点击 🔄 重新运行按钮可以修改参数重试
Q5:Galaxy 能做机器学习吗?¶
能。Galaxy 集成了部分 scikit-learn 工具(分类、回归、聚类),也有基本的 R 脚本环境。但复杂的自定义模型(如你的随机森林项目里的特征工程)还是命令行更灵活。
Q6:面试官问"你用过 Galaxy 吗"怎么回答?¶
建议回答思路: 1. 说明你知道 Galaxy 是什么、核心优势(可复现、协作) 2. 举一个具体使用场景(如快速验证 RNA-seq 流程、教同事做质控) 3. 对比命令行说明你的技术判断力(什么场景用什么工具)
速查表¶
Galaxy 快捷操作¶
| 操作 | 方法 |
|---|---|
| 搜索工具 | 左侧搜索框直接输入工具名 |
| 批量处理 | 使用 Dataset Collection(多文件打包) |
| 重新运行 | 点击 History 条目的 🔄 图标 |
| 查看参数 | 点击 History 条目的 ℹ️ 图标 |
| 删除数据 | 点击 ✖ 删除(可从回收站恢复) |
| 切换 History | 右侧 History 面板顶部的 📋 图标 |
| 导入共享数据 | Shared Data → Data Libraries |
常用工具速查¶
| 任务 | 工具名称 | 搜索关键词 |
|---|---|---|
| 质控报告 | FastQC | fastqc |
| 去接头 | Cutadapt / Trimmomatic | trim |
| RNA-seq 比对 | HISAT2 / STAR | hisat / star |
| DNA 比对 | BWA-MEM2 / Bowtie2 | bwa / bowtie |
| 基因计数 | featureCounts | featurecount |
| 差异表达 | DESeq2 / limma | deseq |
| 物种注释 | Kraken2 / MetaPhlAn | kraken |
| 变异检测 | FreeBayes / GATK | freebayes |
| 格式转换 | SAMtools / BEDTools | samtools |
| 可视化 | JBrowse / IGV | jbrowse |
Dataset Collection 使用方法(批量处理)¶
上传多个文件 → 在 History 中选中多个条目
→ 点击 "Build Dataset List"
→ 命名 Collection
→ 运行工具时选择 Collection 作为输入
→ 工具自动对每个文件执行相同操作
白话解释:Collection 就是"文件夹",把同类文件打包后,工具会自动批量处理,不用一个一个点。
延伸资源¶
官方学习资源¶
| 资源 | 地址 | 说明 |
|---|---|---|
| Galaxy Training Network (GTN) | https://training.galaxyproject.org | 最权威的教程集,按领域分类 |
| Galaxy 官方文档 | https://galaxyproject.org/learn | 入门指南 |
| GTN 微生物组教程 | training.galaxyproject.org/topics/microbiome | 与你简历方向直接相关 |
| GTN RNA-seq 教程 | training.galaxyproject.org/topics/transcriptomics | 最常考的分析流程 |
推荐学习路径¶
- 第一天:注册 usegalaxy.org → 上传示例 FASTQ → 跑 FastQC
- 第二天:跟着 GTN 的 "Quality Control" 教程做一遍完整质控
- 第三天:跟着 GTN 的 "RNA-seq" 入门教程做比对+计数
- 第四天:尝试提取 Workflow,修改参数重新运行
- 第五天:跟着 GTN 的 "16S Microbial Analysis" 做一遍微生物组流程
相关论文¶
- Afgan et al. (2018) "The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update" Nucleic Acids Research
- Batut et al. (2018) "Community-Driven Data Analysis Training for Biology" Cell Systems
本项目相关文件¶
knowledge_base_2 热门工具与教程/11_Snakemake流程管理实战.md— 命令行版流程管理(与 Galaxy Workflow 互补)knowledge_base_2 热门工具与教程/14_宏基因组binning与MAGs提取.md— Galaxy 也能做 binning
面试高频考点总结¶
- Galaxy 是什么 → 免费网页版生信平台,不用写代码
- 核心优势 → 可复现(Workflow)、可协作(分享)、零门槛
- 何时用 Galaxy → 教学、快速验证、协作、不熟悉命令行时
- 何时用命令行 → 生产环境、大数据、自定义分析
- History → 项目文件夹,自动记录所有步骤
- Workflow → 可重放的分析流水线
- Tool Shed → Galaxy 的应用商店
- Galaxy 和命令行工具的关系 → 底层是同一个工具,Galaxy 只是加了图形界面
文档版本:v1.0 | 适用面试方向:生信工程师(宏基因组/通用) | 预计阅读时间:15分钟