跳转至

Galaxy 在线生信分析平台完整教程

彭文强 | 2026届 | 生信分析工程师求职

1. 一句话说明

Galaxy 是一个免费的网页版生物信息学分析平台,让你不用写一行代码,只需要点点鼠标就能完成从质控、比对到差异分析的全套生信流程。


为什么要学 Galaxy

理由 说明
零代码门槛 不需要 Linux 命令行基础,浏览器打开就能用
面试加分 面试官问"如果服务器挂了/没有计算资源怎么办",答 Galaxy 证明你有 Plan B
可复现 Workflow 可以保存、分享、发表,论文审稿人能一键复现你的分析
学习工具逻辑 在 Galaxy 上点参数 = 理解命令行工具的参数含义,反过来帮你学命令行
真实科研使用 Nature Methods 多次推荐,欧洲 ELIXIR 官方培训平台

白话总结:Galaxy 就像"生信界的美图秀秀"——专业功能都有,但操作方式是拖拽+点击,不用背命令。


核心概念白话版

1. Galaxy 界面(三栏布局)

┌──────────┬──────────────────┬──────────┐
│  工具栏   │    中间主面板      │  History │
│ (左侧)   │  (参数设置/结果)   │  (右侧)  │
└──────────┴──────────────────┴──────────┘
  • 左侧工具栏:所有分析工具的列表,像手机里的 App 列表
  • 中间面板:你当前在操作的区域,设置参数、查看结果都在这里
  • 右侧 History:你所有的数据和分析结果,按时间排列

2. History(历史记录)

白话解释:History 就是你的"项目文件夹"。你上传的数据、每一步分析的结果都自动保存在这里,颜色表示状态:

颜色 含义
灰色 排队中,还没开始跑
黄色 正在运行
绿色 成功完成
红色 出错了

一个 History = 一个完整的分析项目。你可以同时有多个 History,互不干扰。

3. Workflow(工作流)

白话解释:Workflow 就是把你手动点击的一步步操作"录制"下来,变成一个可以一键重放的流水线。

类比:就像你在手机上录制了一个"自动化快捷指令"——以后新数据来了,不用重新一步步点,直接跑 Workflow 就行。

4. Tool Shed(工具仓库)

白话解释:Tool Shed 是 Galaxy 的"应用商店"。全世界开发者把生信工具打包上传到这里,管理员可以从 Tool Shed 安装新工具到自己的 Galaxy 服务器。

普通用户不需要操作 Tool Shed,但面试时知道这个概念说明你理解 Galaxy 的架构。


注册与使用

推荐的公共服务器

服务器 地址 特点
usegalaxy.org https://usegalaxy.org 美国主站,工具最全
usegalaxy.eu https://usegalaxy.eu 欧洲站,存储空间大(250GB)
usegalaxy.org.au https://usegalaxy.org.au 澳洲站,速度适中

注册步骤

  1. 打开 https://usegalaxy.org
  2. 点击顶部 Login or Register
  3. 填写邮箱、密码、公开名称
  4. 验证邮箱
  5. 登录后即可使用(免费,有存储配额限制,一般 250GB)

注意:不注册也能用,但数据不会保存。注册后数据永久保留。


实操教程:从上传到分享的完整流程

Step 1:上传数据

  1. 点击左侧工具栏顶部的 Upload Data (上传图标 ⬆)
  2. 选择上传方式:
  3. Choose local files:从电脑选文件
  4. Paste/Fetch data:粘贴 URL 让 Galaxy 下载(推荐大文件用这个)
  5. 设置文件格式(Type):fastqsanger.gz、tabular、bed 等
  6. 点击 Start 开始上传
  7. 上传完成后关闭窗口,数据出现在右侧 History 中

白话提示:Galaxy 会自动检测大多数格式,但 FASTQ 文件建议手动选 fastqsanger.gz,避免格式识别错误。

Step 2:运行 FastQC 质控

  1. 左侧搜索框输入 FastQC
  2. 点击 FastQC: Read Quality reports
  3. 中间面板出现参数设置:
  4. Short read data:选择你刚上传的 FASTQ 文件
  5. 其他参数保持默认
  6. 点击底部 Run Tool
  7. 右侧 History 出现新条目(先灰→黄→绿)
  8. 点击绿色条目的 👁 眼睛图标查看 HTML 报告

Step 3:运行比对(以 HISAT2 为例)

  1. 搜索 HISAT2
  2. 参数设置:
  3. Source for the reference genome:选 Use a built-in genome(Galaxy 内置了人类、小鼠等参考基因组)
  4. Select a reference genome:选 hg38(人类)
  5. Input reads:选 Single-end 或 Paired-end
  6. FASTA/Q file:选择你的 FASTQ 文件
  7. 点击 Run Tool
  8. 等待运行完成(比对通常需要 10-30 分钟)
  9. 输出为 BAM 格式文件

Step 4:查看结果

  • 点击 History 中绿色条目的 👁 图标:快速预览
  • 点击条目名称展开:看到完整元信息(行数、大小、格式)
  • 点击 📊 图表图标:可视化(部分工具支持)
  • 点击 💾 保存图标:下载到本地

Step 5:构建 Workflow

方法一:从 History 提取

  1. 顶部菜单点击 Workflow
  2. 点击 Extract Workflow from History
  3. 选择要包含的步骤(勾选/取消勾选)
  4. 命名 Workflow,点击 Create Workflow

方法二:手动搭建

  1. 顶部菜单点击 WorkflowCreate new workflow
  2. 进入可视化编辑器(拖拽界面)
  3. 从左侧拖入工具节点
  4. 用连线将输出连接到下一步的输入
  5. 保存

Step 6:分享

  • 分享 History:History 菜单 → Share or Publish → 生成链接
  • 分享 Workflow:Workflow 列表 → 点击分享图标 → 生成链接或发布到公共库
  • 导出 Workflow:下载为 .ga 文件(JSON 格式),可上传到其他 Galaxy 服务器

Galaxy 做 RNA-seq 分析完整流程

这是面试中最常被问到的 Galaxy 应用场景:

原始 FASTQ
    │
    ▼
[FastQC] ──→ 质控报告
    │
    ▼
[Trimmomatic/Cutadapt] ──→ 去接头、修剪低质量碱基
    │
    ▼
[HISAT2/STAR] ──→ 比对到参考基因组 (BAM)
    │
    ▼
[featureCounts/htseq-count] ──→ 基因计数矩阵
    │
    ▼
[DESeq2] ──→ 差异表达基因列表
    │
    ▼
[GO enrichment / KEGG] ──→ 功能富集分析

具体操作要点

步骤 Galaxy 工具 关键参数
质控 FastQC 默认即可
修剪 Trimmomatic ILLUMINACLIP + SLIDINGWINDOW:4:20
比对 HISAT2 选内置基因组,注意单端/双端
计数 featureCounts 需要 GTF 注释文件(Galaxy 内置)
差异分析 DESeq2 设置分组(实验组 vs 对照组)
富集 goseq 或 clusterProfiler 需要物种注释数据库

白话提示:Galaxy 版 DESeq2 的界面会让你手动指定哪些样本是实验组、哪些是对照组,不需要写 R 代码来定义 design matrix。


Galaxy 做微生物组分析

这是你简历项目(宏基因组)的直接相关应用:

16S rRNA 扩增子分析流程

原始 FASTQ (16S)
    │
    ▼
[Cutadapt] ──→ 去引物
    │
    ▼
[DADA2] ──→ ASV 表(比 OTU 更精确)
    │
    ▼
[assign taxonomy] ──→ 物种分类注释
    │
    ▼
[diversity metrics] ──→ Alpha/Beta 多样性
    │
    ▼
[LEfSe/ANCOM] ──→ 差异物种分析

宏基因组(Shotgun)分析流程

原始 FASTQ (WGS)
    │
    ▼
[FastQC + Trimmomatic] ──→ 质控
    │
    ▼
[Kraken2/MetaPhlAn] ──→ 物种组成
    │
    ▼
[HUMAnN] ──→ 功能通路分析
    │
    ▼
[MaxBin2/MetaBAT2] ──→ Binning (MAGs)

Galaxy 上的微生物组分析优势: - 欧洲站 (usegalaxy.eu) 有完整的 microbiome 工具集 - 官方提供 GTN (Galaxy Training Network) 教程,按步骤跟着点就能做完 - ASV/OTU 表生成后可直接用 Galaxy 内置的统计工具做下游分析


Galaxy vs 命令行的优劣对比

维度 Galaxy(网页版) 命令行
上手难度 低,点击操作 高,需要学 Linux/Shell
可复现性 高,Workflow 自动记录 中,需要手写脚本+版本管理
灵活性 中,受限于已有工具和参数 高,完全自定义
大数据处理 受服务器配额限制 取决于自己的计算资源
批量处理 支持 Dataset Collection 原生支持,for 循环即可
自定义分析 需要管理员安装工具 随时安装任何软件
学习价值 理解流程逻辑 掌握底层操作
论文发表 越来越多期刊接受 传统方式,普遍接受
适合场景 教学、快速验证、小数据量 生产环境、大规模分析
面试评价 加分项(知道多种方案) 必备技能

面试话术建议

"我日常用命令行做分析,但也熟悉 Galaxy 平台。Galaxy 的优势是可复现性强、适合快速原型验证和协作分享。比如我需要让不会写代码的合作者重复我的分析时,我会把流程导出为 Galaxy Workflow 分享给他们。"


常见问题

Q1:Galaxy 免费吗?有什么限制?

免费。主要限制: - 存储配额:usegalaxy.org 约 250GB,usegalaxy.eu 约 250GB - 并发任务数:同时运行的任务有上限(通常 4-8 个) - 单任务内存/CPU:有上限,超大数据集可能跑不动 - 解决方案:删除不需要的旧数据,或申请配额增加

Q2:数据安全吗?能上传病人数据吗?

公共服务器上不应上传含有个人隐私信息的临床数据(PHI)。如果有合规要求: - 使用机构内部部署的私有 Galaxy 服务器 - 或使用 Galaxy 的 Docker 镜像在本地运行

Q3:Galaxy 上的工具版本和命令行的一样吗?

一样。Galaxy 上的工具就是命令行工具的"外壳包装"——底层跑的是同一个程序(如 HISAT2 2.2.1),只是 Galaxy 帮你把参数变成了可点击的下拉菜单和输入框。

Q4:运行失败(红色)怎么办?

  1. 点击红色条目展开
  2. 查看 stderr(标准错误输出)——这和命令行报错信息一样
  3. 常见原因:
  4. 输入文件格式不对(比如 fastq 写成了 fasta)
  5. 参考基因组选错了
  6. 内存不够(换小数据试试或换欧洲站)
  7. 点击 🔄 重新运行按钮可以修改参数重试

Q5:Galaxy 能做机器学习吗?

能。Galaxy 集成了部分 scikit-learn 工具(分类、回归、聚类),也有基本的 R 脚本环境。但复杂的自定义模型(如你的随机森林项目里的特征工程)还是命令行更灵活。

Q6:面试官问"你用过 Galaxy 吗"怎么回答?

建议回答思路: 1. 说明你知道 Galaxy 是什么、核心优势(可复现、协作) 2. 举一个具体使用场景(如快速验证 RNA-seq 流程、教同事做质控) 3. 对比命令行说明你的技术判断力(什么场景用什么工具)


速查表

Galaxy 快捷操作

操作 方法
搜索工具 左侧搜索框直接输入工具名
批量处理 使用 Dataset Collection(多文件打包)
重新运行 点击 History 条目的 🔄 图标
查看参数 点击 History 条目的 ℹ️ 图标
删除数据 点击 ✖ 删除(可从回收站恢复)
切换 History 右侧 History 面板顶部的 📋 图标
导入共享数据 Shared Data → Data Libraries

常用工具速查

任务 工具名称 搜索关键词
质控报告 FastQC fastqc
去接头 Cutadapt / Trimmomatic trim
RNA-seq 比对 HISAT2 / STAR hisat / star
DNA 比对 BWA-MEM2 / Bowtie2 bwa / bowtie
基因计数 featureCounts featurecount
差异表达 DESeq2 / limma deseq
物种注释 Kraken2 / MetaPhlAn kraken
变异检测 FreeBayes / GATK freebayes
格式转换 SAMtools / BEDTools samtools
可视化 JBrowse / IGV jbrowse

Dataset Collection 使用方法(批量处理)

上传多个文件 → 在 History 中选中多个条目 
→ 点击 "Build Dataset List" 
→ 命名 Collection 
→ 运行工具时选择 Collection 作为输入
→ 工具自动对每个文件执行相同操作

白话解释:Collection 就是"文件夹",把同类文件打包后,工具会自动批量处理,不用一个一个点。


延伸资源

官方学习资源

资源 地址 说明
Galaxy Training Network (GTN) https://training.galaxyproject.org 最权威的教程集,按领域分类
Galaxy 官方文档 https://galaxyproject.org/learn 入门指南
GTN 微生物组教程 training.galaxyproject.org/topics/microbiome 与你简历方向直接相关
GTN RNA-seq 教程 training.galaxyproject.org/topics/transcriptomics 最常考的分析流程

推荐学习路径

  1. 第一天:注册 usegalaxy.org → 上传示例 FASTQ → 跑 FastQC
  2. 第二天:跟着 GTN 的 "Quality Control" 教程做一遍完整质控
  3. 第三天:跟着 GTN 的 "RNA-seq" 入门教程做比对+计数
  4. 第四天:尝试提取 Workflow,修改参数重新运行
  5. 第五天:跟着 GTN 的 "16S Microbial Analysis" 做一遍微生物组流程

相关论文

  • Afgan et al. (2018) "The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update" Nucleic Acids Research
  • Batut et al. (2018) "Community-Driven Data Analysis Training for Biology" Cell Systems

本项目相关文件

  • knowledge_base_2 热门工具与教程/11_Snakemake流程管理实战.md — 命令行版流程管理(与 Galaxy Workflow 互补)
  • knowledge_base_2 热门工具与教程/14_宏基因组binning与MAGs提取.md — Galaxy 也能做 binning

面试高频考点总结

  1. Galaxy 是什么 → 免费网页版生信平台,不用写代码
  2. 核心优势 → 可复现(Workflow)、可协作(分享)、零门槛
  3. 何时用 Galaxy → 教学、快速验证、协作、不熟悉命令行时
  4. 何时用命令行 → 生产环境、大数据、自定义分析
  5. History → 项目文件夹,自动记录所有步骤
  6. Workflow → 可重放的分析流水线
  7. Tool Shed → Galaxy 的应用商店
  8. Galaxy 和命令行工具的关系 → 底层是同一个工具,Galaxy 只是加了图形界面

文档版本:v1.0 | 适用面试方向:生信工程师(宏基因组/通用) | 预计阅读时间:15分钟