跳转至

Galaxy 在线生信分析平台完整教程

1. 一句话说明

Galaxy 是一个免费的网页版生物信息学分析平台,让你不用写一行代码,只需要点点鼠标就能完成从质控、比对到差异分析的全套生信流程。


为什么要学 Galaxy

理由说明
零代码门槛不需要 Linux 命令行基础,浏览器打开就能用
面试加分面试官问"如果服务器挂了/没有计算资源怎么办",答 Galaxy 证明你有 Plan B
可复现Workflow 可以保存、分享、发表,论文审稿人能一键复现你的分析
学习工具逻辑在 Galaxy 上点参数 = 理解命令行工具的参数含义,反过来帮你学命令行
真实科研使用Nature Methods 多次推荐,欧洲 ELIXIR 官方培训平台

白话总结:Galaxy 就像"生信界的美图秀秀"——专业功能都有,但操作方式是拖拽+点击,不用背命令。


核心概念白话版

1. Galaxy 界面(三栏布局)

┌──────────┬──────────────────┬──────────┐
│  工具栏   │    中间主面板      │  History │
│ (左侧)   │  (参数设置/结果)   │  (右侧)  │
└──────────┴──────────────────┴──────────┘
  • 左侧工具栏:所有分析工具的列表,像手机里的 App 列表
  • 中间面板:你当前在操作的区域,设置参数、查看结果都在这里
  • 右侧 History:你所有的数据和分析结果,按时间排列

2. History(历史记录)

白话解释:History 就是你的"项目文件夹"。你上传的数据、每一步分析的结果都自动保存在这里,颜色表示状态:

颜色含义
灰色排队中,还没开始跑
黄色正在运行
绿色成功完成
红色出错了

一个 History = 一个完整的分析项目。你可以同时有多个 History,互不干扰。

3. Workflow(工作流)

白话解释:Workflow 就是把你手动点击的一步步操作"录制"下来,变成一个可以一键重放的流水线。

类比:就像你在手机上录制了一个"自动化快捷指令"——以后新数据来了,不用重新一步步点,直接跑 Workflow 就行。

4. Tool Shed(工具仓库)

白话解释:Tool Shed 是 Galaxy 的"应用商店"。全世界开发者把生信工具打包上传到这里,管理员可以从 Tool Shed 安装新工具到自己的 Galaxy 服务器。

普通用户不需要操作 Tool Shed,但面试时知道这个概念说明你理解 Galaxy 的架构。


注册与使用

推荐的公共服务器

服务器地址特点
usegalaxy.orghttps://usegalaxy.org美国主站,工具最全
usegalaxy.euhttps://usegalaxy.eu欧洲站,存储空间大(250GB)
usegalaxy.org.auhttps://usegalaxy.org.au澳洲站,速度适中

注册步骤

  1. 打开 https://usegalaxy.org
  2. 点击顶部 Login or Register
  3. 填写邮箱、密码、公开名称
  4. 验证邮箱
  5. 登录后即可使用(免费,有存储配额限制,一般 250GB)

注意:不注册也能用,但数据不会保存。注册后数据永久保留。


实操教程:从上传到分享的完整流程

Step 1:上传数据

  1. 点击左侧工具栏顶部的 Upload Data (上传图标 ⬆)
  2. 选择上传方式:
  3. Choose local files:从电脑选文件
  4. Paste/Fetch data:粘贴 URL 让 Galaxy 下载(推荐大文件用这个)
  5. 设置文件格式(Type):fastqsanger.gz、tabular、bed 等
  6. 点击 Start 开始上传
  7. 上传完成后关闭窗口,数据出现在右侧 History 中

白话提示:Galaxy 会自动检测大多数格式,但 FASTQ 文件建议手动选 fastqsanger.gz,避免格式识别错误。

Step 2:运行 FastQC 质控

  1. 左侧搜索框输入 FastQC
  2. 点击 FastQC: Read Quality reports
  3. 中间面板出现参数设置:
  4. Short read data:选择你刚上传的 FASTQ 文件
  5. 其他参数保持默认
  6. 点击底部 Run Tool
  7. 右侧 History 出现新条目(先灰→黄→绿)
  8. 点击绿色条目的 👁 眼睛图标查看 HTML 报告

Step 3:运行比对(以 HISAT2 为例)

  1. 搜索 HISAT2
  2. 参数设置:
  3. Source for the reference genome:选 Use a built-in genome(Galaxy 内置了人类、小鼠等参考基因组)
  4. Select a reference genome:选 hg38(人类)
  5. Input reads:选 Single-end 或 Paired-end
  6. FASTA/Q file:选择你的 FASTQ 文件
  7. 点击 Run Tool
  8. 等待运行完成(比对通常需要 10-30 分钟)
  9. 输出为 BAM 格式文件

Step 4:查看结果

  • 点击 History 中绿色条目的 👁 图标:快速预览
  • 点击条目名称展开:看到完整元信息(行数、大小、格式)
  • 点击 📊 图表图标:可视化(部分工具支持)
  • 点击 💾 保存图标:下载到本地

Step 5:构建 Workflow

方法一:从 History 提取

  1. 顶部菜单点击 Workflow
  2. 点击 Extract Workflow from History
  3. 选择要包含的步骤(勾选/取消勾选)
  4. 命名 Workflow,点击 Create Workflow

方法二:手动搭建

  1. 顶部菜单点击 WorkflowCreate new workflow
  2. 进入可视化编辑器(拖拽界面)
  3. 从左侧拖入工具节点
  4. 用连线将输出连接到下一步的输入
  5. 保存

Step 6:分享

  • 分享 History:History 菜单 → Share or Publish → 生成链接
  • 分享 Workflow:Workflow 列表 → 点击分享图标 → 生成链接或发布到公共库
  • 导出 Workflow:下载为 .ga 文件(JSON 格式),可上传到其他 Galaxy 服务器

Galaxy 做 RNA-seq 分析完整流程

这是面试中最常被问到的 Galaxy 应用场景:

原始 FASTQ
[FastQC] ──→ 质控报告
[Trimmomatic/Cutadapt] ──→ 去接头、修剪低质量碱基
[HISAT2/STAR] ──→ 比对到参考基因组 (BAM)
[featureCounts/htseq-count] ──→ 基因计数矩阵
[DESeq2] ──→ 差异表达基因列表
[GO enrichment / KEGG] ──→ 功能富集分析

具体操作要点

步骤Galaxy 工具关键参数
质控FastQC默认即可
修剪TrimmomaticILLUMINACLIP + SLIDINGWINDOW:4:20
比对HISAT2选内置基因组,注意单端/双端
计数featureCounts需要 GTF 注释文件(Galaxy 内置)
差异分析DESeq2设置分组(实验组 vs 对照组)
富集goseq 或 clusterProfiler需要物种注释数据库

白话提示:Galaxy 版 DESeq2 的界面会让你手动指定哪些样本是实验组、哪些是对照组,不需要写 R 代码来定义 design matrix。


Galaxy 做微生物组分析

这是简历项目(宏基因组)的直接相关应用:

16S rRNA 扩增子分析流程

原始 FASTQ (16S)
[Cutadapt] ──→ 去引物
[DADA2] ──→ ASV 表(比 OTU 更精确)
[assign taxonomy] ──→ 物种分类注释
[diversity metrics] ──→ Alpha/Beta 多样性
[LEfSe/ANCOM] ──→ 差异物种分析

宏基因组(Shotgun)分析流程

原始 FASTQ (WGS)
[FastQC + Trimmomatic] ──→ 质控
[Kraken2/MetaPhlAn] ──→ 物种组成
[HUMAnN] ──→ 功能通路分析
[MaxBin2/MetaBAT2] ──→ Binning (MAGs)

Galaxy 上的微生物组分析优势: - 欧洲站 (usegalaxy.eu) 有完整的 microbiome 工具集 - 官方提供 GTN (Galaxy Training Network) 教程,按步骤跟着点就能做完 - ASV/OTU 表生成后可直接用 Galaxy 内置的统计工具做下游分析


Galaxy vs 命令行的优劣对比

维度Galaxy(网页版)命令行
上手难度低,点击操作高,需要学 Linux/Shell
可复现性高,Workflow 自动记录中,需要手写脚本+版本管理
灵活性中,受限于已有工具和参数高,完全自定义
大数据处理受服务器配额限制取决于自己的计算资源
批量处理支持 Dataset Collection原生支持,for 循环即可
自定义分析需要管理员安装工具随时安装任何软件
学习价值理解流程逻辑掌握底层操作
论文发表越来越多期刊接受传统方式,普遍接受
适合场景教学、快速验证、小数据量生产环境、大规模分析
面试评价加分项(知道多种方案)必备技能

面试话术建议

"我日常用命令行做分析,但也熟悉 Galaxy 平台。Galaxy 的优势是可复现性强、适合快速原型验证和协作分享。比如我需要让不会写代码的合作者重复我的分析时,我会把流程导出为 Galaxy Workflow 分享给他们。"


常见问题

Q1:Galaxy 免费吗?有什么限制?

免费。主要限制: - 存储配额:usegalaxy.org 约 250GB,usegalaxy.eu 约 250GB - 并发任务数:同时运行的任务有上限(通常 4-8 个) - 单任务内存/CPU:有上限,超大数据集可能跑不动 - 解决方案:删除不需要的旧数据,或申请配额增加

Q2:数据安全吗?能上传病人数据吗?

公共服务器上不应上传含有个人隐私信息的临床数据(PHI)。如果有合规要求: - 使用机构内部部署的私有 Galaxy 服务器 - 或使用 Galaxy 的 Docker 镜像在本地运行

Q3:Galaxy 上的工具版本和命令行的一样吗?

一样。Galaxy 上的工具就是命令行工具的"外壳包装"——底层跑的是同一个程序(如 HISAT2 2.2.1),只是 Galaxy 帮你把参数变成了可点击的下拉菜单和输入框。

Q4:运行失败(红色)怎么办?

  1. 点击红色条目展开
  2. 查看 stderr(标准错误输出)——这和命令行报错信息一样
  3. 常见原因:
  4. 输入文件格式不对(比如 fastq 写成了 fasta)
  5. 参考基因组选错了
  6. 内存不够(换小数据试试或换欧洲站)
  7. 点击 🔄 重新运行按钮可以修改参数重试

Q5:Galaxy 能做机器学习吗?

能。Galaxy 集成了部分 scikit-learn 工具(分类、回归、聚类),也有基本的 R 脚本环境。但复杂的自定义模型(如你的随机森林项目里的特征工程)还是命令行更灵活。

Q6:面试官问"你用过 Galaxy 吗"怎么回答?

建议回答思路: 1. 说明你知道 Galaxy 是什么、核心优势(可复现、协作) 2. 举一个具体使用场景(如快速验证 RNA-seq 流程、教同事做质控) 3. 对比命令行说明你的技术判断力(什么场景用什么工具)


速查表

Galaxy 快捷操作

操作方法
搜索工具左侧搜索框直接输入工具名
批量处理使用 Dataset Collection(多文件打包)
重新运行点击 History 条目的 🔄 图标
查看参数点击 History 条目的 ℹ️ 图标
删除数据点击 ✖ 删除(可从回收站恢复)
切换 History右侧 History 面板顶部的 📋 图标
导入共享数据Shared Data → Data Libraries

常用工具速查

任务工具名称搜索关键词
质控报告FastQCfastqc
去接头Cutadapt / Trimmomatictrim
RNA-seq 比对HISAT2 / STARhisat / star
DNA 比对BWA-MEM2 / Bowtie2bwa / bowtie
基因计数featureCountsfeaturecount
差异表达DESeq2 / limmadeseq
物种注释Kraken2 / MetaPhlAnkraken
变异检测FreeBayes / GATKfreebayes
格式转换SAMtools / BEDToolssamtools
可视化JBrowse / IGVjbrowse

Dataset Collection 使用方法(批量处理)

上传多个文件 → 在 History 中选中多个条目 
→ 点击 "Build Dataset List" 
→ 命名 Collection 
→ 运行工具时选择 Collection 作为输入
→ 工具自动对每个文件执行相同操作

白话解释:Collection 就是"文件夹",把同类文件打包后,工具会自动批量处理,不用一个一个点。


延伸资源

官方学习资源

资源地址说明
Galaxy Training Network (GTN)https://training.galaxyproject.org最权威的教程集,按领域分类
Galaxy 官方文档https://galaxyproject.org/learn入门指南
GTN 微生物组教程training.galaxyproject.org/topics/microbiome与宏基因组方向直接相关
GTN RNA-seq 教程training.galaxyproject.org/topics/transcriptomics最常考的分析流程

推荐学习路径

  1. 第一天:注册 usegalaxy.org → 上传示例 FASTQ → 跑 FastQC
  2. 第二天:跟着 GTN 的 "Quality Control" 教程做一遍完整质控
  3. 第三天:跟着 GTN 的 "RNA-seq" 入门教程做比对+计数
  4. 第四天:尝试提取 Workflow,修改参数重新运行
  5. 第五天:跟着 GTN 的 "16S Microbial Analysis" 做一遍微生物组流程

相关论文

  • Afgan et al. (2018) "The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update" Nucleic Acids Research
  • Batut et al. (2018) "Community-Driven Data Analysis Training for Biology" Cell Systems

本项目相关文件

  • knowledge_base_2 热门工具与教程/11_Snakemake流程管理实战.md — 命令行版流程管理(与 Galaxy Workflow 互补)
  • knowledge_base_2 热门工具与教程/14_宏基因组binning与MAGs提取.md — Galaxy 也能做 binning

面试高频考点总结

  1. Galaxy 是什么 → 免费网页版生信平台,不用写代码
  2. 核心优势 → 可复现(Workflow)、可协作(分享)、零门槛
  3. 何时用 Galaxy → 教学、快速验证、协作、不熟悉命令行时
  4. 何时用命令行 → 生产环境、大数据、自定义分析
  5. History → 项目文件夹,自动记录所有步骤
  6. Workflow → 可重放的分析流水线
  7. Tool Shed → Galaxy 的应用商店
  8. Galaxy 和命令行工具的关系 → 底层是同一个工具,Galaxy 只是加了图形界面

文档版本:v1.0 | 预计阅读时间:15分钟