Live AWS 宏基因组分析演示 — 实时 HMP 数据、Graviton3 计算与成本监控¶

概述¶

本知识库文章记录了一项可重复的 AWS 云上宏基因组分析演示项目。该项目在 5 分钟内启动真实 AWS 计算实例，对人类微生物组计划（HMP）的真实公共数据进行分类学分析，并实时展示每分每秒的云成本变化。整个分析无需预处理数据，直接从公共 S3 存储桶拉取原始测序文件，利用 AWS Graviton3 处理器和ARM64 架构获得优异的性价比，并通过流式仪表板透明呈现进度与费用。项目采用 nf-core/taxprofiler 流程（内含 Kraken2 和 MetaPhlAn）作为分析引擎，最终借助 Amazon Bedrock Claude Sonnet 模型自动生成三条通俗易懂的生物学洞察。

关键特征： - 零数据搬移：直接从 SRA 开放数据云 (s3://sra-pub-run-odp/) 读取 HMP 样本，无需拷贝至私有存储桶，节省时间和存储成本。 - 真实算力：自动拉起 8 个 c7g.4xlarge 实例（Graviton3 ARM64），并行处理 100 个宏基因组样本。 - 实时成本仪表板：WebSocket 推送每个样本的完成状态，仪表板上的费用计算器按秒跳动。 - 经优化的 AMI：预先将 Nextflow、Singularity 镜像和 Kraken2 的 k2_pluspf_16GB 数据库封装在 Amazon Linux 2023 ARM64 AMI 中，实例开机即可运行。 - AI 结果总结：分析完成后调用 Bedrock 大语言模型，用自然语言归纳分类结果。

核心知识点¶

1. 直接读取 RODA 公共数据的优势¶

SRA Open Data（s3://sra-pub-run-odp/）是 AWS 托管的公共数据集，位于 us-east-1 区域。当 EC2 实例运行在同一区域时，可以直接通过 S3 协议读取其中的文件，享受 免费的内网带宽和零数据传出费用。

传统宏基因组分析流程往往需要先将 FASTQ 或 SRA 文件从公共仓库下载到本地或私有对象存储，再进行预处理，这会造成： - 时间延迟：动辄数 GB 的文件拷贝时间。 - 存储费用：私有桶中临时存放数据产生成本。 - 公共数据共享价值被削弱：本可以即时访问的开放数据被搬回私有域，违背了数据共享的初衷。

本项目利用 AWS 公共数据集程序，在工作节点启动后直接从 s3://sra-pub-run-odp/ 加载 SRA 格式的宏基因组数据，解压后直接送入分类工具，数据“用完即弃”，不在任何中间环节留存副本。这种模式特别适合临时性分析任务、教学演示以及数据密集型的重复性批量计算。

2. 为什么选择 Kraken2 的 `k2_pluspf_16GB` 数据库？¶

Kraken2 是一种基于 k-mer 匹配的快速宏基因组分类工具，其性能高度依赖参考数据库的规模和内容。k2_pluspf 是标准数据库中覆盖面最广的版本，包含细菌、古菌、病毒、真菌和原生生物，完全能够支撑人类微生物组研究的需求。

该数据库压缩后约 11.9 GB，解压后约 16 GB。本项目选用 c7g.4xlarge 实例（32 GB 内存），可以使数据库完全载入内存，从而在分类过程中避免磁盘 I/O 瓶颈，大幅提升 Kraken2 的吞吐量。对于 100 个中等深度的宏基因组样本，这一配置能在约 15‑20 分钟内完成全部分析，恰好适合现场演示的时间约束。

3. 为什么选择 ARM64 / Graviton3？¶

AWS Graviton3 处理器基于 ARM Neoverse V1 架构，针对高性能计算优化了内存带宽和浮点运算单元。在生物信息学领域，大量工具（如 Kraken2）属于 CPU 密集型且对内存带宽敏感的工作负载。

官方基准和社区测试表明： - c7g 实例（Graviton3）在同等核心数下，相比上一代 x86 c5 实例，最高可提供 ~30% 的性价比提升。 - 单核整数和浮点性能显著提升，尤其适合大批量序列分类。 - Nextflow 工作流引擎和 Singularity 容器均提供完整的 ARM64 支持，nf-core/taxprofiler 的容器镜像也有对应的 ARM64 版本。 - 成本控制：c7g.4xlarge 的按需价格在 us-east-1 约为 $0.58/小时（演示时可能浮动），8 个实例运行 20 分钟的总计算成本约 $1.74。

选择 ARM64 架构同时避免了向 x86 实例迁移时可能出现的模拟损耗，构建专属 AMI 后，整个环境运行在原生 ARM 指令集上，效率最高。

4. 实时成本监控原理¶

仪表板通过 WebSocket 连接本地 FastAPI 后端，后端则通过轮询每个工作节点在 S3 上输出的进度文件（由 Nextflow 产生的日志）。成本计算基于以下参数： - 每个实例的单价（从 EC2 定价 API 或硬编码获取）。 - 实例启动的时间戳。 - 当前时间与启动时间的差值。

费用逐秒累加，一旦所有节点完成任务，后端调用 Amazon Bedrock Claude Sonnet 生成分析摘要，并在仪表板上展示。成本监控不仅增强了演示的透明度，也帮助研究人员理解云资源消耗，从而在真实项目中更好地平衡成本与速度。

5. 调用大模型生成生物学洞察¶

分析流程结束后，分类学结果（样本‑物种丰度表）被传递到 Bedrock 的 Claude Sonnet 模型。通过精心设计的提示词，模型自动输出三条面向非专业读者的简明结论，例如“口腔样本中链球菌属占比较高，符合健康人群特征”等。此步骤展示了将生物信息学管道输出与生成式 AI 结合的实用模式，可扩展用于自动报告生成或结果解释。

代码实操¶

环境准备与初始化¶

# 安装 spawn CLI（自动化 EC2 配置工具）
brew install spore-host/tap/spawn

# 安装 uv（快速 Python 依赖管理工具）
brew install uv

# 配置 AWS 凭证，需具备 EC2、S3、Bedrock 权限
# 确保 ~/.aws/credentials 中存在名为 aws 的 profile

# 克隆项目并进入目录
git clone <repository-url> hmp-microbiome-demo
cd hmp-microbiome-demo

# 复制配置文件模板并编辑
cp config.example.py config.py
# 编辑 config.py: 设置 REGION = 'us-east-1', ACCOUNT_ID, BUCKET（用于存放临时结果）

# 安装项目依赖并准备环境
make install

构建预配置的 AMI¶

制作 AMI 是演示前的一次性准备工作，耗时约 30‑45 分钟，费用约 $1‑2。它将以下组件封装到 Amazon Linux 2023 ARM64 镜像中： - Nextflow 工作流引擎 - nf-core/taxprofiler 的 Singularity 容器镜像（ARM64 版本） - Kraken2 的 k2_pluspf_16GB 数据库（已解压） - 自定义 worker 脚本

构建过程通过 build_ami.py 自动完成：

make ami   # 执行打包脚本，构建完成后会输出 AMI ID

构建成功后，将输出的 AMI ID 填写到 config.py 中的 AMI_ID 变量。

运行演示¶

make demo

该命令会： 1. 启动一个本地 FastAPI 服务器，监听 http://127.0.0.1:8000。 2. 自动打开默认浏览器，显示基于 Alpine.js 的实时仪表板。 3. 点击仪表板上的 Start Analysis 按钮，后端通过 spawn CLI 在指定区域启动 8 个 c7g.4xlarge 实例，每个实例运行预先配置好的 cloud‑init 脚本。 4. 每个实例随机分配一个子集的 HMP 样本（共 100 个样本，来自粪便、口腔、鼻腔三个身体部位），直接从 RODA 读取 SRA 文件。 5. 分析进度、已花费成本通过 WebSocket 推送至前端，实时更新。

注意： 演示需要提前配制好配置文件，确保对应 AWS 账户有足够的服务配额（尤其是 EC2 实例数量）。

演示结束后清理资源¶

make teardown

该命令停止所有还在运行的 EC2 实例，并删除存放中间文件和结果 JSON 的 S3 桶。由于 S3 桶仅保存小量文本数据（总计几 MB），删除过程很快。AMI 不会被自动删除，因为其本身不产生按小时计费的实例费用，仅 EBS 快照按每 GB‑月约 $0.05 收取费用。如需完全清理可手动注销：

aws ec2 deregister-image --image-id <AMI_ID> --region us-east-1

项目结构速览¶

.
├── build_ami.py                # 烘焙包含依赖的 AMI
├── teardown.py                 # 清理所有 AWS 资源
├── config.example.py           # 配置文件模板
├── Makefile                    # 常用操作快捷指令
└── src/microbiome_demo/
    ├── accessions.py           # HMP 样本 SRR 登记号列表 (34 粪便, 33 口腔, 33 鼻腔)
    ├── app.py                  # FastAPI 服务器：WebSocket 和 API 端点
    ├── spawn.py                # 封装 spawn CLI 调用
    ├── pipeline.py             # 监控 S3 上的 Nextflow 进度；计算 EC2 成本
    ├── agent.py                # Bedrock Sonnet 结果合成
    ├── worker_script.py        # 生成每个实例的 cloud‑init 启动脚本
    └── static/index.html       # Alpine.js 前端仪表板

常见问题¶

Q: 为什么不需要将 SRA 数据预先下载或转换为 FASTQ？

A: Kraken2 本身可以直接处理 FASTA、FASTQ 以及压缩的 SRA 格式。本演示利用 fasterq-dump 或类似工具在内存中实时解压 SRA 文件并流式输入 Kraken2，无需占用额外的磁盘空间。这一策略进一步减少了存储和时间开销。

Q: 如何确保分析结果的可重复性？

A: 整个分析使用 Nextflow 和 nf-core/taxprofiler 定义的标准化流程，每个样本的软件版本、数据库版本均固定。AMI 中锁定了所有依赖的镜像摘要，确保不同演示运行之间的环境一致性。结果 JSON 文件保存在 S3 中可供二次分析。

Q: 如果我的 AWS 账户没有足够的 c7g.4xlarge 实例配额怎么办？

A: 可以修改 spawn.py 中的实例类型，改用其他 Graviton3 实例（如 c7g.2xlarge），并相应调整并发数量和样本分配。也可以切换到 x86 实例，但成本可能会上升，且 AMI 需要重新构建。在生产环境中，建议提前申请提高配额。

Q: AMI 制作失败怎么办？

A: 常见原因是构建过程中 pip 或 conda 下载超时。脚本内置了重试机制，但如果仍失败，可以检查网络环境或使用 AWS 内部的 VPC 端点与 S3 通信。确保 build_ami.py 中指定的区域拥有必要的 AMI 和服务权限。

Q: 仪表板无法打开或 WebSocket 连接中断？

A: 本地端口绑定问题，确认 8000 端口未被占用。若在远程服务器运行，可使用端口转发或修改 app.py 中的监听地址。

速查表¶

操作	命令	说明
安装依赖	`brew install spore-host/tap/spawn uv`	安装 spawn 和 uv
初始化项目	`cp config.example.py config.py` && 编辑配置	设置区域、账号ID、S3桶
安装 Python 依赖	`make install`	使用 uv 安装
构建专用 AMI	`make ami`	耗时约30‑45分钟，输出 AMI ID
启动演示	`make demo`	自动打开仪表板，处理100个样本
清理资源	`make teardown`	终止实例并删除结果桶
手动注销 AMI	`aws ec2 deregister-image --image-id <ID> --region <region>`	删除 AMI 及其关联快照（需自行确认快照 ID 并删除）

成本速算：

组件	费用
8× c7g.4xlarge 运行 20 分钟	~$1.74
Bedrock Sonnet 结果合成	~$0.003
S3 结果存储（<5 MB）	可忽略
AMI 制作（一次性）	~$1‑2
HMP 数据访问	$0（RODA 公共数据，内网读取）
单次演示总成本	约 $1.74

硬件选型参考：

资源	规格	原因
实例类型	c7g.4xlarge (16 vCPU, 32 GB RAM)	数据库可完全装入内存，ARM64 性价比高
架构	ARM64 (Graviton3)	相比 x86 提升 ~30% 性价比
数据库	k2_pluspf_16GB	涵盖微生物所有界别，适合人体微生物组研究
容器	Singularity (Apptainer)	轻量级，兼容 HPC 环境，无需 Docker 守护进程

样本分布：

身体部位	SRR 样本数
粪便	34
口腔	33
鼻腔	33
合计	100

这份知识库文章基于公开的 Live AWS metagenomics demo 项目，所有代码和流程均可复现，适合作为云原生生物信息学教学、演示和真实项目启动的参考模板。