832. 云计算平台对比：AWS vs GCP vs 阿里云（生信方向）¶

一句话概述：AWS生态最全（基因组学专属服务多），GCP数据分析最强（BigQuery+AI），阿里云对国内用户最友好（中文文档+合规）。

核心知识点速查表¶

维度	AWS	GCP	阿里云
生信专属服务	AWS HealthOmics	Google Cloud Life Sciences	基因计算服务
对象存储	S3	Cloud Storage	OSS
计算实例	EC2	Compute Engine	ECS
GPU实例	P5(H100)/G5(A10G)	A3(H100)/A2(A100)	GPU实例(A100/V100)
批量计算	AWS Batch	Google Batch	批量计算
容器服务	EKS (K8s)	GKE (K8s)	ACK (K8s)
价格水平	中高	中	低
中国合规	需要AWS中国区	不可直接用	原生合规
生信工具集成	Terra/GATK/Nextflow	Terra(Verily)/GATK	基因分析平台

一、为什么生信要上云？（白话版）¶

传统方式：实验室买一台服务器→128核CPU+512G内存→花50万→只有测序高峰期才用满→大部分时间闲置

云计算方式：测序数据来了→按需开100台服务器→分析完关掉→只花几百块

核心优势：按需付费、弹性扩展、不用维护硬件

二、AWS生信实战¶

2.1 基础架构¶

# AWS CLI 基础操作

# 1. 配置认证
aws configure                          # 配置访问密钥
# AWS Access Key ID: AKIA...
# AWS Secret Access Key: xxxx...
# Default region name: us-east-1
# Default output format: json

# 2. S3存储操作（存测序数据）
aws s3 mb s3://my-genomics-bucket      # 创建存储桶
aws s3 cp sample.fastq.gz \            # 上传FASTQ文件
    s3://my-genomics-bucket/raw/
aws s3 sync data/ \                    # 同步本地目录到S3
    s3://my-genomics-bucket/data/
aws s3 ls s3://my-genomics-bucket/     # 列出文件

# 3. EC2计算实例
aws ec2 run-instances \                # 启动实例
    --image-id ami-0abcdef1234567890 \ # AMI镜像ID
    --instance-type r5.4xlarge \       # 16核128G内存
    --key-name my-key                  # SSH密钥

# 4. AWS Batch批量计算
aws batch submit-job \                 # 提交批量作业
    --job-name bwa-align \             # 作业名
    --job-queue genomics-queue \       # 作业队列
    --job-definition bwa-job:1         # 作业定义

2.2 AWS HealthOmics¶

# AWS HealthOmics —— 基因组学专属服务（2023年推出）

# 创建基因组序列存储
aws omics create-sequence-store \      # 创建序列存储
    --name "my-genomics-store"         # 存储名称

# 运行分析工作流
aws omics start-run \                  # 启动分析运行
    --workflow-id wf-1234567890 \      # 工作流ID
    --role-arn arn:aws:iam::role \     # IAM角色
    --parameters file://params.json    # 参数文件

# 支持的工作流: WDL、Nextflow、CWL

三、GCP生信实战¶

# GCP CLI (gcloud) 基础操作

# 1. 配置
gcloud auth login                      # 登录认证
gcloud config set project my-project   # 设置项目

# 2. Cloud Storage（类似S3）
gsutil mb gs://my-genomics-bucket      # 创建存储桶
gsutil cp sample.fastq.gz \            # 上传文件
    gs://my-genomics-bucket/raw/
gsutil ls gs://my-genomics-bucket/     # 列出文件

# 3. Compute Engine
gcloud compute instances create \      # 创建虚拟机
    bio-analysis \                     # 实例名
    --machine-type=n2-highmem-16 \     # 16核128G
    --zone=us-central1-a               # 区域

# 4. Google Batch
gcloud batch jobs submit bwa-job \     # 提交批处理作业
    --location us-central1 \           # 区域
    --config batch-config.json         # 配置文件

四、阿里云生信实战¶

# 阿里云 CLI (aliyun) 基础操作

# 1. 配置
aliyun configure                       # 配置AccessKey

# 2. OSS对象存储
aliyun oss mb oss://my-genomics        # 创建Bucket
aliyun oss cp sample.fastq.gz \        # 上传文件
    oss://my-genomics/raw/
ossutil ls oss://my-genomics/          # 列出文件

# 3. ECS计算实例
aliyun ecs CreateInstance \            # 创建实例
    --InstanceType ecs.r6.4xlarge \    # 16核128G
    --ImageId ubuntu_22_04             # Ubuntu镜像

# 4. 批量计算服务
# 阿里云BatchCompute用于大规模并行计算
# 适合基因组分析的批量样本处理

五、成本对比（生信典型场景）¶

场景：30X全基因组测序分析（BWA+GATK流程）
数据量：约100GB FASTQ → 约30GB BAM

存储成本（每月每TB）：
┌─────────────────────────────────┐
│ AWS S3 Standard    │ $23/TB/月  │
│ GCP Standard       │ $20/TB/月  │
│ 阿里云 OSS标准     │ ¥120/TB/月 │ (~$17)
└─────────────────────────────────┘

计算成本（16核128G实例，按小时）：
┌─────────────────────────────────┐
│ AWS r5.4xlarge     │ $1.01/hr   │
│ GCP n2-highmem-16  │ $0.95/hr   │
│ 阿里云 r6.4xlarge  │ ¥5.5/hr    │ (~$0.76)
└─────────────────────────────────┘

竞价/抢占式实例（可省50-90%）：
→ AWS Spot Instances
→ GCP Preemptible/Spot VMs
→ 阿里云抢占式实例

六、Nextflow云端运行¶

# Nextflow原生支持三大云平台

# AWS Batch
nextflow run nf-core/rnaseq \
    -profile awsbatch \                # AWS Batch配置
    --outdir s3://bucket/results       # 结果存S3

# GCP Batch
nextflow run nf-core/rnaseq \
    -profile google \                  # GCP配置
    --outdir gs://bucket/results       # 结果存GCS

# 本地测试 → 云端生产
# 同一个Nextflow流程，换个-profile就能从本地切到云端

七、面试高频问题¶

Q: 你用过云计算做生信分析吗？ A: 可以说了解AWS/阿里云的基本架构——S3/OSS存数据，EC2/ECS跑计算，Batch服务批量处理。Nextflow可以一键切换本地和云端。
Q: 云计算对生信的意义？ A: 弹性扩展（测序高峰期临时扩容）、按需付费（不用买服务器）、标准化环境（Docker容器）、数据共享（对象存储+权限控制）。
Q: 国内做临床基因组，数据存哪里？ A: 阿里云或华为云（满足数据合规要求）。临床数据有出境限制，不能存AWS海外区域。

常见报错与解决¶

问题	解决
S3上传中断	用`aws s3 cp --expected-size`或分段上传
实例启动失败	检查配额限制和区域可用性
竞价实例被回收	设置断点续跑(checkpoint)，用Nextflow -resume
账单超预期	设置预算告警，用完及时关闭实例
数据传输慢	用专线(Direct Connect)或数据迁移服务

速查表¶

# 对象存储速查
AWS:    aws s3 cp/sync/ls/mb
GCP:    gsutil cp/rsync/ls/mb
阿里云:  ossutil cp/sync/ls/mb

# 实例类型推荐（生信）
轻量分析:  4核16G   (~$0.2/hr)
标准分析:  16核64G  (~$0.5/hr)
大内存:   16核128G (~$1.0/hr)
GPU分析:  8核+1xA100 (~$3-5/hr)

# 省钱策略
1. 竞价/抢占式实例（省50-90%）
2. 用完立即关机
3. 冷数据转归档存储
4. 设置预算告警
5. 小数据本地跑，大数据才上云