跳转至

843. 精准医学与生信

一句话概述:精准医学 = 根据每个人的基因组/多组学特征制定个性化治疗方案,生信是连接基因组数据与临床决策的核心桥梁。

核心知识点速查表

维度说明
定义基于个体分子特征(基因组/转录组/蛋白组)的个性化医疗
核心技术NGS、液体活检、多组学整合、AI/ML
市场规模(2025)~1185亿美元,CAGR 16.35%
主要应用肿瘤(50%)、罕见病、药物基因组学
生信角色变异检测→注释→解读→报告
关键趋势AI整合、超快速WGS、多组学、液体活检

一、精准医学核心流程(生信视角)

患者 → 采样 → 测序 → 生信分析 → 临床解读 → 治疗方案
              ┌─────────┴─────────┐
              │   生信分析流程     │
              │ 1. 质控(FastQC)   │
              │ 2. 比对(BWA-MEM2) │
              │ 3. 变异检测       │
              │    - SNV/Indel    │
              │    - CNV          │
              │    - SV           │
              │    - 融合基因     │
              │ 4. 变异注释       │
              │    - ClinVar      │
              │    - COSMIC       │
              │    - gnomAD       │
              │ 5. 变异过滤       │
              │ 6. 临床报告       │
              └───────────────────┘

二、临床变异分析流程

# 临床级别WGS/WES分析流程

# 1. 质控
fastp -i sample_R1.fq.gz \            # 输入R1
    -I sample_R2.fq.gz \              # 输入R2
    -o clean_R1.fq.gz \               # 输出R1
    -O clean_R2.fq.gz \               # 输出R2
    -h qc_report.html                 # 质控报告

# 2. 比对(临床用BWA-MEM2或Parabricks加速)
bwa-mem2 mem -t 16 \                  # 16线程
    -R '@RG\tID:sample\tSM:sample\tPL:ILLUMINA' \  # Read Group
    ref.fa clean_R1.fq.gz clean_R2.fq.gz | \
    samtools sort -@ 4 -o aligned.bam  # 排序

# 3. 标记重复
gatk MarkDuplicates \                  # GATK标记重复
    -I aligned.bam \
    -O marked.bam \
    -M dup_metrics.txt

# 4. 碱基质量重校正(BQSR)
gatk BaseRecalibrator \                # 碱基重校正
    -R ref.fa \
    -I marked.bam \
    --known-sites dbsnp.vcf \          # 已知变异位点
    -O recal_table.txt

gatk ApplyBQSR \                       # 应用校正
    -R ref.fa \
    -I marked.bam \
    --bqsr-recal-file recal_table.txt \
    -O recalibrated.bam

# 5. 变异检测
gatk HaplotypeCaller \                 # 胚系变异检测
    -R ref.fa \
    -I recalibrated.bam \
    -O raw_variants.vcf

2.1 变异注释与解读

# 变异注释(临床关键步骤)
# 使用ANNOVAR或VEP

# ANNOVAR注释
perl annotate_variation.pl \
    -buildver hg38 \                   # 参考基因组版本
    -downdb -webfrom annovar \         # 下载数据库
    clinvar_20250101 humandb/          # ClinVar数据库

perl table_annovar.pl \
    input.vcf humandb/ \               # 输入VCF和数据库
    -buildver hg38 \                   # hg38版本
    -protocol refGene,clinvar_20250101,gnomad40_genome,cosmic100 \
    -operation g,f,f,f \               # 注释类型
    -out annotated                     # 输出前缀

# VEP (Ensembl Variant Effect Predictor)
vep --input_file input.vcf \           # 输入VCF
    --output_file annotated.vcf \      # 输出
    --cache \                          # 使用本地缓存
    --assembly GRCh38 \                # 基因组版本
    --sift b \                         # SIFT预测
    --polyphen b \                     # PolyPhen预测
    --af_gnomade \                     # gnomAD频率
    --check_existing                   # 检查已知变异

三、药物基因组学

# 药物基因组学 —— 根据基因型选择药物/剂量

# 典型案例:
# CYP2D6基因 → 影响多种药物代谢
# - 慢代谢者(PM): 药物蓄积,需减量
# - 超快代谢者(UM): 药物代谢过快,需增量

# HLA-B*5801 → 别嘌醇超敏反应
# DPYD → 5-FU毒性
# TPMT → 硫唑嘌呤毒性

# 查询药物基因组学信息
# PharmGKB: https://www.pharmgkb.org/
# CPIC: https://cpicpgx.org/ (临床药物基因组学实施联盟)

# Python示例:检查药物基因组变异
import pandas as pd                    # 导入pandas

# 读取VCF注释结果
variants = pd.read_csv("annotated.txt", sep="\t")

# 筛选药物基因组相关变异
pgx_genes = ['CYP2D6', 'CYP2C19', 'CYP3A4',  # CYP代谢酶
             'DPYD', 'TPMT', 'UGT1A1',         # 代谢酶
             'HLA-B', 'HLA-A']                  # HLA基因

pgx_variants = variants[               # 筛选PGx变异
    variants['Gene'].isin(pgx_genes)
]
print(f"发现{len(pgx_variants)}个药物基因组相关变异")

四、肿瘤精准医学

# 肿瘤体细胞变异检测

# Mutect2(GATK肿瘤变异检测)
gatk Mutect2 \
    -R ref.fa \                        # 参考基因组
    -I tumor.bam \                     # 肿瘤样本
    -I normal.bam \                    # 配对正常样本
    -normal normal_sample \            # 正常样本名称
    --germline-resource gnomad.vcf \   # 胚系资源
    --panel-of-normals pon.vcf \       # 正常样本面板
    -O somatic.vcf                     # 输出体细胞变异

# 肿瘤突变负荷(TMB)计算
# TMB = 体细胞非同义突变数 / 测序区域大小(Mb)
# TMB-High (>10 mut/Mb) → 免疫检查点抑制剂可能有效

# 微卫星不稳定性(MSI)检测
msisensor-pro msi \                    # MSI检测工具
    -d ref.sites \                     # 微卫星位点列表
    -t tumor.bam \                     # 肿瘤BAM
    -o msi_results                     # 输出结果
# MSI-H → 免疫治疗可能有效

五、面试高频问题

  1. Q: 什么是精准医学? A: 基于个体的分子特征(基因组、转录组、蛋白组等)来制定最适合该患者的预防和治疗策略,而非"一刀切"的标准化治疗。

  2. Q: 生信在精准医学中的角色? A: 核心角色——变异检测、注释、致病性判断、药物基因组学分析、肿瘤TMB/MSI计算、临床报告生成。

  3. Q: TMB和MSI是什么?为什么重要? A: TMB=肿瘤突变负荷,MSI=微卫星不稳定性。两者都是免疫治疗(PD-1/PD-L1抑制剂)疗效的预测标志物。TMB高或MSI-H的患者对免疫治疗响应更好。

常见报错与解决

问题解决
BQSR无已知变异位点下载dbSNP和COSMIC数据库
Mutect2配对样本不匹配检查Read Group的SM标签
变异注释数据库版本不匹配确保注释数据库与参考基因组版本一致
TMB计算值异常确认BED文件覆盖区域大小是否正确

速查表

# 临床变异分类(ACMG标准)
Pathogenic (致病)         → 确认致病
Likely Pathogenic (可能致病) → 很可能致病
VUS (意义未明)            → 不确定
Likely Benign (可能良性)   → 很可能无害
Benign (良性)             → 确认无害

# 常用临床数据库
ClinVar:  变异临床意义
COSMIC:   肿瘤体细胞变异
gnomAD:   人群等位基因频率
PharmGKB: 药物基因组学
OncoKB:   肿瘤变异临床可操作性