843. 精准医学与生信¶
一句话概述:精准医学 = 根据每个人的基因组/多组学特征制定个性化治疗方案,生信是连接基因组数据与临床决策的核心桥梁。
核心知识点速查表¶
| 维度 | 说明 |
|---|---|
| 定义 | 基于个体分子特征(基因组/转录组/蛋白组)的个性化医疗 |
| 核心技术 | NGS、液体活检、多组学整合、AI/ML |
| 市场规模(2025) | ~1185亿美元,CAGR 16.35% |
| 主要应用 | 肿瘤(50%)、罕见病、药物基因组学 |
| 生信角色 | 变异检测→注释→解读→报告 |
| 关键趋势 | AI整合、超快速WGS、多组学、液体活检 |
一、精准医学核心流程(生信视角)¶
患者 → 采样 → 测序 → 生信分析 → 临床解读 → 治疗方案
│
┌─────────┴─────────┐
│ 生信分析流程 │
│ 1. 质控(FastQC) │
│ 2. 比对(BWA-MEM2) │
│ 3. 变异检测 │
│ - SNV/Indel │
│ - CNV │
│ - SV │
│ - 融合基因 │
│ 4. 变异注释 │
│ - ClinVar │
│ - COSMIC │
│ - gnomAD │
│ 5. 变异过滤 │
│ 6. 临床报告 │
└───────────────────┘
二、临床变异分析流程¶
# 临床级别WGS/WES分析流程
# 1. 质控
fastp -i sample_R1.fq.gz \ # 输入R1
-I sample_R2.fq.gz \ # 输入R2
-o clean_R1.fq.gz \ # 输出R1
-O clean_R2.fq.gz \ # 输出R2
-h qc_report.html # 质控报告
# 2. 比对(临床用BWA-MEM2或Parabricks加速)
bwa-mem2 mem -t 16 \ # 16线程
-R '@RG\tID:sample\tSM:sample\tPL:ILLUMINA' \ # Read Group
ref.fa clean_R1.fq.gz clean_R2.fq.gz | \
samtools sort -@ 4 -o aligned.bam # 排序
# 3. 标记重复
gatk MarkDuplicates \ # GATK标记重复
-I aligned.bam \
-O marked.bam \
-M dup_metrics.txt
# 4. 碱基质量重校正(BQSR)
gatk BaseRecalibrator \ # 碱基重校正
-R ref.fa \
-I marked.bam \
--known-sites dbsnp.vcf \ # 已知变异位点
-O recal_table.txt
gatk ApplyBQSR \ # 应用校正
-R ref.fa \
-I marked.bam \
--bqsr-recal-file recal_table.txt \
-O recalibrated.bam
# 5. 变异检测
gatk HaplotypeCaller \ # 胚系变异检测
-R ref.fa \
-I recalibrated.bam \
-O raw_variants.vcf
2.1 变异注释与解读¶
# 变异注释(临床关键步骤)
# 使用ANNOVAR或VEP
# ANNOVAR注释
perl annotate_variation.pl \
-buildver hg38 \ # 参考基因组版本
-downdb -webfrom annovar \ # 下载数据库
clinvar_20250101 humandb/ # ClinVar数据库
perl table_annovar.pl \
input.vcf humandb/ \ # 输入VCF和数据库
-buildver hg38 \ # hg38版本
-protocol refGene,clinvar_20250101,gnomad40_genome,cosmic100 \
-operation g,f,f,f \ # 注释类型
-out annotated # 输出前缀
# VEP (Ensembl Variant Effect Predictor)
vep --input_file input.vcf \ # 输入VCF
--output_file annotated.vcf \ # 输出
--cache \ # 使用本地缓存
--assembly GRCh38 \ # 基因组版本
--sift b \ # SIFT预测
--polyphen b \ # PolyPhen预测
--af_gnomade \ # gnomAD频率
--check_existing # 检查已知变异
三、药物基因组学¶
# 药物基因组学 —— 根据基因型选择药物/剂量
# 典型案例:
# CYP2D6基因 → 影响多种药物代谢
# - 慢代谢者(PM): 药物蓄积,需减量
# - 超快代谢者(UM): 药物代谢过快,需增量
# HLA-B*5801 → 别嘌醇超敏反应
# DPYD → 5-FU毒性
# TPMT → 硫唑嘌呤毒性
# 查询药物基因组学信息
# PharmGKB: https://www.pharmgkb.org/
# CPIC: https://cpicpgx.org/ (临床药物基因组学实施联盟)
# Python示例:检查药物基因组变异
import pandas as pd # 导入pandas
# 读取VCF注释结果
variants = pd.read_csv("annotated.txt", sep="\t")
# 筛选药物基因组相关变异
pgx_genes = ['CYP2D6', 'CYP2C19', 'CYP3A4', # CYP代谢酶
'DPYD', 'TPMT', 'UGT1A1', # 代谢酶
'HLA-B', 'HLA-A'] # HLA基因
pgx_variants = variants[ # 筛选PGx变异
variants['Gene'].isin(pgx_genes)
]
print(f"发现{len(pgx_variants)}个药物基因组相关变异")
四、肿瘤精准医学¶
# 肿瘤体细胞变异检测
# Mutect2(GATK肿瘤变异检测)
gatk Mutect2 \
-R ref.fa \ # 参考基因组
-I tumor.bam \ # 肿瘤样本
-I normal.bam \ # 配对正常样本
-normal normal_sample \ # 正常样本名称
--germline-resource gnomad.vcf \ # 胚系资源
--panel-of-normals pon.vcf \ # 正常样本面板
-O somatic.vcf # 输出体细胞变异
# 肿瘤突变负荷(TMB)计算
# TMB = 体细胞非同义突变数 / 测序区域大小(Mb)
# TMB-High (>10 mut/Mb) → 免疫检查点抑制剂可能有效
# 微卫星不稳定性(MSI)检测
msisensor-pro msi \ # MSI检测工具
-d ref.sites \ # 微卫星位点列表
-t tumor.bam \ # 肿瘤BAM
-o msi_results # 输出结果
# MSI-H → 免疫治疗可能有效
五、面试高频问题¶
Q: 什么是精准医学? A: 基于个体的分子特征(基因组、转录组、蛋白组等)来制定最适合该患者的预防和治疗策略,而非"一刀切"的标准化治疗。
Q: 生信在精准医学中的角色? A: 核心角色——变异检测、注释、致病性判断、药物基因组学分析、肿瘤TMB/MSI计算、临床报告生成。
Q: TMB和MSI是什么?为什么重要? A: TMB=肿瘤突变负荷,MSI=微卫星不稳定性。两者都是免疫治疗(PD-1/PD-L1抑制剂)疗效的预测标志物。TMB高或MSI-H的患者对免疫治疗响应更好。
常见报错与解决¶
| 问题 | 解决 |
|---|---|
| BQSR无已知变异位点 | 下载dbSNP和COSMIC数据库 |
| Mutect2配对样本不匹配 | 检查Read Group的SM标签 |
| 变异注释数据库版本不匹配 | 确保注释数据库与参考基因组版本一致 |
| TMB计算值异常 | 确认BED文件覆盖区域大小是否正确 |