跳转至

866. 临床生信学习路线

一句话概述:临床生信 = 把基因检测变成医生能用的诊断报告——需要同时懂生信分析、遗传学、临床医学和法规合规,是生信最刚需的就业方向之一。

核心知识点速查表

阶段内容工具时长
基础WGS/WES变异检测GATK/BWA3-4周
进阶变异注释与分级ANNOVAR/VEP/ACMG2-3周
高级肿瘤基因组分析Mutect2/CNVkit3-4周
专业临床报告与合规ClinVar/PharmGKB2-3周

一、学习路线详解

# === 临床生信学习路线(12周) ===

# 第1-3周: 基因组变异检测基础
必学:
  - 变异类型: SNV/INDEL/SV/CNV
  - GATK Best Practices流程
  - BAM/VCF文件格式详解
  - 变异过滤策略(VQSR vs 硬过滤)
实操:
  - BWA比对 → GATK变异检测
  - 用1000 Genomes数据练习
  - samtools/bcftools操作

# 第4-5周: 变异注释与解读
必学:
  - ANNOVAR/VEP变异注释
  - gnomAD人群频率数据库
  - ClinVar临床变异数据库
  - ACMG/AMP 5级分类标准
  - 致病性预测: SIFT/PolyPhen/CADD
实操:
  - 注释一个WES样本的VCF
  - 按ACMG标准对变异分级

# 第6-8周: 肿瘤基因组分析
必学:
  - 体细胞vs胚系变异
  - Mutect2肿瘤变异检测
  - 拷贝数变异(CNVkit/GATK CNV)
  - 肿瘤突变负荷(TMB)
  - 微卫星不稳定性(MSI)
  - 融合基因检测(STAR-Fusion)
实操:
  - 配对肿瘤-正常样本分析
  - 计算TMB和MSI

# 第9-10周: 药物基因组与伴随诊断
必学:
  - 药物基因组学原理
  - PharmGKB数据库使用
  - 靶向用药指导(EGFR/ALK/BRCA)
  - FDA批准的伴随诊断
  - 药物代谢酶(CYP2D6/CYP2C19)
实操:
  - 查询变异的用药指导信息

# 第11-12周: 临床报告与法规
必学:
  - 临床检测报告撰写规范
  - CAP/CLIA认证要求
  - 中国NMPA医疗器械法规
  - 《人类遗传资源管理条例》
  - 数据安全与隐私保护
实操:
  - 编写一份模拟临床检测报告

二、核心工具实操

# === 临床生信核心命令 ===

# 1. Germline变异检测(遗传病)
# BWA比对
bwa mem -t 16 -R "@RG\tID:S1\tSM:Patient\tPL:ILLUMINA" \
    ref.fa R1.fq.gz R2.fq.gz \
    | samtools sort -o patient.bam

# GATK变异检测
gatk HaplotypeCaller \
    -R ref.fa \
    -I patient.bam \
    -O patient.g.vcf.gz \
    -ERC GVCF

# 变异过滤
gatk VariantFiltration \
    -R ref.fa \
    -V patient.vcf \
    -O filtered.vcf \
    --filter-expression "QD < 2.0" --filter-name "LowQD" \
    --filter-expression "FS > 60.0" --filter-name "StrandBias" \
    --filter-expression "MQ < 40.0" --filter-name "LowMQ"

# 2. Somatic变异检测(肿瘤)
gatk Mutect2 \
    -R ref.fa \
    -I tumor.bam \
    -I normal.bam \
    -normal normal_sample \
    --panel-of-normals pon.vcf.gz \
    --germline-resource gnomad.vcf.gz \
    -O somatic.vcf

# 3. 变异注释
perl table_annovar.pl \
    filtered.vcf humandb/ \
    -buildver hg38 \
    -protocol refGene,gnomad40_genome,clinvar_20240917 \
    -operation g,f,f \
    -vcfinput

# 4. CNV检测
cnvkit.py batch \
    tumor.bam \
    --normal normal.bam \
    --targets targets.bed \
    --fasta ref.fa \
    --output-reference reference.cnn \
    --output-dir cnvkit_results/

三、ACMG分级实操

# === ACMG变异分级实操指南 ===

# 拿到一个变异后的分析流程
def acmg_workflow(variant):
    """ACMG分级工作流程"""
    evidence = []                      # 证据列表

    # Step 1: 检查人群频率
    gnomad_af = query_gnomad(variant)  # 查gnomAD频率
    if gnomad_af > 0.05:               # >5%
        evidence.append("BA1")         # → 独立良性
        return "Benign"                # 直接判良性
    elif gnomad_af < 0.0001:           # <0.01%
        evidence.append("PM2")         # → 中等致病证据

    # Step 2: 检查变异类型
    if is_lof(variant):                # 功能丧失变异
        if gene_is_lof_intolerant(variant.gene):  # LoF不耐受基因
            evidence.append("PVS1")    # → 非常强致病证据

    # Step 3: 查ClinVar
    clinvar = query_clinvar(variant)   # 查ClinVar
    if clinvar == "Pathogenic":
        evidence.append("PS1")         # → 强致病证据

    # Step 4: 计算预测
    if cadd_score > 25:                # CADD>25
        evidence.append("PP3")         # → 支持致病

    # Step 5: 综合判断
    return classify_by_evidence(evidence)

# 常用数据库查询
databases = {
    "gnomAD":   "人群频率 (https://gnomad.broadinstitute.org/)",
    "ClinVar":  "临床分级 (https://www.ncbi.nlm.nih.gov/clinvar/)",
    "OMIM":     "遗传病关联 (https://omim.org/)",
    "UniProt":  "蛋白功能 (https://www.uniprot.org/)",
    "PharmGKB": "药物基因 (https://www.pharmgkb.org/)",
    "COSMIC":   "肿瘤变异 (https://cancer.sanger.ac.uk/cosmic)",
}

四、面试高频问题

# === 临床生信面试问题 ===

qa = {
    "Q: 遗传病和肿瘤的变异检测有什么区别?": """
    遗传病(Germline):
    - 变异存在于所有细胞(VAF~50%或100%)
    - 用HaplotypeCaller检测
    - ACMG分级

    肿瘤(Somatic):
    - 只存在于肿瘤细胞(VAF可能<5%)
    - 用Mutect2检测(需要配对正常)
    - AMP/ASCO/CAP分级
    """,

    "Q: 什么是VUS?怎么处理?": """
    VUS = Variant of Uncertain Significance(意义不明变异)
    临床上最头疼的分类(占比可达30-50%)
    处理:
    1. 不能用VUS做临床决策
    2. 定期复查(ClinVar可能更新)
    3. 功能实验验证
    4. 家系分析(共分离)
    """,

    "Q: TMB怎么计算?有什么临床意义?": """
    TMB = 非同义突变数 / 编码区域大小(Mb)
    单位: mutations/Mb
    临床意义: TMB-H(≥10 mut/Mb)预测免疫治疗响应
    FDA批准: Keytruda用于TMB-H实体瘤
    """,
}

常见报错与解决

报错信息原因解决方法
Low mapping quality比对质量差检查样本是否污染
VQSR training failed变异数太少(WES)WES用硬过滤代替VQSR
ClinVar conflict同一变异有矛盾分级以最新的专家评审为准
Gender check failed样本可能搞混核实样本编号
Contamination > 3%样本交叉污染VerifyBamID检查

速查表

# 临床生信流程
遗传病: BWA → GATK → ANNOVAR/VEP → ACMG分级 → 报告
肿瘤:   BWA → Mutect2 → CNVkit → TMB/MSI → 用药指导
药物:   基因型 → PharmGKB → 代谢型 → 剂量调整

# 关键数据库
人群: gnomAD (全球) / ChinaMAP (中国)
临床: ClinVar / HGMD / LOVD
肿瘤: COSMIC / OncoKB / cBioPortal
药物: PharmGKB / CPIC / DrugBank

# 质控标准
WES: 深度≥100x, 覆盖≥95%(≥20x)
Panel: 深度≥500x, 覆盖≥99%(≥100x)
WGS: 深度≥30x, 覆盖≥95%(≥15x)

# 就业方向
基因检测公司: 华大/诺禾/贝瑞/安诺
医院检验科: 分子诊断实验室
药企: 伴随诊断/药物基因组