866. 临床生信学习路线
一句话概述:临床生信 = 把基因检测变成医生能用的诊断报告——需要同时懂生信分析、遗传学、临床医学和法规合规,是生信最刚需的就业方向之一。
核心知识点速查表
| 阶段 | 内容 | 工具 | 时长 |
|---|
| 基础 | WGS/WES变异检测 | GATK/BWA | 3-4周 |
| 进阶 | 变异注释与分级 | ANNOVAR/VEP/ACMG | 2-3周 |
| 高级 | 肿瘤基因组分析 | Mutect2/CNVkit | 3-4周 |
| 专业 | 临床报告与合规 | ClinVar/PharmGKB | 2-3周 |
一、学习路线详解
# === 临床生信学习路线(12周) ===
# 第1-3周: 基因组变异检测基础
必学:
- 变异类型: SNV/INDEL/SV/CNV
- GATK Best Practices流程
- BAM/VCF文件格式详解
- 变异过滤策略(VQSR vs 硬过滤)
实操:
- BWA比对 → GATK变异检测
- 用1000 Genomes数据练习
- samtools/bcftools操作
# 第4-5周: 变异注释与解读
必学:
- ANNOVAR/VEP变异注释
- gnomAD人群频率数据库
- ClinVar临床变异数据库
- ACMG/AMP 5级分类标准
- 致病性预测: SIFT/PolyPhen/CADD
实操:
- 注释一个WES样本的VCF
- 按ACMG标准对变异分级
# 第6-8周: 肿瘤基因组分析
必学:
- 体细胞vs胚系变异
- Mutect2肿瘤变异检测
- 拷贝数变异(CNVkit/GATK CNV)
- 肿瘤突变负荷(TMB)
- 微卫星不稳定性(MSI)
- 融合基因检测(STAR-Fusion)
实操:
- 配对肿瘤-正常样本分析
- 计算TMB和MSI
# 第9-10周: 药物基因组与伴随诊断
必学:
- 药物基因组学原理
- PharmGKB数据库使用
- 靶向用药指导(EGFR/ALK/BRCA)
- FDA批准的伴随诊断
- 药物代谢酶(CYP2D6/CYP2C19)
实操:
- 查询变异的用药指导信息
# 第11-12周: 临床报告与法规
必学:
- 临床检测报告撰写规范
- CAP/CLIA认证要求
- 中国NMPA医疗器械法规
- 《人类遗传资源管理条例》
- 数据安全与隐私保护
实操:
- 编写一份模拟临床检测报告
二、核心工具实操
# === 临床生信核心命令 ===
# 1. Germline变异检测(遗传病)
# BWA比对
bwa mem -t 16 -R "@RG\tID:S1\tSM:Patient\tPL:ILLUMINA" \
ref.fa R1.fq.gz R2.fq.gz \
| samtools sort -o patient.bam
# GATK变异检测
gatk HaplotypeCaller \
-R ref.fa \
-I patient.bam \
-O patient.g.vcf.gz \
-ERC GVCF
# 变异过滤
gatk VariantFiltration \
-R ref.fa \
-V patient.vcf \
-O filtered.vcf \
--filter-expression "QD < 2.0" --filter-name "LowQD" \
--filter-expression "FS > 60.0" --filter-name "StrandBias" \
--filter-expression "MQ < 40.0" --filter-name "LowMQ"
# 2. Somatic变异检测(肿瘤)
gatk Mutect2 \
-R ref.fa \
-I tumor.bam \
-I normal.bam \
-normal normal_sample \
--panel-of-normals pon.vcf.gz \
--germline-resource gnomad.vcf.gz \
-O somatic.vcf
# 3. 变异注释
perl table_annovar.pl \
filtered.vcf humandb/ \
-buildver hg38 \
-protocol refGene,gnomad40_genome,clinvar_20240917 \
-operation g,f,f \
-vcfinput
# 4. CNV检测
cnvkit.py batch \
tumor.bam \
--normal normal.bam \
--targets targets.bed \
--fasta ref.fa \
--output-reference reference.cnn \
--output-dir cnvkit_results/
三、ACMG分级实操
# === ACMG变异分级实操指南 ===
# 拿到一个变异后的分析流程
def acmg_workflow(variant):
"""ACMG分级工作流程"""
evidence = [] # 证据列表
# Step 1: 检查人群频率
gnomad_af = query_gnomad(variant) # 查gnomAD频率
if gnomad_af > 0.05: # >5%
evidence.append("BA1") # → 独立良性
return "Benign" # 直接判良性
elif gnomad_af < 0.0001: # <0.01%
evidence.append("PM2") # → 中等致病证据
# Step 2: 检查变异类型
if is_lof(variant): # 功能丧失变异
if gene_is_lof_intolerant(variant.gene): # LoF不耐受基因
evidence.append("PVS1") # → 非常强致病证据
# Step 3: 查ClinVar
clinvar = query_clinvar(variant) # 查ClinVar
if clinvar == "Pathogenic":
evidence.append("PS1") # → 强致病证据
# Step 4: 计算预测
if cadd_score > 25: # CADD>25
evidence.append("PP3") # → 支持致病
# Step 5: 综合判断
return classify_by_evidence(evidence)
# 常用数据库查询
databases = {
"gnomAD": "人群频率 (https://gnomad.broadinstitute.org/)",
"ClinVar": "临床分级 (https://www.ncbi.nlm.nih.gov/clinvar/)",
"OMIM": "遗传病关联 (https://omim.org/)",
"UniProt": "蛋白功能 (https://www.uniprot.org/)",
"PharmGKB": "药物基因 (https://www.pharmgkb.org/)",
"COSMIC": "肿瘤变异 (https://cancer.sanger.ac.uk/cosmic)",
}
四、面试高频问题
# === 临床生信面试问题 ===
qa = {
"Q: 遗传病和肿瘤的变异检测有什么区别?": """
遗传病(Germline):
- 变异存在于所有细胞(VAF~50%或100%)
- 用HaplotypeCaller检测
- ACMG分级
肿瘤(Somatic):
- 只存在于肿瘤细胞(VAF可能<5%)
- 用Mutect2检测(需要配对正常)
- AMP/ASCO/CAP分级
""",
"Q: 什么是VUS?怎么处理?": """
VUS = Variant of Uncertain Significance(意义不明变异)
临床上最头疼的分类(占比可达30-50%)
处理:
1. 不能用VUS做临床决策
2. 定期复查(ClinVar可能更新)
3. 功能实验验证
4. 家系分析(共分离)
""",
"Q: TMB怎么计算?有什么临床意义?": """
TMB = 非同义突变数 / 编码区域大小(Mb)
单位: mutations/Mb
临床意义: TMB-H(≥10 mut/Mb)预测免疫治疗响应
FDA批准: Keytruda用于TMB-H实体瘤
""",
}
常见报错与解决
| 报错信息 | 原因 | 解决方法 |
|---|
Low mapping quality | 比对质量差 | 检查样本是否污染 |
VQSR training failed | 变异数太少(WES) | WES用硬过滤代替VQSR |
ClinVar conflict | 同一变异有矛盾分级 | 以最新的专家评审为准 |
Gender check failed | 样本可能搞混 | 核实样本编号 |
Contamination > 3% | 样本交叉污染 | VerifyBamID检查 |
速查表
# 临床生信流程
遗传病: BWA → GATK → ANNOVAR/VEP → ACMG分级 → 报告
肿瘤: BWA → Mutect2 → CNVkit → TMB/MSI → 用药指导
药物: 基因型 → PharmGKB → 代谢型 → 剂量调整
# 关键数据库
人群: gnomAD (全球) / ChinaMAP (中国)
临床: ClinVar / HGMD / LOVD
肿瘤: COSMIC / OncoKB / cBioPortal
药物: PharmGKB / CPIC / DrugBank
# 质控标准
WES: 深度≥100x, 覆盖≥95%(≥20x)
Panel: 深度≥500x, 覆盖≥99%(≥100x)
WGS: 深度≥30x, 覆盖≥95%(≥15x)
# 就业方向
基因检测公司: 华大/诺禾/贝瑞/安诺
医院检验科: 分子诊断实验室
药企: 伴随诊断/药物基因组