跳转至

348_WES三人组分析Trio


一句话说明

Trio分析是"全家一起测序"——同时测患者和父母的外显子组,通过家庭遗传规律大幅缩小候选致病变异,是解决散发性遗传病的最有力手段。


核心知识点

要点1:为什么要三人组?

白话类比:侦探破案时,不只看嫌疑人,还要问邻居(父母)——了解家族背景才能判断"这个变异是继承的还是新发的"。 专业解释:单人WES产生8-10万变异,通过频率过滤后仍有数百个候选。加入父母数据后,可识别:①de novo变异(新发,父母均无,致病率>10%);②复合杂合变异(各自来源于父母一方);③隐性纯合(父母均为携带者)。Trio分析可将候选变异从数百降至个位数。

要点2:GATK三人组联合变异检测

白话类比:三个人的基因组数据在一起"联合审讯",互相验证,去掉测序噪音产生的假阳性。 专业解释:GATK推荐流程:各样本独立生成GVCF→GenomicsDBImport合并→GenotypeGVCFs联合基因分型→VQSR变异质量校正→PED文件输入进行家系过滤。联合分型比各自独立分析减少约30%假阳性de novo变异。

要点3:de novo变异检测与验证

白话类比:找出患者独有而父母都没有的变异——这类"新冒出来的"变异是最值得关注的候选。 专业解释:de novo检测工具:GATK FamilyGenotyper、PhaseByTransmission、DeepTrio(深度学习,更高精度)。关键质控:子代GQ≥20,父母覆盖度≥10x,子代alt allele reads≥5,VAF接近0.5(排除嵌合)。Sanger测序验证候选de novo变异。

要点4:复合杂合变异检测

白话类比:同一基因里,一个坏变异来自爸爸,另一个来自妈妈,这两个加在一起才导致病——需要三人组数据确认"来源"。 专业解释:检测步骤:①找出患者同一基因内≥2个杂合变异;②利用三人组数据判断亲本来源(父亲变异A,母亲变异B → 反式=复合杂合);③同一亲本携带两个(顺式)不是复合杂合(不致病)。工具:GEMINI comp_hets、vcftools family filtering、phASER(phasing工具)。

要点5:系谱文件(PED文件)与分析管理

白话类比:PED文件就是"家谱登记表",软件需要知道谁是爸爸、谁是妈妈、谁是患者,才能做正确的分析。 专业解释:PED文件格式:6列(家系ID、个体ID、父ID、母ID、性别、表型状态)。注意:性别编码(1=男,2=女),表型(1=正常,2=患病,0=未知)。双胞胎、养父母等特殊情况需人工确认。BAM文件需正确设置ReadGroup中的样本ID与PED一致。


实战命令/代码

# ========== 三人组GATK联合分析完整流程 ==========

# 假设已完成:比对→排序→标记重复→BQSR
# 样本命名:CHILD.recal.bam, FATHER.recal.bam, MOTHER.recal.bam

# 步骤1:各样本生成GVCF
for SAMPLE in CHILD FATHER MOTHER; do
    gatk HaplotypeCaller \
        -R hg38.fa \                         # 参考基因组
        -I ${SAMPLE}.recal.bam \             # 校正后BAM
        -O ${SAMPLE}.g.vcf.gz \              # 输出GVCF
        -ERC GVCF \                          # 生成GVCF格式
        --dbsnp dbsnp_146.hg38.vcf.gz \      # dbSNP数据库
        -L exome_targets.bed \               # 外显子靶向区域
        -G StandardAnnotation \              # 标准注释集
        --native-pair-hmm-threads 4          # 并行线程
    echo "完成 ${SAMPLE} 的GVCF生成"
done
# 步骤2:三人组联合变异分型
# 先合并GVCF到GenomicsDB(推荐用于大规模分析)
gatk GenomicsDBImport \
    -V CHILD.g.vcf.gz \         # 患者GVCF
    -V FATHER.g.vcf.gz \        # 父亲GVCF
    -V MOTHER.g.vcf.gz \        # 母亲GVCF
    --genomicsdb-workspace-path trio_db \  # 数据库目录
    -L exome_targets.bed \       # 目标区域
    --reader-threads 4           # 读取线程数

# 联合基因分型
gatk GenotypeGVCFs \
    -R hg38.fa \
    -V gendb://trio_db \         # 从数据库读取
    -O trio_raw.vcf.gz \         # 原始变异VCF
    -G StandardAnnotation \      # 标准注释
    --dbsnp dbsnp_146.hg38.vcf.gz

echo "联合基因分型完成"
# 步骤3:变异质量分层校正(VQSR)
# SNV的VQSR
gatk VariantRecalibrator \
    -R hg38.fa \
    -V trio_raw.vcf.gz \
    -O snv_recal \               # 校正模型输出
    --tranches-file snv.tranches \
    -mode SNP \                  # SNV模式
    --resource:hapmap,known=false,training=true,truth=true,prior=15.0 hapmap.vcf.gz \
    --resource:omni,known=false,training=true,truth=true,prior=12.0 omni.vcf.gz \
    --resource:1000G,known=false,training=true,truth=false,prior=10.0 1000G.vcf.gz \
    --resource:dbsnp,known=true,training=false,truth=false,prior=7.0 dbsnp.vcf.gz \
    -an QD -an MQ -an MQRankSum -an ReadPosRankSum -an FS -an SOR \
    --max-gaussians 4            # 高斯模型数量

gatk ApplyVQSR \
    -V trio_raw.vcf.gz \
    --recal-file snv_recal \
    --tranches-file snv.tranches \
    --truth-sensitivity-filter-level 99.5 \  # 99.5%敏感度阈值
    -mode SNP \
    -O trio_vqsr_snv.vcf.gz      # SNV过滤后VCF
# 步骤4:de novo变异检测
# 方法1:GATK PhaseByTransmission(传统方法)

# 方法2:DeepTrio(推荐,更高精度)
# DeepTrio是DeepVariant的三人组扩展版本
BIN_VERSION="1.6.1"

docker run \
    -v "${PWD}:/data" \                     # 挂载工作目录
    google/deepvariant:${BIN_VERSION} \
    /opt/deepvariant/bin/deeptrio/run_deeptrio \
    --model_type WES \                       # WES模式
    --ref /data/hg38.fa \                   # 参考基因组
    --reads_child /data/CHILD.recal.bam \   # 患者BAM
    --reads_parent1 /data/FATHER.recal.bam \ # 父亲BAM
    --reads_parent2 /data/MOTHER.recal.bam \ # 母亲BAM
    --sample_name_child CHILD \             # 样本名称
    --sample_name_parent1 FATHER \
    --sample_name_parent2 MOTHER \
    --output_vcf_child /data/child.vcf.gz \ # 各样本输出VCF
    --output_vcf_parent1 /data/father.vcf.gz \
    --output_vcf_parent2 /data/mother.vcf.gz \
    --num_shards 16 \                        # 并行分片数
    --regions /data/exome_targets.bed        # 目标区域

echo "DeepTrio分析完成"
# 步骤5:GEMINI三人组遗传模式查询
import subprocess   # 调用命令行工具
import pandas as pd # 数据处理

# 导入三人组变异到GEMINI数据库
subprocess.run([
    "gemini", "load",
    "-v", "trio_annotated.vcf.gz",  # 注释后VCF
    "-t", "snpEff",                  # 注释工具
    "-p", "family.ped",              # 家系PED文件
    "--cores", "8",                  # 并行核数
    "trio.db"                        # 输出数据库
])

# 查询de novo变异
result = subprocess.run(
    ["gemini", "de_novo",
     "--columns", "chrom,start,end,ref,alt,gene,impact,cadd_phred,aaf_gnomad_all",
     "--filter", "cadd_phred > 20 and impact_severity != 'LOW'",  # 高功能影响
     "trio.db"],
    capture_output=True, text=True
)

# 解析输出
lines = result.stdout.strip().split('\n')
if lines and lines[0]:
    import io
    df_denovo = pd.read_csv(io.StringIO(result.stdout), sep='\t')
    print(f"de novo候选变异: {len(df_denovo)}")
    print(df_denovo[['gene', 'ref', 'alt', 'impact', 'cadd_phred']].to_string())
else:
    print("未发现de novo候选变异")

面试常问点

★ Q1:Trio分析和单样本WES相比,能多发现什么?

Trio的核心价值:①检测de novo变异(患者有、父母均无,是散发性显性遗传病和智力障碍/ASD的主要原因);②验证复合杂合变异的亲本来源(区分顺式/反式排列);③遗传模式过滤将候选从数百个降至<10个;④提高de novo检测的特异性(减少因测序噪音的假de novo)。

★ Q2:为什么GATK推荐联合分型(Joint Calling)而不是各自独立Call variant?

联合分型优势:①利用族内信息改善变异质量(父母野生型信息帮助确认患者变异);②提高低频变异的检测率(多样本共同支持);③更准确的基因型置信度(GQ)估计,减少假de novo。经典问题:独立分型后父母某位点因覆盖不足被误判为缺失,联合分型可利用其他样本信息校正。

★ Q3:de novo率(per-generation mutation rate)是多少?临床意义?

人类de novo SNV的平均突变率约为1.2×10^-8/碱基/代,每人每代新生约50-80个SNV。在WES分析中,外显子区域de novo率约1-2个/人。临床意义:①散发性(父母正常)智力障碍约30-40%由de novo变异引起;②自闭症谱系障碍约20-30%有新发突变;③搜索de novo是散发性遗传病诊断的首选策略。

★ Q4:复合杂合如何和相位(phasing)分析结合确认?

仅靠三人组数据,如果父母之一携带两个变异(顺式),可能误判为复合杂合。进一步验证:①trio phasing(已知父母基因型辅助推断子代单倍型);②Read-backed phasing(同一测序reads上的变异共现);③长读测序(Nanopore/PacBio,可直接确认两变异是否在同一染色体);④Sanger测序+亲本携带确认。

★ Q5:Trio分析中质控很重要,有哪些关键QC指标?

①亲子一致性检验(pi_hat/kinship系数,父子应~0.5,排除样本混淆);②同卵/异卵双胞胎确认;③性别一致性(PED性别与测序推断性别一致);④de novo假阳性率评估(使用已知家系基准集如GIAB trio);⑤覆盖度检查(三人组中所有样本在同一位置均有足够覆盖,否则父母"无变异"可能是覆盖缺失)。


速查表

遗传模式Trio优势关键工具
de novo可检测新发突变DeepTrio、GATK、GEMINI
复合杂合确认亲本来源(反式)GEMINI comp_hets、phASER
常染色体隐性父母均为携带者确认GEMINI autosomal_recessive
X连锁母亲携带验证GEMINI x_linked_recessive
质控指标合格标准检测工具
均值覆盖深度≥50x(WES)mosdepth
亲子IBD/kinship0.45-0.55(父子)KING/PLINK
性别一致性与PED一致infer_sex/GATK
变异质量GQ≥20GATK/bcftools
de novo假阳性率<5%(Sanger验证)人工验证