跳转至

345_常染色体显隐性遗传分析


一句话说明

常染色体显隐性遗传分析就是用计算方法判断遗传病"按哪种规律传递",再根据规律在测序数据中精准筛选候选致病变异。


核心知识点

要点1:常染色体显性(AD)遗传

白话类比:就像带有"强势"的基因——只要有一个坏拷贝,就会发病;父母之一通常也有病。 专业解释:患者为杂合子(Het),每次传递给后代50%概率。新生突变(de novo)也可以是显性病的原因(如软骨发育不全FGFR3)。计算标志:①患者杂合变异;②父母一方携带(遗传性)或父母均不携带(de novo);③gnomAD MAF<0.0001;④ClinVar/OMIM证据。

要点2:常染色体隐性(AR)遗传

白话类比:就像"隐藏"的坏基因——两个拷贝都坏才发病,父母携带一个不发病(携带者)。 专业解释:患者为纯合子(Homo)或复合杂合子(Compound Het)。父母均为携带者(杂合),后代25%发病概率。注意:近亲婚配增加纯合概率。计算标志:①同一基因两个致病变异;②分别来自父母(三人组验证);③MAF<0.001。

要点3:de novo变异(新生突变)

白话类比:这次突变是在患者这代"新冒出来的",父母都没有——往往是散发性显性遗传病的原因。 专业解释:三人组(Trio)分析关键应用之一。de novo变异:患者携带、父母均不携带(经严格质控过滤测序伪阳性)。de novo变异的致病可能性高,是智力障碍、自闭症谱系障碍的主要遗传原因之一。过滤标准:患者基因型质量GQ≥20,测序深度≥10×,变异质量VQSR通过。

要点4:X连锁遗传(补充)

白话类比:男性只有一条X染色体,所以X染色体上的坏基因男性更容易发病;女性有两条,一条保护另一条。 专业解释:X连锁隐性:男性半合子(hemizygous)即发病;女性杂合为携带者。X连锁显性:杂合女性也发病。分析时需先检查性别,再对应过滤策略(PLINK sex check)。

要点5:遗传模式的PLINK/GEMINI分析

白话类比:用专门的工具,把家系信息(谁是父母、谁是患者)输入进去,让软件自动找符合遗传规律的变异。 专业解释:GEMINI是基于数据库的家系遗传分析工具,支持AD/AR/de novo/compound het模式查询。输入需要PED文件(家系谱)和已注释的VCF。也可用RTG-Tools、DeepTrio(深度学习三人组分析)。


实战命令/代码

# ========== 准备工作:PED家系文件格式 ==========
# PED文件格式:家系ID 个体ID 父亲ID 母亲ID 性别(1男2女) 状态(1正常2患病)
cat << 'EOF' > family.ped
FAM001  CHILD   FATHER  MOTHER  1  2   # 患者儿子
FAM001  FATHER  0       0       1  1   # 父亲(正常)
FAM001  MOTHER  0       0       2  1   # 母亲(正常)
EOF

# 验证PED文件
cat family.ped  # 查看文件内容
# ========== GEMINI:数据库导入与遗传模式查询 ==========

# 安装GEMINI(推荐conda环境)
# conda install -c bioconda gemini

# 将VCF导入GEMINI数据库(含注释)
gemini load \
    -v annotated_family.vcf.gz \   # 注释后的VCF文件
    -t snpEff \                     # 注释工具类型
    -p family.ped \                 # 家系文件
    --cores 8 \                     # 并行线程数
    family.db                       # 输出数据库文件

echo "数据库加载完成"
# ========== GEMINI:不同遗传模式查询 ==========

# 1. 查询常染色体显性(de novo)变异
gemini de_novo \
    --columns "chrom,start,end,ref,alt,gene,impact,aaf_esp_ea" \
    family.db | head -50  # 显示前50条

# 2. 查询常染色体隐性(纯合)变异
gemini autosomal_recessive \
    --columns "chrom,start,end,ref,alt,gene,impact" \
    --filter "aaf_esp_ea < 0.001 and impact_severity != 'LOW'" \
    family.db  # 低频+功能性隐性变异

# 3. 查询复合杂合变异
gemini comp_hets \
    --columns "chrom,start,end,ref,alt,gene,impact" \
    --filter "aaf_esp_ea < 0.001" \
    family.db  # 同一基因两个杂合变异(分别来自双亲)

# 4. 查询X连锁隐性变异
gemini x_linked_recessive \
    --columns "chrom,start,end,ref,alt,gene,impact" \
    family.db  # X染色体隐性模式
# ========== Python:手动实现遗传模式过滤 ==========
import pandas as pd   # 数据处理

def filter_by_inheritance(df, mode='AD'):
    """
    根据遗传模式过滤变异
    df: 包含父/母/患者基因型的DataFrame
    mode: 遗传模式(AD/AR/denovo)
    """
    if mode == 'AD':
        # 常染色体显性:患者杂合,父母之一也杂合(遗传性)
        condition = (
            (df['proband_gt'] == 'het') &          # 患者杂合
            ((df['father_gt'] == 'het') |           # 父亲携带
             (df['mother_gt'] == 'het'))             # 或母亲携带
        )
        return df[condition]

    elif mode == 'denovo':
        # 新生突变:患者有变异,父母均无
        condition = (
            (df['proband_gt'].isin(['het', 'hom_alt'])) &  # 患者有变异
            (df['father_gt'] == 'hom_ref') &                 # 父亲野生型
            (df['mother_gt'] == 'hom_ref')                   # 母亲野生型
        )
        return df[condition]

    elif mode == 'AR':
        # 常染色体隐性:患者纯合,或者需要进一步复合杂合检测
        condition = (
            (df['proband_gt'] == 'hom_alt') &  # 患者纯合变异
            (df['father_gt'] == 'het') &        # 父亲携带者
            (df['mother_gt'] == 'het')           # 母亲携带者
        )
        return df[condition]

    else:
        raise ValueError(f"不支持的遗传模式: {mode}")

# 使用示例
# variants_AD = filter_by_inheritance(df_variants, 'AD')
# variants_denovo = filter_by_inheritance(df_variants, 'denovo')
# print(f"AD候选: {len(variants_AD)}, de novo: {len(variants_denovo)}")
# ========== R:遗传模式统计与可视化 ==========
library(ggplot2)   # 可视化
library(dplyr)     # 数据处理

# 读取筛选结果
results <- read.table("gemini_results.tsv", 
                      sep="\t", header=TRUE, stringsAsFactors=FALSE)

# 按遗传模式统计候选变异数量
mode_counts <- results %>%
    group_by(inheritance_mode) %>%           # 按遗传模式分组
    summarise(n_variants = n()) %>%          # 统计数量
    arrange(desc(n_variants))                # 降序排列

# 绘制遗传模式分布条形图
ggplot(mode_counts, aes(x=inheritance_mode, y=n_variants, fill=inheritance_mode)) +
    geom_bar(stat="identity") +              # 柱状图
    labs(title="候选变异遗传模式分布",
         x="遗传模式", y="变异数量") +       # 标签
    theme_bw() +                             # 白色背景主题
    theme(legend.position="none")            # 不显示图例

ggsave("inheritance_distribution.pdf", width=6, height=4)  # 保存图片

面试常问点

★ Q1:常染色体显性和隐性遗传在测序分析上最关键的区别是什么?

显性遗传(AD):杂合变异即致病,重点筛选新生突变(de novo)和MAF极低(<0.0001)的变异;父母一方通常也发病(外显率相关)。隐性遗传(AR):需要双等位基因打击(纯合或复合杂合),三人组可以验证亲本来源;携带者频率在人群中相对较高(MAF可达0.001-0.01)。

★ Q2:复合杂合怎么和普通杂合区分?为什么需要三人组?

复合杂合是同一基因两个不同杂合变异,一个来自父亲,一个来自母亲,两者共同破坏基因功能。单样本分析无法确定亲本来源(两个变异可能在同一条染色体上=顺式,不致病),必须用三人组VCF或haplotype phasing才能确认是"一个来自父,一个来自母"(反式=真复合杂合)。

★ Q3:de novo变异的假阳性如何控制?

主要质控手段:①子代变异质量GQ≥20;②父母野生型基因组位点覆盖深度≥10×;③variant allele fraction (VAF)在预期范围(杂合~0.5);④使用DeepTrio或GATK family mode重新genotype;⑤Sanger测序验证候选变异。嵌合(mosaic)变异可使父母看起来"没有"但实际低频存在,要检查父母的VAF。

★ Q4:近亲婚配家系如何影响遗传分析策略?

近亲婚配(例如表亲)后代:ROH(纯合连续片段,Runs of Homozygosity)明显增多。策略:优先筛选ROH区域内的纯合变异(homozygosity mapping)。工具:PLINK --homozyg,再与纯合变异列表取交集,大幅缩小候选范围。

★ Q5:外显率不完全(Incomplete Penetrance)对分析有什么影响?

外显率<100%意味着携带致病变异的人不一定发病(例如BRCA1变异,乳腺癌外显率约72%)。影响:①表型正常的父母可能携带显性致病变异→不能因父母"正常"就排除AD遗传;②需要结合年龄、性别、环境因素综合判断;③分析时可适当放宽亲本基因型限制。


速查表

遗传模式患者基因型父母基因型MAF阈值典型疾病举例
常染色体显性(AD)杂合一方杂合或均野生(de novo)<0.0001马凡综合征, 亨廷顿病
常染色体隐性(AR)纯合或复合杂合双方均为携带者<0.001苯丙酮尿症, 囊性纤维化
X连锁隐性(XLR)男性半合子母亲携带<0.001杜氏肌营养不良, 血友病A
X连锁显性(XLD)女性杂合一方携带<0.0001Rett综合征
新生突变(de novo)杂合双方均野生型<0.0001自闭症谱系障碍, 智力障碍
常用工具功能特点
GEMINI家系变异数据库查询支持多种遗传模式
Exomiser表型驱动优先级排序HPO整合
DeepTrio深度学习三人组分析高灵敏度de novo检测
RTG-Tools家系变异过滤快速高效
PLINK关联分析+ROH大规模家系分析