345_常染色体显隐性遗传分析¶
一句话说明¶
常染色体显隐性遗传分析就是用计算方法判断遗传病"按哪种规律传递",再根据规律在测序数据中精准筛选候选致病变异。
核心知识点¶
要点1:常染色体显性(AD)遗传¶
白话类比:就像带有"强势"的基因——只要有一个坏拷贝,就会发病;父母之一通常也有病。 专业解释:患者为杂合子(Het),每次传递给后代50%概率。新生突变(de novo)也可以是显性病的原因(如软骨发育不全FGFR3)。计算标志:①患者杂合变异;②父母一方携带(遗传性)或父母均不携带(de novo);③gnomAD MAF<0.0001;④ClinVar/OMIM证据。
要点2:常染色体隐性(AR)遗传¶
白话类比:就像"隐藏"的坏基因——两个拷贝都坏才发病,父母携带一个不发病(携带者)。 专业解释:患者为纯合子(Homo)或复合杂合子(Compound Het)。父母均为携带者(杂合),后代25%发病概率。注意:近亲婚配增加纯合概率。计算标志:①同一基因两个致病变异;②分别来自父母(三人组验证);③MAF<0.001。
要点3:de novo变异(新生突变)¶
白话类比:这次突变是在患者这代"新冒出来的",父母都没有——往往是散发性显性遗传病的原因。 专业解释:三人组(Trio)分析关键应用之一。de novo变异:患者携带、父母均不携带(经严格质控过滤测序伪阳性)。de novo变异的致病可能性高,是智力障碍、自闭症谱系障碍的主要遗传原因之一。过滤标准:患者基因型质量GQ≥20,测序深度≥10×,变异质量VQSR通过。
要点4:X连锁遗传(补充)¶
白话类比:男性只有一条X染色体,所以X染色体上的坏基因男性更容易发病;女性有两条,一条保护另一条。 专业解释:X连锁隐性:男性半合子(hemizygous)即发病;女性杂合为携带者。X连锁显性:杂合女性也发病。分析时需先检查性别,再对应过滤策略(PLINK sex check)。
要点5:遗传模式的PLINK/GEMINI分析¶
白话类比:用专门的工具,把家系信息(谁是父母、谁是患者)输入进去,让软件自动找符合遗传规律的变异。 专业解释:GEMINI是基于数据库的家系遗传分析工具,支持AD/AR/de novo/compound het模式查询。输入需要PED文件(家系谱)和已注释的VCF。也可用RTG-Tools、DeepTrio(深度学习三人组分析)。
实战命令/代码¶
# ========== 准备工作:PED家系文件格式 ==========
# PED文件格式:家系ID 个体ID 父亲ID 母亲ID 性别(1男2女) 状态(1正常2患病)
cat << 'EOF' > family.ped
FAM001 CHILD FATHER MOTHER 1 2 # 患者儿子
FAM001 FATHER 0 0 1 1 # 父亲(正常)
FAM001 MOTHER 0 0 2 1 # 母亲(正常)
EOF
# 验证PED文件
cat family.ped # 查看文件内容
# ========== GEMINI:数据库导入与遗传模式查询 ==========
# 安装GEMINI(推荐conda环境)
# conda install -c bioconda gemini
# 将VCF导入GEMINI数据库(含注释)
gemini load \
-v annotated_family.vcf.gz \ # 注释后的VCF文件
-t snpEff \ # 注释工具类型
-p family.ped \ # 家系文件
--cores 8 \ # 并行线程数
family.db # 输出数据库文件
echo "数据库加载完成"
# ========== GEMINI:不同遗传模式查询 ==========
# 1. 查询常染色体显性(de novo)变异
gemini de_novo \
--columns "chrom,start,end,ref,alt,gene,impact,aaf_esp_ea" \
family.db | head -50 # 显示前50条
# 2. 查询常染色体隐性(纯合)变异
gemini autosomal_recessive \
--columns "chrom,start,end,ref,alt,gene,impact" \
--filter "aaf_esp_ea < 0.001 and impact_severity != 'LOW'" \
family.db # 低频+功能性隐性变异
# 3. 查询复合杂合变异
gemini comp_hets \
--columns "chrom,start,end,ref,alt,gene,impact" \
--filter "aaf_esp_ea < 0.001" \
family.db # 同一基因两个杂合变异(分别来自双亲)
# 4. 查询X连锁隐性变异
gemini x_linked_recessive \
--columns "chrom,start,end,ref,alt,gene,impact" \
family.db # X染色体隐性模式
# ========== Python:手动实现遗传模式过滤 ==========
import pandas as pd # 数据处理
def filter_by_inheritance(df, mode='AD'):
"""
根据遗传模式过滤变异
df: 包含父/母/患者基因型的DataFrame
mode: 遗传模式(AD/AR/denovo)
"""
if mode == 'AD':
# 常染色体显性:患者杂合,父母之一也杂合(遗传性)
condition = (
(df['proband_gt'] == 'het') & # 患者杂合
((df['father_gt'] == 'het') | # 父亲携带
(df['mother_gt'] == 'het')) # 或母亲携带
)
return df[condition]
elif mode == 'denovo':
# 新生突变:患者有变异,父母均无
condition = (
(df['proband_gt'].isin(['het', 'hom_alt'])) & # 患者有变异
(df['father_gt'] == 'hom_ref') & # 父亲野生型
(df['mother_gt'] == 'hom_ref') # 母亲野生型
)
return df[condition]
elif mode == 'AR':
# 常染色体隐性:患者纯合,或者需要进一步复合杂合检测
condition = (
(df['proband_gt'] == 'hom_alt') & # 患者纯合变异
(df['father_gt'] == 'het') & # 父亲携带者
(df['mother_gt'] == 'het') # 母亲携带者
)
return df[condition]
else:
raise ValueError(f"不支持的遗传模式: {mode}")
# 使用示例
# variants_AD = filter_by_inheritance(df_variants, 'AD')
# variants_denovo = filter_by_inheritance(df_variants, 'denovo')
# print(f"AD候选: {len(variants_AD)}, de novo: {len(variants_denovo)}")
# ========== R:遗传模式统计与可视化 ==========
library(ggplot2) # 可视化
library(dplyr) # 数据处理
# 读取筛选结果
results <- read.table("gemini_results.tsv",
sep="\t", header=TRUE, stringsAsFactors=FALSE)
# 按遗传模式统计候选变异数量
mode_counts <- results %>%
group_by(inheritance_mode) %>% # 按遗传模式分组
summarise(n_variants = n()) %>% # 统计数量
arrange(desc(n_variants)) # 降序排列
# 绘制遗传模式分布条形图
ggplot(mode_counts, aes(x=inheritance_mode, y=n_variants, fill=inheritance_mode)) +
geom_bar(stat="identity") + # 柱状图
labs(title="候选变异遗传模式分布",
x="遗传模式", y="变异数量") + # 标签
theme_bw() + # 白色背景主题
theme(legend.position="none") # 不显示图例
ggsave("inheritance_distribution.pdf", width=6, height=4) # 保存图片
面试常问点¶
★ Q1:常染色体显性和隐性遗传在测序分析上最关键的区别是什么?
显性遗传(AD):杂合变异即致病,重点筛选新生突变(de novo)和MAF极低(<0.0001)的变异;父母一方通常也发病(外显率相关)。隐性遗传(AR):需要双等位基因打击(纯合或复合杂合),三人组可以验证亲本来源;携带者频率在人群中相对较高(MAF可达0.001-0.01)。
★ Q2:复合杂合怎么和普通杂合区分?为什么需要三人组?
复合杂合是同一基因两个不同杂合变异,一个来自父亲,一个来自母亲,两者共同破坏基因功能。单样本分析无法确定亲本来源(两个变异可能在同一条染色体上=顺式,不致病),必须用三人组VCF或haplotype phasing才能确认是"一个来自父,一个来自母"(反式=真复合杂合)。
★ Q3:de novo变异的假阳性如何控制?
主要质控手段:①子代变异质量GQ≥20;②父母野生型基因组位点覆盖深度≥10×;③variant allele fraction (VAF)在预期范围(杂合~0.5);④使用DeepTrio或GATK family mode重新genotype;⑤Sanger测序验证候选变异。嵌合(mosaic)变异可使父母看起来"没有"但实际低频存在,要检查父母的VAF。
★ Q4:近亲婚配家系如何影响遗传分析策略?
近亲婚配(例如表亲)后代:ROH(纯合连续片段,Runs of Homozygosity)明显增多。策略:优先筛选ROH区域内的纯合变异(homozygosity mapping)。工具:PLINK --homozyg,再与纯合变异列表取交集,大幅缩小候选范围。
★ Q5:外显率不完全(Incomplete Penetrance)对分析有什么影响?
外显率<100%意味着携带致病变异的人不一定发病(例如BRCA1变异,乳腺癌外显率约72%)。影响:①表型正常的父母可能携带显性致病变异→不能因父母"正常"就排除AD遗传;②需要结合年龄、性别、环境因素综合判断;③分析时可适当放宽亲本基因型限制。
速查表¶
| 遗传模式 | 患者基因型 | 父母基因型 | MAF阈值 | 典型疾病举例 |
|---|---|---|---|---|
| 常染色体显性(AD) | 杂合 | 一方杂合或均野生(de novo) | <0.0001 | 马凡综合征, 亨廷顿病 |
| 常染色体隐性(AR) | 纯合或复合杂合 | 双方均为携带者 | <0.001 | 苯丙酮尿症, 囊性纤维化 |
| X连锁隐性(XLR) | 男性半合子 | 母亲携带 | <0.001 | 杜氏肌营养不良, 血友病A |
| X连锁显性(XLD) | 女性杂合 | 一方携带 | <0.0001 | Rett综合征 |
| 新生突变(de novo) | 杂合 | 双方均野生型 | <0.0001 | 自闭症谱系障碍, 智力障碍 |
| 常用工具 | 功能 | 特点 |
|---|---|---|
| GEMINI | 家系变异数据库查询 | 支持多种遗传模式 |
| Exomiser | 表型驱动优先级排序 | HPO整合 |
| DeepTrio | 深度学习三人组分析 | 高灵敏度de novo检测 |
| RTG-Tools | 家系变异过滤 | 快速高效 |
| PLINK | 关联分析+ROH | 大规模家系分析 |