微卫星不稳定MSI¶
一句话概述:MSI(微卫星不稳定)是DNA错配修复系统缺陷导致的分子表型,MSI-H是FDA批准的免疫治疗泛癌种标志物,生信上可用MSIsensor等工具从NGS数据中检测。
核心知识点速览¶
| 概念 | 白话解释 |
|---|---|
| 微卫星 | DNA中像"ACACAC..."这样重复的短序列,容易出错 |
| MSI | 微卫星长度发生变化,说明DNA修复系统"罢工"了 |
| MMR | 错配修复系统,负责修正DNA复制错误的"校对员" |
| dMMR | MMR缺陷,校对员不工作了,错误大量积累 |
| MSI-H | 高度不稳定,≥30%的微卫星位点异常 |
| MSS | 微卫星稳定,修复系统正常运转 |
| Lynch综合征 | MMR基因的遗传突变,导致家族性癌症 |
| MLH1甲基化 | MLH1启动子甲基化导致沉默,散发性MSI最常见原因 |
| MSIsensor | 从配对肿瘤-正常NGS数据检测MSI的生信工具 |
| MANTIS | 另一个MSI检测工具,基于微卫星长度分布差异 |
一、MSI的生物学机制¶
正常情况:
DNA复制 → 偶尔出错(特别在微卫星重复序列处)
→ MMR蛋白(MLH1/MSH2/MSH6/PMS2)发现错误
→ 修复错误 → 微卫星长度保持稳定
MSI发生:
MMR基因突变(Lynch综合征)或 MLH1甲基化(散发性)
→ MMR蛋白缺失或功能丧失
→ DNA复制错误无法修复
→ 微卫星长度发生变化(增长或缩短)
→ 突变大量积累 → 产生新抗原 → 可能对免疫治疗敏感
二、检测方法¶
2.1 传统方法¶
| 方法 | 原理 | 金标准 |
|---|---|---|
| IHC | 检测MMR蛋白(MLH1/MSH2/MSH6/PMS2)表达 | 一线筛查 |
| PCR-片段分析 | 比较肿瘤和正常组织微卫星长度 | 经典方法 |
| NGS-based | 从测序数据中分析微卫星变化 | 趋势方法 |
2.2 NGS-based生信检测¶
MSIsensor¶
# 安装MSIsensor
git clone https://github.com/ding-lab/msisensor.git # 克隆仓库
cd msisensor && make # 编译
# 步骤1:扫描参考基因组中的微卫星位点
msisensor scan \
-d hg38.fa \ # 参考基因组
-o microsatellites.list # 输出微卫星位点列表
# 步骤2:比较肿瘤和正常样本
msisensor msi \
-d microsatellites.list \ # 微卫星位点列表
-n normal.bam \ # 正常样本BAM文件
-t tumor.bam \ # 肿瘤样本BAM文件
-o output_prefix # 输出前缀
# 结果文件中:
# Total_Number_of_Sites: 分析的微卫星位点总数
# Number_of_Somatic_Sites: 体细胞突变位点数
# %: MSI分数(不稳定位点占比)
# MSI分数 ≥ 3.5% → MSI-H(默认阈值)
MSIsensor-pro(无需配对正常样本)¶
# 安装MSIsensor-pro
git clone https://github.com/xjtu-omics/msisensor-pro.git # 克隆
cd msisensor-pro && ./INSTALL # 安装
# 无配对正常样本模式(tumor-only)
msisensor-pro pro \
-d microsatellites.list \ # 微卫星位点
-t tumor.bam \ # 仅肿瘤样本
-o output_prefix # 输出前缀
# MSIsensor-pro训练了正常样本模型
# 可以在没有配对正常样本的情况下检测MSI
MANTIS¶
# 安装MANTIS
pip install mantis-msi # 安装
# 运行MANTIS
python mantis.py \
--bedfile target_loci.bed \ # 目标微卫星位点BED文件
--genome hg38.fa \ # 参考基因组
-n normal.bam \ # 正常样本
-t tumor.bam \ # 肿瘤样本
-o mantis_result.txt # 输出文件
# MANTIS Score ≥ 0.4 → MSI-H
2.3 PROMIS(2026最新方法)¶
# PROMIS: 无需配对正常样本、无需机器学习重训练的MSI检测
# 基于肿瘤内部变异建模(intrasample variability)
# 安装(Snakemake工作流)
git clone https://github.com/xxx/PROMIS.git # 克隆仓库
conda env create -f environment.yml # 创建环境
# 运行
snakemake --configfile config.yaml -j 4 # 运行流水线
# PROMIS特点:
# - 不需要配对正常样本
# - 不需要正常样本panel
# - 不需要重新训练机器学习模型
# - 兼容WGS、WES和Panel测序
# - 使用离散混合模型分析重复序列长度分布
三、R语言MSI分析¶
# 使用maftools分析MSI相关特征
library(maftools)
# 读取MAF数据
maf <- read.maf("TCGA-COAD.maf.gz",
clinicalData = "clinical.txt")
# 查看MSI状态分布
table(getClinicalData(maf)$MSI_Status)
# MSI-H vs MSS的突变特征比较
# MSI-H肿瘤通常有特征性的突变模式
# 按MSI状态分组做突变分析
msi_h_maf <- subsetMaf(maf, tsb = msi_h_samples) # MSI-H子集
mss_maf <- subsetMaf(maf, tsb = mss_samples) # MSS子集
# 比较两组的突变谱
coOncoplot(m1 = msi_h_maf, m2 = mss_maf,
m1Name = "MSI-H", m2Name = "MSS",
genes = c("BRAF", "KRAS", "TP53", "APC", "PIK3CA"))
# MSI-H肿瘤的典型特征:
# - BRAF V600E突变频率高(散发性MSI-H)
# - TP53突变频率低(与MSS相反)
# - 移码突变比例高
# - 总体突变负荷高
四、MSI与免疫治疗¶
# MSI-H患者免疫治疗获益分析
library(survival)
library(survminer)
# 按MSI状态分组的生存分析
km_msi <- survfit(Surv(OS_time, OS_status) ~ MSI_Status,
data = clinical)
ggsurvplot(km_msi, data = clinical,
pval = TRUE, risk.table = TRUE,
palette = c("MSI-H" = "red", "MSI-L" = "orange", "MSS" = "blue"),
legend.labs = c("MSI-H", "MSI-L", "MSS"),
title = "Overall Survival by MSI Status")
# MSI与TMB的关系
ggplot(clinical, aes(x = MSI_Status, y = TMB)) +
geom_boxplot(aes(fill = MSI_Status)) +
geom_jitter(width = 0.2, alpha = 0.3) +
scale_y_log10() +
labs(title = "TMB Distribution by MSI Status",
y = "TMB (log10 scale)") +
theme_minimal()
五、MMR蛋白IHC分析(病理图像)¶
# 虽然IHC主要是病理科做,但生信也需要理解
# MMR蛋白IHC判读规则:
# 4个蛋白都阳性(正常表达)→ pMMR(MMR proficient)→ MSS
# 任何一个阴性(表达缺失)→ dMMR(MMR deficient)→ MSI-H
# 常见缺失模式及意义:
# MLH1+PMS2缺失 → 散发性(检查MLH1甲基化)或Lynch
# MSH2+MSH6缺失 → 高度提示Lynch综合征
# MSH6单独缺失 → 可能是MSH6突变
# PMS2单独缺失 → 可能是PMS2突变
# 2026年AI辅助MSI检测(Deepath-MSI):
# - 从HE染色切片直接预测MSI状态
# - 不需要分子检测
# - AUROC = 0.98
# - 已获中国NMPA突破性医疗器械认定
常见报错与解决¶
| 报错信息 | 原因 | 解决方案 |
|---|---|---|
msisensor: BAM index not found | BAM文件没有索引 | samtools index tumor.bam |
No microsatellites found | 参考基因组路径错误 | 检查-d参数指向正确的.fa文件 |
Paired normal required | 没有配对正常样本 | 使用MSIsensor-pro的tumor-only模式 |
Too few informative sites | 目标区域微卫星位点太少 | 使用WES而非小Panel |
MANTIS: discordant BAM | BAM文件格式问题 | 确保BAM排序和索引正确 |
速查表¶
# MSI检测工具选择
有配对正常样本: MSIsensor(金标准)
无配对正常样本: MSIsensor-pro / PROMIS
只有MAF文件: maftools分析突变特征
病理切片: Deepath-MSI(AI方法)
# MSI分类标准
MSI-H: ≥30%位点不稳定(PCR)或 ≥3.5%(MSIsensor)
MSI-L: 1-29%位点不稳定
MSS: 0%位点不稳定
# MMR蛋白 → MSI对应
MLH1↓+PMS2↓: 检查MLH1甲基化 → 阳性=散发性, 阴性=Lynch
MSH2↓+MSH6↓: 高度怀疑Lynch综合征
单独MSH6↓: MSH6基因突变
单独PMS2↓: PMS2基因突变
# MSI-H常见癌种
子宫内膜癌: ~30% MSI-H
结直肠癌: ~15% MSI-H
胃癌: ~15% MSI-H
其他: 通常 <5%
# FDA批准的MSI-H免疫治疗
Pembrolizumab: 所有MSI-H/dMMR实体瘤(2017年批准)
Nivolumab+Ipilimumab: MSI-H结直肠癌
面试高频问题¶
Q1:MSI-H和dMMR是一回事吗?¶
答:两者高度相关但不完全等同。dMMR(错配修复缺陷)是原因,MSI-H是结果。dMMR通过IHC检测MMR蛋白表达,MSI通过PCR或NGS检测微卫星长度变化。绝大多数情况下dMMR=MSI-H,但有少数不一致:约5-10%的病例IHC和PCR/NGS结果不一致,可能因为MMR蛋白虽表达但功能异常,或MSI检测位点选择差异。
Q2:MSI-H为什么对免疫治疗敏感?¶
答:MSI-H肿瘤因错配修复缺陷积累大量突变(通常TMB>10 mut/Mb),产生大量新抗原,这些异常蛋白片段能被免疫系统识别。同时MSI-H肿瘤通常有丰富的肿瘤浸润淋巴细胞(TIL),免疫微环境是"热的"。当使用免疫检查点抑制剂解除T细胞抑制后,大量新抗原使T细胞有足够的"靶点"攻击肿瘤。
Q3:如何从NGS数据检测MSI?¶
答:主要有三种策略:①MSIsensor——比较配对肿瘤-正常样本在微卫星位点的等位基因长度分布差异,分数≥3.5%为MSI-H;②MSIsensor-pro——训练正常样本模型,不需要配对正常样本(tumor-only);③MANTIS——计算微卫星位点在肿瘤和正常间的步长分布差异。WES比Panel更准确,因为分析的微卫星位点更多。2026年新工具PROMIS不需要配对样本也不需要ML训练。
Q4:MSI和TMB是什么关系?¶
答:MSI-H和高TMB经常共存但不完全重叠:①大部分MSI-H肿瘤有高TMB(因为错配修复缺陷导致大量突变);②但也有TMB-H但MSS的肿瘤——如POLE突变导致的超高TMB(>100 mut/Mb),这些肿瘤的突变机制不是MMR缺陷而是DNA聚合酶校对缺陷;③少数MSI-H肿瘤TMB不高。FDA分别批准了TMB≥10和MSI-H作为独立的免疫治疗标志物。
Q5:Lynch综合征和散发性MSI怎么区分?¶
答:①Lynch综合征——MMR基因(MLH1/MSH2/MSH6/PMS2)的胚系突变导致,通常IHC显示MSH2+MSH6缺失或MLH1+PMS2缺失但MLH1无甲基化;②散发性MSI——最常见原因是MLH1启动子甲基化导致MLH1蛋白表达沉默,通常伴有BRAF V600E突变。临床流程:IHC筛查→MLH1缺失者检测MLH1甲基化→甲基化阴性者做胚系基因检测排查Lynch。