跳转至

微卫星不稳定MSI

一句话概述:MSI(微卫星不稳定)是DNA错配修复系统缺陷导致的分子表型,MSI-H是FDA批准的免疫治疗泛癌种标志物,生信上可用MSIsensor等工具从NGS数据中检测。

核心知识点速览

概念白话解释
微卫星DNA中像"ACACAC..."这样重复的短序列,容易出错
MSI微卫星长度发生变化,说明DNA修复系统"罢工"了
MMR错配修复系统,负责修正DNA复制错误的"校对员"
dMMRMMR缺陷,校对员不工作了,错误大量积累
MSI-H高度不稳定,≥30%的微卫星位点异常
MSS微卫星稳定,修复系统正常运转
Lynch综合征MMR基因的遗传突变,导致家族性癌症
MLH1甲基化MLH1启动子甲基化导致沉默,散发性MSI最常见原因
MSIsensor从配对肿瘤-正常NGS数据检测MSI的生信工具
MANTIS另一个MSI检测工具,基于微卫星长度分布差异

一、MSI的生物学机制

正常情况:
  DNA复制 → 偶尔出错(特别在微卫星重复序列处)
  → MMR蛋白(MLH1/MSH2/MSH6/PMS2)发现错误
  → 修复错误 → 微卫星长度保持稳定

MSI发生:
  MMR基因突变(Lynch综合征)或 MLH1甲基化(散发性)
  → MMR蛋白缺失或功能丧失
  → DNA复制错误无法修复
  → 微卫星长度发生变化(增长或缩短)
  → 突变大量积累 → 产生新抗原 → 可能对免疫治疗敏感

二、检测方法

2.1 传统方法

方法原理金标准
IHC检测MMR蛋白(MLH1/MSH2/MSH6/PMS2)表达一线筛查
PCR-片段分析比较肿瘤和正常组织微卫星长度经典方法
NGS-based从测序数据中分析微卫星变化趋势方法

2.2 NGS-based生信检测

MSIsensor

# 安装MSIsensor
git clone https://github.com/ding-lab/msisensor.git  # 克隆仓库
cd msisensor && make  # 编译

# 步骤1:扫描参考基因组中的微卫星位点
msisensor scan \
  -d hg38.fa \            # 参考基因组
  -o microsatellites.list  # 输出微卫星位点列表

# 步骤2:比较肿瘤和正常样本
msisensor msi \
  -d microsatellites.list \  # 微卫星位点列表
  -n normal.bam \            # 正常样本BAM文件
  -t tumor.bam \             # 肿瘤样本BAM文件
  -o output_prefix           # 输出前缀

# 结果文件中:
# Total_Number_of_Sites: 分析的微卫星位点总数
# Number_of_Somatic_Sites: 体细胞突变位点数
# %: MSI分数(不稳定位点占比)
# MSI分数 ≥ 3.5% → MSI-H(默认阈值)

MSIsensor-pro(无需配对正常样本)

# 安装MSIsensor-pro
git clone https://github.com/xjtu-omics/msisensor-pro.git  # 克隆
cd msisensor-pro && ./INSTALL  # 安装

# 无配对正常样本模式(tumor-only)
msisensor-pro pro \
  -d microsatellites.list \  # 微卫星位点
  -t tumor.bam \             # 仅肿瘤样本
  -o output_prefix           # 输出前缀

# MSIsensor-pro训练了正常样本模型
# 可以在没有配对正常样本的情况下检测MSI

MANTIS

# 安装MANTIS
pip install mantis-msi  # 安装

# 运行MANTIS
python mantis.py \
  --bedfile target_loci.bed \  # 目标微卫星位点BED文件
  --genome hg38.fa \           # 参考基因组
  -n normal.bam \              # 正常样本
  -t tumor.bam \               # 肿瘤样本
  -o mantis_result.txt         # 输出文件

# MANTIS Score ≥ 0.4 → MSI-H

2.3 PROMIS(2026最新方法)

# PROMIS: 无需配对正常样本、无需机器学习重训练的MSI检测
# 基于肿瘤内部变异建模(intrasample variability)

# 安装(Snakemake工作流)
git clone https://github.com/xxx/PROMIS.git  # 克隆仓库
conda env create -f environment.yml           # 创建环境

# 运行
snakemake --configfile config.yaml -j 4  # 运行流水线

# PROMIS特点:
# - 不需要配对正常样本
# - 不需要正常样本panel
# - 不需要重新训练机器学习模型
# - 兼容WGS、WES和Panel测序
# - 使用离散混合模型分析重复序列长度分布

三、R语言MSI分析

# 使用maftools分析MSI相关特征
library(maftools)

# 读取MAF数据
maf <- read.maf("TCGA-COAD.maf.gz",
                 clinicalData = "clinical.txt")

# 查看MSI状态分布
table(getClinicalData(maf)$MSI_Status)

# MSI-H vs MSS的突变特征比较
# MSI-H肿瘤通常有特征性的突变模式

# 按MSI状态分组做突变分析
msi_h_maf <- subsetMaf(maf, tsb = msi_h_samples)  # MSI-H子集
mss_maf <- subsetMaf(maf, tsb = mss_samples)        # MSS子集

# 比较两组的突变谱
coOncoplot(m1 = msi_h_maf, m2 = mss_maf,
           m1Name = "MSI-H", m2Name = "MSS",
           genes = c("BRAF", "KRAS", "TP53", "APC", "PIK3CA"))

# MSI-H肿瘤的典型特征:
# - BRAF V600E突变频率高(散发性MSI-H)
# - TP53突变频率低(与MSS相反)
# - 移码突变比例高
# - 总体突变负荷高

四、MSI与免疫治疗

# MSI-H患者免疫治疗获益分析
library(survival)
library(survminer)

# 按MSI状态分组的生存分析
km_msi <- survfit(Surv(OS_time, OS_status) ~ MSI_Status,
                  data = clinical)

ggsurvplot(km_msi, data = clinical,
           pval = TRUE, risk.table = TRUE,
           palette = c("MSI-H" = "red", "MSI-L" = "orange", "MSS" = "blue"),
           legend.labs = c("MSI-H", "MSI-L", "MSS"),
           title = "Overall Survival by MSI Status")

# MSI与TMB的关系
ggplot(clinical, aes(x = MSI_Status, y = TMB)) +
  geom_boxplot(aes(fill = MSI_Status)) +
  geom_jitter(width = 0.2, alpha = 0.3) +
  scale_y_log10() +
  labs(title = "TMB Distribution by MSI Status",
       y = "TMB (log10 scale)") +
  theme_minimal()

五、MMR蛋白IHC分析(病理图像)

# 虽然IHC主要是病理科做,但生信也需要理解

# MMR蛋白IHC判读规则:
# 4个蛋白都阳性(正常表达)→ pMMR(MMR proficient)→ MSS
# 任何一个阴性(表达缺失)→ dMMR(MMR deficient)→ MSI-H

# 常见缺失模式及意义:
# MLH1+PMS2缺失 → 散发性(检查MLH1甲基化)或Lynch
# MSH2+MSH6缺失 → 高度提示Lynch综合征
# MSH6单独缺失  → 可能是MSH6突变
# PMS2单独缺失  → 可能是PMS2突变

# 2026年AI辅助MSI检测(Deepath-MSI):
# - 从HE染色切片直接预测MSI状态
# - 不需要分子检测
# - AUROC = 0.98
# - 已获中国NMPA突破性医疗器械认定

常见报错与解决

报错信息原因解决方案
msisensor: BAM index not foundBAM文件没有索引samtools index tumor.bam
No microsatellites found参考基因组路径错误检查-d参数指向正确的.fa文件
Paired normal required没有配对正常样本使用MSIsensor-pro的tumor-only模式
Too few informative sites目标区域微卫星位点太少使用WES而非小Panel
MANTIS: discordant BAMBAM文件格式问题确保BAM排序和索引正确

速查表

# MSI检测工具选择
有配对正常样本: MSIsensor(金标准)
无配对正常样本: MSIsensor-pro / PROMIS
只有MAF文件:    maftools分析突变特征
病理切片:       Deepath-MSI(AI方法)

# MSI分类标准
MSI-H: ≥30%位点不稳定(PCR)或 ≥3.5%(MSIsensor)
MSI-L: 1-29%位点不稳定
MSS:   0%位点不稳定

# MMR蛋白 → MSI对应
MLH1↓+PMS2↓: 检查MLH1甲基化 → 阳性=散发性, 阴性=Lynch
MSH2↓+MSH6↓: 高度怀疑Lynch综合征
单独MSH6↓:   MSH6基因突变
单独PMS2↓:   PMS2基因突变

# MSI-H常见癌种
子宫内膜癌: ~30% MSI-H
结直肠癌:   ~15% MSI-H
胃癌:       ~15% MSI-H
其他:       通常 <5%

# FDA批准的MSI-H免疫治疗
Pembrolizumab: 所有MSI-H/dMMR实体瘤(2017年批准)
Nivolumab+Ipilimumab: MSI-H结直肠癌

面试高频问题

Q1:MSI-H和dMMR是一回事吗?

:两者高度相关但不完全等同。dMMR(错配修复缺陷)是原因,MSI-H是结果。dMMR通过IHC检测MMR蛋白表达,MSI通过PCR或NGS检测微卫星长度变化。绝大多数情况下dMMR=MSI-H,但有少数不一致:约5-10%的病例IHC和PCR/NGS结果不一致,可能因为MMR蛋白虽表达但功能异常,或MSI检测位点选择差异。

Q2:MSI-H为什么对免疫治疗敏感?

:MSI-H肿瘤因错配修复缺陷积累大量突变(通常TMB>10 mut/Mb),产生大量新抗原,这些异常蛋白片段能被免疫系统识别。同时MSI-H肿瘤通常有丰富的肿瘤浸润淋巴细胞(TIL),免疫微环境是"热的"。当使用免疫检查点抑制剂解除T细胞抑制后,大量新抗原使T细胞有足够的"靶点"攻击肿瘤。

Q3:如何从NGS数据检测MSI?

:主要有三种策略:①MSIsensor——比较配对肿瘤-正常样本在微卫星位点的等位基因长度分布差异,分数≥3.5%为MSI-H;②MSIsensor-pro——训练正常样本模型,不需要配对正常样本(tumor-only);③MANTIS——计算微卫星位点在肿瘤和正常间的步长分布差异。WES比Panel更准确,因为分析的微卫星位点更多。2026年新工具PROMIS不需要配对样本也不需要ML训练。

Q4:MSI和TMB是什么关系?

:MSI-H和高TMB经常共存但不完全重叠:①大部分MSI-H肿瘤有高TMB(因为错配修复缺陷导致大量突变);②但也有TMB-H但MSS的肿瘤——如POLE突变导致的超高TMB(>100 mut/Mb),这些肿瘤的突变机制不是MMR缺陷而是DNA聚合酶校对缺陷;③少数MSI-H肿瘤TMB不高。FDA分别批准了TMB≥10和MSI-H作为独立的免疫治疗标志物。

Q5:Lynch综合征和散发性MSI怎么区分?

:①Lynch综合征——MMR基因(MLH1/MSH2/MSH6/PMS2)的胚系突变导致,通常IHC显示MSH2+MSH6缺失或MLH1+PMS2缺失但MLH1无甲基化;②散发性MSI——最常见原因是MLH1启动子甲基化导致MLH1蛋白表达沉默,通常伴有BRAF V600E突变。临床流程:IHC筛查→MLH1缺失者检测MLH1甲基化→甲基化阴性者做胚系基因检测排查Lynch。