跳转至

COSMIC肿瘤突变数据库

一句话概述:COSMIC(Catalogue Of Somatic Mutations In Cancer)是全球最大的体细胞突变数据库,收录了数百万个来自人类癌症的体细胞突变,包含突变频率、功能影响、突变特征(mutational signatures)等信息。

核心知识点速查表

概念说明
COSMIC癌症体细胞突变目录(白话:癌症"犯罪档案"数据库)
体细胞突变后天获得的突变(非遗传),癌症的驱动力
驱动突变促进癌症发生发展的关键突变
乘客突变无功能影响的随机突变
CGCCancer Gene Census,COSMIC收录的癌症基因列表
突变特征Mutational Signatures,不同致癌因素留下的突变模式
COSMIC ID如COSV00001234,突变的唯一标识
Tier 1/2CGC基因的证据等级(Tier1最可靠)

一、COSMIC数据库使用

1.1 网页查询

# === COSMIC官网 ===
# 访问: https://cancer.sanger.ac.uk/cosmic
# 注册:需要免费注册账户才能下载数据

# 查询方式:
# 1. 基因搜索:输入基因名(如TP53),查看该基因在各癌种中的突变谱
# 2. 突变搜索:输入突变位置(如chr17:7577120),查看具体突变
# 3. 癌种搜索:选择癌症类型,查看该癌种的突变全景
# 4. 突变特征:查看不同癌种的突变特征谱

# 下载数据(需要注册):
# https://cancer.sanger.ac.uk/cosmic/download
# 主要数据文件:
# - CosmicMutantExport.tsv : 所有体细胞突变
# - CosmicCGC.tsv : 癌症基因普查列表
# - CosmicCLP.tsv : 细胞系数据

1.2 CGC(Cancer Gene Census)

# === 查询COSMIC CGC癌症基因列表 ===
import pandas as pd

# 读取CGC文件(从COSMIC网站下载)
cgc = pd.read_csv("Census_allThu.csv")               # 读取CGC数据

# 查看CGC结构
print(f"总共 {len(cgc)} 个癌症基因")
print(cgc.columns.tolist())

# 按Tier筛选
tier1 = cgc[cgc['Tier'] == 1]                         # Tier 1:高可信
tier2 = cgc[cgc['Tier'] == 2]                         # Tier 2:较可信
print(f"Tier 1: {len(tier1)} 个基因")
print(f"Tier 2: {len(tier2)} 个基因")

# 按角色分类
oncogenes = cgc[cgc['Role in Cancer'].str.contains('oncogene', na=False)]  # 癌基因
tsg = cgc[cgc['Role in Cancer'].str.contains('TSG', na=False)]              # 抑癌基因
print(f"癌基因: {len(oncogenes)}个")
print(f"抑癌基因: {len(tsg)}个")

# 按突变类型分类
print(cgc['Mutation Types'].value_counts().head(10))   # 常见突变类型

二、突变特征分析(Mutational Signatures)

# === 使用MutationalPatterns分析突变特征 ===
# BiocManager::install("MutationalPatterns")
library(MutationalPatterns)

# 读取VCF文件
vcf_files <- list.files("vcf_dir/", pattern=".vcf$", full.names=TRUE)
sample_names <- gsub(".vcf$", "", basename(vcf_files))

# 加载参考基因组
ref_genome <- "BSgenome.Hsapiens.UCSC.hg38"
library(ref_genome, character.only=TRUE)

# 读取突变
grl <- read_vcfs_as_granges(
  vcf_files,                        # VCF文件列表
  sample_names,                      # 样本名
  ref_genome                          # 参考基因组
)

# 构建突变矩阵(96种三核苷酸替换类型)
mut_mat <- mut_matrix(grl, ref_genome=get(ref_genome))  # 96种突变类型

# 从COSMIC v3.4获取参考突变特征
cosmic_sigs <- get_known_signatures(
  source = "COSMIC",                 # 数据来源COSMIC
  muttype = "snv"                     # 单核苷酸变异
)

# 特征分解(找到每个样本中的突变特征组成)
fit <- fit_to_signatures(
  mut_mat,                            # 突变矩阵
  cosmic_sigs                          # COSMIC参考特征
)

# 可视化
plot_contribution(fit$contribution, coord_flip=TRUE)   # 贡献图
plot_96_profile(mut_mat[, 1])                           # 96型突变谱图

常见COSMIC突变特征

特征关联病因特点
SBS1年龄相关(5-mC脱氨)C>T在CpG位点
SBS2/13APOBEC酶活性C>T和C>G
SBS4吸烟C>A为主
SBS6/15/20DNA错配修复缺陷(dMMR)多种替换
SBS7a/b紫外线损伤CC>TT
SBS22马兜铃酸T>A

三、COSMIC API使用

# === COSMIC API查询 ===
import requests

# 注意:COSMIC v4 API需要注册获取token
# 基础URL
base_url = "https://cancer.sanger.ac.uk/cosmic/search"

# 查询基因突变信息(网页方式)
# https://cancer.sanger.ac.uk/cosmic/gene/analysis?ln=TP53

# 使用CosmicDB Python包(非官方但方便)
# pip install cosmicdb  (如果可用)
# === 命令行处理COSMIC数据 ===
# 下载COSMIC数据后的常用操作

# 统计最常突变的基因
cut -f1 CosmicMutantExport.tsv | sort | uniq -c | sort -rn | head -20

# 提取特定癌种的突变
grep "breast" CosmicMutantExport.tsv > breast_mutations.tsv

# 提取特定基因的突变
grep "^TP53" CosmicMutantExport.tsv > tp53_mutations.tsv

# 统计突变类型分布
awk -F'\t' '{print $19}' CosmicMutantExport.tsv | sort | uniq -c | sort -rn

四、COSMIC与TCGA/ClinVar的联合使用

# === 整合COSMIC和TCGA突变数据 ===
library(maftools)

# 读取TCGA MAF
tcga_maf <- read.maf("TCGA_BRCA.maf")

# 查看哪些突变也存在于COSMIC中
# MAF文件通常包含COSMIC注释列
cosmic_annotated <- tcga_maf@data[!is.na(tcga_maf@data$COSMIC_ID), ]
print(paste("COSMIC注释的突变数:", nrow(cosmic_annotated)))

# 提取CGC基因的突变
cgc_genes <- read.csv("Census_allThu.csv")$Gene.Symbol   # CGC基因列表
cgc_mutations <- subsetMaf(tcga_maf, genes=cgc_genes)     # 筛选CGC基因
oncoplot(cgc_mutations, top=20)                            # 绘制OncoPrint

五、面试高频考点

Q1: 驱动突变和乘客突变怎么区分?

  • 驱动突变:促进癌症发生的关键突变,通常在多个癌种/患者中反复出现
  • 乘客突变:随机产生的无功能影响突变,不促进癌症
  • 区分方法:①突变频率(MutSigCV)②功能影响预测(SIFT/PolyPhen)③CGC基因列表④突变热点
  • 白话:驱动突变=主犯,乘客突变=旁观者

Q2: COSMIC突变特征的生物学意义?

  • 每种致癌因素留下独特的"指纹"(突变模式)
  • 可以推断癌症的病因(如SBS4=吸烟,SBS7=紫外线)
  • 可用于精准治疗(如dMMR特征→免疫治疗敏感)
  • 白话:突变特征就像犯罪现场的"指纹",能追踪"凶手"

Q3: COSMIC和ClinVar的区别?

COSMICClinVar
侧重癌症体细胞突变遗传性/临床变异
突变类型主要是体细胞突变主要是胚系变异
临床意义致癌性/药物敏感性致病性/良性
适用场景肿瘤研究遗传病/临床诊断

常见报错与解决

问题原因解决方案
无法下载数据未注册账户在COSMIC网站免费注册
文件太大打不开COSMIC全库很大按需下载特定癌种/基因
突变ID不匹配COSMIC版本不一致使用统一版本(如v99)
突变特征分解失败突变数太少至少需要50个体细胞突变

速查表

# === COSMIC资源速查 ===
# 官网: https://cancer.sanger.ac.uk/cosmic
# 下载: https://cancer.sanger.ac.uk/cosmic/download (需注册)
# CGC: https://cancer.sanger.ac.uk/census
# 突变特征: https://cancer.sanger.ac.uk/signatures/

# 常查的癌种:
# breast(乳腺) | lung(肺) | colon(结肠) | liver(肝)
# stomach(胃) | prostate(前列腺) | skin(皮肤)

# R包: MutationalPatterns, maftools, deconstructSigs
# Python包: SigProfilerMatrixGenerator, SigProfilerExtractor