COSMIC肿瘤突变数据库
一句话概述:COSMIC(Catalogue Of Somatic Mutations In Cancer)是全球最大的体细胞突变数据库,收录了数百万个来自人类癌症的体细胞突变,包含突变频率、功能影响、突变特征(mutational signatures)等信息。
核心知识点速查表
| 概念 | 说明 |
|---|
| COSMIC | 癌症体细胞突变目录(白话:癌症"犯罪档案"数据库) |
| 体细胞突变 | 后天获得的突变(非遗传),癌症的驱动力 |
| 驱动突变 | 促进癌症发生发展的关键突变 |
| 乘客突变 | 无功能影响的随机突变 |
| CGC | Cancer Gene Census,COSMIC收录的癌症基因列表 |
| 突变特征 | Mutational Signatures,不同致癌因素留下的突变模式 |
| COSMIC ID | 如COSV00001234,突变的唯一标识 |
| Tier 1/2 | CGC基因的证据等级(Tier1最可靠) |
一、COSMIC数据库使用
1.1 网页查询
# === COSMIC官网 ===
# 访问: https://cancer.sanger.ac.uk/cosmic
# 注册:需要免费注册账户才能下载数据
# 查询方式:
# 1. 基因搜索:输入基因名(如TP53),查看该基因在各癌种中的突变谱
# 2. 突变搜索:输入突变位置(如chr17:7577120),查看具体突变
# 3. 癌种搜索:选择癌症类型,查看该癌种的突变全景
# 4. 突变特征:查看不同癌种的突变特征谱
# 下载数据(需要注册):
# https://cancer.sanger.ac.uk/cosmic/download
# 主要数据文件:
# - CosmicMutantExport.tsv : 所有体细胞突变
# - CosmicCGC.tsv : 癌症基因普查列表
# - CosmicCLP.tsv : 细胞系数据
1.2 CGC(Cancer Gene Census)
# === 查询COSMIC CGC癌症基因列表 ===
import pandas as pd
# 读取CGC文件(从COSMIC网站下载)
cgc = pd.read_csv("Census_allThu.csv") # 读取CGC数据
# 查看CGC结构
print(f"总共 {len(cgc)} 个癌症基因")
print(cgc.columns.tolist())
# 按Tier筛选
tier1 = cgc[cgc['Tier'] == 1] # Tier 1:高可信
tier2 = cgc[cgc['Tier'] == 2] # Tier 2:较可信
print(f"Tier 1: {len(tier1)} 个基因")
print(f"Tier 2: {len(tier2)} 个基因")
# 按角色分类
oncogenes = cgc[cgc['Role in Cancer'].str.contains('oncogene', na=False)] # 癌基因
tsg = cgc[cgc['Role in Cancer'].str.contains('TSG', na=False)] # 抑癌基因
print(f"癌基因: {len(oncogenes)}个")
print(f"抑癌基因: {len(tsg)}个")
# 按突变类型分类
print(cgc['Mutation Types'].value_counts().head(10)) # 常见突变类型
二、突变特征分析(Mutational Signatures)
# === 使用MutationalPatterns分析突变特征 ===
# BiocManager::install("MutationalPatterns")
library(MutationalPatterns)
# 读取VCF文件
vcf_files <- list.files("vcf_dir/", pattern=".vcf$", full.names=TRUE)
sample_names <- gsub(".vcf$", "", basename(vcf_files))
# 加载参考基因组
ref_genome <- "BSgenome.Hsapiens.UCSC.hg38"
library(ref_genome, character.only=TRUE)
# 读取突变
grl <- read_vcfs_as_granges(
vcf_files, # VCF文件列表
sample_names, # 样本名
ref_genome # 参考基因组
)
# 构建突变矩阵(96种三核苷酸替换类型)
mut_mat <- mut_matrix(grl, ref_genome=get(ref_genome)) # 96种突变类型
# 从COSMIC v3.4获取参考突变特征
cosmic_sigs <- get_known_signatures(
source = "COSMIC", # 数据来源COSMIC
muttype = "snv" # 单核苷酸变异
)
# 特征分解(找到每个样本中的突变特征组成)
fit <- fit_to_signatures(
mut_mat, # 突变矩阵
cosmic_sigs # COSMIC参考特征
)
# 可视化
plot_contribution(fit$contribution, coord_flip=TRUE) # 贡献图
plot_96_profile(mut_mat[, 1]) # 96型突变谱图
常见COSMIC突变特征
| 特征 | 关联病因 | 特点 |
|---|
| SBS1 | 年龄相关(5-mC脱氨) | C>T在CpG位点 |
| SBS2/13 | APOBEC酶活性 | C>T和C>G |
| SBS4 | 吸烟 | C>A为主 |
| SBS6/15/20 | DNA错配修复缺陷(dMMR) | 多种替换 |
| SBS7a/b | 紫外线损伤 | CC>TT |
| SBS22 | 马兜铃酸 | T>A |
三、COSMIC API使用
# === COSMIC API查询 ===
import requests
# 注意:COSMIC v4 API需要注册获取token
# 基础URL
base_url = "https://cancer.sanger.ac.uk/cosmic/search"
# 查询基因突变信息(网页方式)
# https://cancer.sanger.ac.uk/cosmic/gene/analysis?ln=TP53
# 使用CosmicDB Python包(非官方但方便)
# pip install cosmicdb (如果可用)
# === 命令行处理COSMIC数据 ===
# 下载COSMIC数据后的常用操作
# 统计最常突变的基因
cut -f1 CosmicMutantExport.tsv | sort | uniq -c | sort -rn | head -20
# 提取特定癌种的突变
grep "breast" CosmicMutantExport.tsv > breast_mutations.tsv
# 提取特定基因的突变
grep "^TP53" CosmicMutantExport.tsv > tp53_mutations.tsv
# 统计突变类型分布
awk -F'\t' '{print $19}' CosmicMutantExport.tsv | sort | uniq -c | sort -rn
四、COSMIC与TCGA/ClinVar的联合使用
# === 整合COSMIC和TCGA突变数据 ===
library(maftools)
# 读取TCGA MAF
tcga_maf <- read.maf("TCGA_BRCA.maf")
# 查看哪些突变也存在于COSMIC中
# MAF文件通常包含COSMIC注释列
cosmic_annotated <- tcga_maf@data[!is.na(tcga_maf@data$COSMIC_ID), ]
print(paste("COSMIC注释的突变数:", nrow(cosmic_annotated)))
# 提取CGC基因的突变
cgc_genes <- read.csv("Census_allThu.csv")$Gene.Symbol # CGC基因列表
cgc_mutations <- subsetMaf(tcga_maf, genes=cgc_genes) # 筛选CGC基因
oncoplot(cgc_mutations, top=20) # 绘制OncoPrint
五、面试高频考点
Q1: 驱动突变和乘客突变怎么区分?
- 驱动突变:促进癌症发生的关键突变,通常在多个癌种/患者中反复出现
- 乘客突变:随机产生的无功能影响突变,不促进癌症
- 区分方法:①突变频率(MutSigCV)②功能影响预测(SIFT/PolyPhen)③CGC基因列表④突变热点
- 白话:驱动突变=主犯,乘客突变=旁观者
Q2: COSMIC突变特征的生物学意义?
- 每种致癌因素留下独特的"指纹"(突变模式)
- 可以推断癌症的病因(如SBS4=吸烟,SBS7=紫外线)
- 可用于精准治疗(如dMMR特征→免疫治疗敏感)
- 白话:突变特征就像犯罪现场的"指纹",能追踪"凶手"
Q3: COSMIC和ClinVar的区别?
| COSMIC | ClinVar |
|---|
| 侧重 | 癌症体细胞突变 | 遗传性/临床变异 |
| 突变类型 | 主要是体细胞突变 | 主要是胚系变异 |
| 临床意义 | 致癌性/药物敏感性 | 致病性/良性 |
| 适用场景 | 肿瘤研究 | 遗传病/临床诊断 |
常见报错与解决
| 问题 | 原因 | 解决方案 |
|---|
| 无法下载数据 | 未注册账户 | 在COSMIC网站免费注册 |
| 文件太大打不开 | COSMIC全库很大 | 按需下载特定癌种/基因 |
| 突变ID不匹配 | COSMIC版本不一致 | 使用统一版本(如v99) |
| 突变特征分解失败 | 突变数太少 | 至少需要50个体细胞突变 |
速查表
# === COSMIC资源速查 ===
# 官网: https://cancer.sanger.ac.uk/cosmic
# 下载: https://cancer.sanger.ac.uk/cosmic/download (需注册)
# CGC: https://cancer.sanger.ac.uk/census
# 突变特征: https://cancer.sanger.ac.uk/signatures/
# 常查的癌种:
# breast(乳腺) | lung(肺) | colon(结肠) | liver(肝)
# stomach(胃) | prostate(前列腺) | skin(皮肤)
# R包: MutationalPatterns, maftools, deconstructSigs
# Python包: SigProfilerMatrixGenerator, SigProfilerExtractor