肿瘤预后模型构建与验证¶

一句话说明¶

用基因表达、突变等分子数据构建数学模型来预测肿瘤患者的生存结局，核心是 Cox 回归 + LASSO 筛选变量，然后在独立队列中验证模型的预测能力。

核心知识点¶

1. 预后模型基本流程¶

特征筛选 → 模型构建 → 内部验证 → 外部验证 → 临床应用

2. 常用建模方法¶

方法	特点	适用场景
Cox 回归	经典生存分析模型	标准预后模型
LASSO-Cox	L1 正则化Cox，自动选变量	高维数据（基因表达）
RSF（随机生存森林）	非线性，不需假设	复杂非线性关系
DeepSurv	深度学习生存模型	大样本、复杂特征

3. 模型评估指标¶

C-index（一致性指数）：类似 AUC，衡量模型排序能力（>0.7 算可用）
时间依赖 ROC/AUC：特定时间点的预测能力（如 1/3/5 年）
校准曲线：预测概率 vs 实际概率的一致性
风险评分：将患者分为高/低风险组，画 Kaplan-Meier 曲线

4. 验证策略¶

内部验证：交叉验证 / Bootstrap（训练集内）
外部验证：在独立数据集上验证（最重要！如 TCGA 建模 → GEO 验证）
多中心验证：多个机构的数据验证

实战代码¶

# === LASSO-Cox 预后模型完整流程 ===
library(glmnet)                        # LASSO/弹性网络
library(survival)                      # 生存分析
library(survminer)                     # 生存曲线可视化
library(timeROC)                       # 时间依赖ROC

# 1. 准备数据
expr <- read.table("expression_tpm.txt",  # 表达矩阵
                   header = TRUE, row.names = 1)
clinical <- read.csv("clinical.csv")   # 临床信息
# 确保样本匹配
common <- intersect(colnames(expr), clinical$sample_id)
expr <- expr[, common]                 # 子集表达
clinical <- clinical[clinical$sample_id %in% common, ]

# 2. 特征预筛选（单因素Cox过滤）
genes <- rownames(expr)                # 所有基因
uni_results <- data.frame(             # 单因素结果
  gene = character(), pvalue = numeric(), HR = numeric()
)

for (gene in genes) {                  # 遍历每个基因
  gene_expr <- as.numeric(expr[gene, ])  # 该基因表达量
  surv_obj <- Surv(clinical$OS_time, clinical$OS_status)  # 生存对象
  fit <- coxph(surv_obj ~ gene_expr)   # 单因素Cox
  p <- summary(fit)$coefficients[, 5]  # p值
  hr <- summary(fit)$coefficients[, 2] # HR
  uni_results <- rbind(uni_results,
    data.frame(gene = gene, pvalue = p, HR = hr))
}

# 筛选 p < 0.05 的基因进入 LASSO
sig_genes <- uni_results$gene[uni_results$pvalue < 0.05]
cat("单因素显著基因数:", length(sig_genes), "\n")

# 3. LASSO-Cox 变量选择
x <- t(expr[sig_genes, ])              # 转置为 样本×基因
y <- Surv(clinical$OS_time, clinical$OS_status)  # 生存数据

# 10折交叉验证选择最优lambda
set.seed(42)                           # 固定随机种子
cv_fit <- cv.glmnet(                   # 交叉验证
  x = as.matrix(x), y = y,            # 输入
  family = "cox",                      # Cox模型
  alpha = 1,                           # LASSO (alpha=1)
  nfolds = 10                          # 10折
)

plot(cv_fit)                           # 绘制lambda-偏差曲线
best_lambda <- cv_fit$lambda.min       # 最优lambda

# 提取选中的基因
coef_matrix <- coef(cv_fit, s = best_lambda)  # 系数
selected <- rownames(coef_matrix)[coef_matrix[, 1] != 0]
cat("LASSO选中基因数:", length(selected), "\n")
cat("基因:", paste(selected, collapse = ", "), "\n")

# 4. 构建最终模型（多因素Cox）
model_data <- data.frame(              # 建模数据
  time = clinical$OS_time,             # 生存时间
  status = clinical$OS_status,         # 生存状态
  t(expr[selected, ])                  # 选中基因表达
)
final_model <- coxph(                  # 多因素Cox
  Surv(time, status) ~ .,             # 所有变量
  data = model_data
)
summary(final_model)                   # 查看模型

# 5. 计算风险评分
risk_score <- predict(final_model,     # 预测
                      type = "lp")     # 线性预测值
model_data$risk <- ifelse(             # 分组
  risk_score > median(risk_score),     # 高于中位数
  "High", "Low")

# 6. Kaplan-Meier 可视化
km_fit <- survfit(Surv(time, status) ~ risk,
                  data = model_data)   # KM拟合
ggsurvplot(km_fit,                     # KM曲线
           pval = TRUE,               # 显示p值
           risk.table = TRUE,          # 风险表
           palette = c("red", "blue")) # 颜色

# 7. 时间依赖 ROC
roc <- timeROC(T = model_data$time,    # 生存时间
               delta = model_data$status,  # 事件状态
               marker = risk_score,    # 风险评分
               times = c(365, 1095, 1825),  # 1/3/5年
               cause = 1)
plot(roc, time = 1095)                 # 3年ROC曲线
cat("1年AUC:", roc$AUC[1], "\n")
cat("3年AUC:", roc$AUC[2], "\n")
cat("5年AUC:", roc$AUC[3], "\n")

面试常问点¶

★ 构建预后模型时最重要的注意事项是什么？¶

参考答案：最重要的是避免过拟合和确保外部验证。具体来说：(1) 训练集和验证集必须严格分开，不能用验证集的信息指导特征选择；(2) 变量数不能太多，样本量/事件数与变量数的比例至少 10:1（如 100 个死亡事件最多用 10 个变量）；(3) 使用正则化方法（如 LASSO）自动控制变量数；(4) 内部验证用 Bootstrap 或重复交叉验证评估泛化能力；(5) 最终必须在完全独立的外部队列中验证，C-index 和 AUC 不能下降太多。

★ C-index 和 AUC 有什么区别？¶

参考答案：C-index（concordance index）是生存分析中衡量模型区分能力的指标，考虑了删失数据。它的含义是：随机选两个患者，模型预测的风险高的那个确实先发生事件的概率。AUC 是分类问题中的指标，不考虑时间信息。时间依赖 ROC/AUC（timeROC）是两者的结合——在特定时间点（如 3 年）评估模型的预测能力。C-index 评估整体排序能力，timeROC 评估特定时间点的分类能力。

速查卡片¶

问题	答案
标准方法	LASSO-Cox 回归
C-index 阈值	>0.7 可用，>0.8 较好
变量选择	单因素筛选 → LASSO
内部验证	Bootstrap / 10折CV
外部验证	独立队列（必须）
校准曲线	预测vs实际概率一致性
KM 分析	高/低风险分组生存曲线
R 工具	glmnet, survival, survminer
样本量规则	事件数/变量数 >= 10
Nomogram	列线图，可视化风险预测