列线图Nomogram构建¶

一句话概述：列线图（Nomogram）将多因素回归模型可视化为刻度尺形式，医生只需对照刻度打分就能预测患者的生存概率或疾病风险，是临床预测模型的标准展示方式。

核心知识点速览¶

概念	白话解释
Nomogram	把回归模型画成"刻度尺"，对照打分就能预测结果
rms包	Frank Harrell开发的R包，画列线图的"官方工具"（2026 v8.1）
datadist	rms的预处理步骤，提前计算变量的分布特征
lrm()	rms中的逻辑回归函数（对应glm的binomial）
cph()	rms中的Cox回归函数（对应coxph）
C-index	区分度指标，衡量模型能否区分高/低风险个体
校准曲线	检验"预测概率"和"实际概率"是否一致
DCA曲线	决策曲线分析，衡量模型在临床决策中是否有用
内部验证	Bootstrap重抽样验证（同一数据集）
外部验证	在独立数据集上验证（说服力最强）

一、Nomogram原理（白话版）¶

想象你在餐厅点餐，服务员给你一张"热量计算卡"：

  年龄    [---30---40---50---60---70---]  → 对应分数
  性别    [---男(20分)---女(10分)---]     → 对应分数
  吸烟    [---是(30分)---否(0分)---]      → 对应分数
  ─────────────────────────────────────
  总分    [---0---20---40---60---80---100---]
  ─────────────────────────────────────
  5年生存率  [---90%---70%---50%---30%---10%---]

把每个指标的分数加起来 → 对照总分 → 直接读出预测结果
这就是列线图！把复杂的数学模型变成了直观的查表工具。

二、完整构建流程¶

2.1 安装和加载¶

# 安装rms包（2026版 v8.1-1）
install.packages("rms")        # 安装rms
install.packages("survival")   # 安装survival
install.packages("ggplot2")    # 安装ggplot2

library(rms)        # 加载rms（列线图核心）
library(survival)   # 生存分析
library(ggplot2)    # 画图

2.2 数据准备和datadist¶

# 读取临床数据
clinical <- read.csv("clinical_data.csv")

# ===== 关键步骤：设置datadist =====
# rms要求提前计算变量的分布信息
# 必须在建模之前运行！
dd <- datadist(clinical)     # 计算所有变量的分布
options(datadist = "dd")     # 设置为全局选项

# 如果忘记这一步，后续nomogram()会报错！

2.3 构建Logistic回归列线图¶

# ===== 场景1：预测疾病概率（二分类） =====

# 用rms的lrm()拟合逻辑回归（不是glm！）
fit_lrm <- lrm(
  disease ~ age + sex + smoking + bmi + gene_score,  # 公式
  data = clinical,   # 数据
  x = TRUE,          # 保存x矩阵（验证时需要）
  y = TRUE           # 保存y向量
)
print(fit_lrm)  # 查看模型摘要（含C-index）

# 画列线图
nom <- nomogram(
  fit_lrm,                           # 拟合的模型
  fun = plogis,                       # 概率转换函数
  fun.at = c(0.01, 0.1, 0.3, 0.5, 0.7, 0.9, 0.99),  # 概率刻度
  funlabel = "Disease Probability",   # 底部标签
  lp = TRUE                           # 显示线性预测值
)
plot(nom)  # 画出列线图

2.4 构建Cox回归列线图（生存分析）¶

# ===== 场景2：预测生存概率（最常用） =====

# 用rms的cph()拟合Cox回归（不是coxph！）
fit_cox <- cph(
  Surv(time, status) ~ age + sex + stage + gene_score,  # 公式
  data = clinical,
  x = TRUE,          # 保存x矩阵
  y = TRUE,          # 保存y向量
  surv = TRUE,       # 计算生存函数
  time.inc = 365 * 3  # 预测时间点（3年=365*3天）
)
print(fit_cox)  # 查看模型

# 定义生存概率函数
surv_3yr <- Survival(fit_cox)  # 3年生存概率
surv_5yr <- Survival(fit_cox)  # 5年生存概率

# 画列线图
nom_cox <- nomogram(
  fit_cox,
  fun = list(
    function(x) surv_3yr(365 * 3, x),   # 3年生存概率
    function(x) surv_5yr(365 * 5, x)    # 5年生存概率
  ),
  fun.at = c(0.1, 0.3, 0.5, 0.7, 0.9),  # 概率刻度
  funlabel = c("3-Year Survival", "5-Year Survival"),  # 标签
  lp = FALSE  # 不显示线性预测值
)
plot(nom_cox, xfrac = 0.3)  # xfrac调整文字位置

三、模型验证¶

3.1 区分度验证（C-index / AUC）¶

# ===== C-index（Cox回归的区分度） =====
# C-index已包含在cph()的输出中
fit_cox  # 查看Dxy，C-index = 0.5 + Dxy/2

# 用rcorr.cens计算
predicted <- predict(fit_cox, type = "lp")  # 线性预测值
c_index <- rcorr.cens(-predicted, Surv(clinical$time, clinical$status))
cat("C-index:", c_index["C Index"], "\n")

# ===== AUC（Logistic回归的区分度） =====
library(pROC)
pred_prob <- predict(fit_lrm, type = "fitted")  # 预测概率
roc_obj <- roc(clinical$disease, pred_prob)      # 计算ROC
auc(roc_obj)  # 查看AUC
plot(roc_obj, print.auc = TRUE)  # 画ROC曲线

3.2 校准曲线（Calibration）¶

# ===== 内部校准（Bootstrap） =====
# Logistic回归校准
cal_lrm <- calibrate(fit_lrm, B = 1000, method = "boot")  # Bootstrap 1000次
plot(cal_lrm,                    # 画校准曲线
     xlab = "Predicted Probability",
     ylab = "Actual Probability",
     main = "Calibration Curve")
# 对角线 = 完美校准
# 实际曲线越接近对角线越好

# Cox回归校准（3年）
cal_cox <- calibrate(fit_cox, u = 365 * 3, B = 1000, cmethod = "KM")
plot(cal_cox,
     xlab = "Predicted 3-Year Survival",
     ylab = "Actual 3-Year Survival")

3.3 决策曲线分析（DCA）¶

# 安装DCA相关包
install.packages("ggDCA")  # 或用 rmda 包
library(ggDCA)

# 画DCA曲线
dca_result <- dca(fit_lrm)  # 计算DCA
ggplot(dca_result)           # 画图

# DCA解读：
# X轴 = 阈值概率（Threshold Probability）
# Y轴 = 净获益（Net Benefit）
# 模型线在 "All" 和 "None" 之上 = 模型有临床价值
# "All" = 所有人都治疗
# "None" = 所有人都不治疗

3.4 内部验证（Bootstrap）¶

# Bootstrap内部验证
val <- validate(fit_cox, B = 1000, method = "boot")  # Bootstrap 1000次
print(val)

# 结果解读
# index.orig = 原始数据上的指标
# training   = 训练集指标
# test       = 测试集指标
# optimism   = 过拟合程度（越小越好）
# index.corrected = 校正后指标（报告这个）

四、外部验证¶

# 在独立验证集上验证模型
external_data <- read.csv("external_cohort.csv")  # 读取外部数据

# 用训练集模型预测外部数据
pred_external <- predict(fit_cox, newdata = external_data, type = "lp")

# 计算外部验证C-index
c_ext <- rcorr.cens(-pred_external,
                     Surv(external_data$time, external_data$status))
cat("外部验证 C-index:", c_ext["C Index"], "\n")

# 画外部验证校准曲线
# 需要手动计算预测值vs实际值
library(riskRegression)
# 或使用timeROC包计算时间依赖AUC

五、发文章标准流程¶

临床预测模型论文的"标配"六件套：

1. 列线图（Nomogram）    → 展示模型
2. ROC曲线/C-index       → 区分度
3. 校准曲线             → 校准度
4. DCA曲线              → 临床有用性
5. 内部验证（Bootstrap） → 模型稳定性
6. 外部验证             → 泛化能力

完整论文通常需要 Figure 1-4 + 补充材料

常见报错与解决¶

报错信息	原因	解决方案
`datadist not defined`	没运行datadist()	先运行dd <- datadist(data); options(datadist="dd")
`fit did not store x, y`	lrm/cph没设x=TRUE, y=TRUE	重新拟合，加上x=TRUE, y=TRUE
`Predicted values out of range`	数据范围超出训练集	检查外部数据是否合理
`Error in nomogram: fun`	生存函数定义错误	检查Survival()和时间单位
`calibrate: u must be specified`	Cox模型校准需要指定时间	加上u=365*3（3年）
`Error in val.prob`	预测值和实际值维度不匹配	检查输入向量长度

速查表¶

# 列线图构建三步走
datadist() → lrm()/cph() → nomogram() → plot()

# 模型验证四件套
C-index/AUC → 校准曲线 → DCA → Bootstrap验证

# rms核心函数
datadist()   — 计算变量分布（必须先运行）
lrm()        — 逻辑回归
cph()        — Cox回归
nomogram()   — 画列线图
calibrate()  — 校准曲线
validate()   — Bootstrap验证
Survival()   — 生存概率函数

# C-index解读
0.5: 随机（没有区分能力）
0.6-0.7: 较差
0.7-0.8: 中等
0.8-0.9: 良好
>0.9: 优秀

# 注意事项
rms的lrm() ≠ base R的glm()
rms的cph() ≠ survival的coxph()
必须用rms的函数才能画nomogram！

面试高频问题¶

Q1：列线图的原理是什么？¶

答：列线图本质上是回归模型的图形化表示。每个变量对应一个刻度尺，刻度长度和间距由回归系数决定。使用时，在每个变量的刻度上找到患者的值，向上对应到"分数"刻度得到该变量的分数，所有分数相加得到总分，再从总分对应到底部的预测概率刻度读出结果。好处是不需要计算器就能快速做个体化预测。

Q2：如何评价一个预测模型的好坏？¶

答：主要从三个维度评价：①区分度（Discrimination）——C-index或AUC，衡量模型区分高/低风险的能力；②校准度（Calibration）——校准曲线，检查预测概率和实际概率是否一致；③临床有用性（Clinical Utility）——DCA决策曲线，看模型是否能指导临床决策。三者缺一不可，AUC高但校准差的模型反而有害。

Q3：内部验证和外部验证有什么区别？¶

答：内部验证是在同一数据集上用Bootstrap重抽样或交叉验证评估模型的过拟合程度和稳定性。外部验证是在完全独立的数据集（不同机构、不同时间段的患者）上验证模型的泛化能力。外部验证的说服力远强于内部验证，是模型走向临床应用的必要条件。好的论文至少要有一个外部验证队列。

Q4：为什么要用rms包而不是直接用glm/coxph？¶

答：rms包是专门为临床预测模型设计的"全家桶"：①lrm()/cph()直接输出C-index；②nomogram()一行代码画列线图；③calibrate()画校准曲线；④validate()做Bootstrap验证。用base R的glm/coxph也能做，但需要大量额外代码，且不直接支持nomogram。rms是Frank Harrell（临床预测模型领域权威）开发的，方法论最正统。

Q5：DCA曲线怎么解读？¶

答：DCA的X轴是阈值概率（医生愿意为多大概率的患者采取治疗），Y轴是净获益。图中有三条参考线：①"None"——不治任何人（净获益=0）；②"All"——治疗所有人；③模型曲线。如果模型曲线在某个阈值范围内高于"None"和"All"，说明用这个模型在该范围内做决策比"全治"或"全不治"都好，模型有临床应用价值。