可解释机器学习模型预测恶性肿瘤合并急性呼吸衰竭患者预后:基于美国eICU协作研究数据库

急性呼吸衰竭(ARF)是一种以低氧血症和/或高碳酸血症为主要特征的临床综合征,在重症监护病房(ICU)患者中极为常见。数据显示,52.9%的ICU患者在转入ICU 24 h内发生或发展为ARF,该综合征可显著增加患者死亡风险(死亡率高达35%~46%)[1]。ARF发生原因具有多样性,既可源于肺部因素(如误吸和肺炎),也可由非肺部因素所引发(如脓毒症、胰腺炎和药物毒性)[1-2]。
随着疾病谱的改变,恶性肿瘤的发病率和死亡率持续攀升。据国家癌症中心统计,我国癌症发病率为341.75/10万,死亡率为182.34/10万,造成了沉重的疾病负担[3]。
恶性肿瘤患者因疾病及治疗所致的免疫抑制状态,更易引发感染并导致ARF。流行病学数据显示,高达50%的血液病患者(常见于急性髓系白血病或异基因造血干细胞移植患者)和15%的实体肿瘤患者(多见于肺癌)会出现不同程度的ARF[4]。
ARF的出现一方面可直接加重恶性肿瘤患者病情,另一方面通过延迟抗肿瘤治疗,进一步导致患者预后不良。因此,建立针对此类患者预后风险的预测模型,有助于早期识别高危人群并实施针对性干预。
随着重症医学的发展,越来越多的研究基于大规模电子病历数据构建疾病预后的预测模型[5]。在方法学层面,机器学习凭借其出色的大规模数据处理能力,在危重症患者预后模型的建立中展现出巨大优势。但此类模型存在“黑匣子”问题,即相比传统模型可解释性较差。
为解决上述局限性,Shapley加性解释(SHAP)分析技术应运而生。该方法基于博弈论原理,可从全局和局部2个层面对机器学习模型进行解释,有效增强模型的可信度和临床适用性[6]。本研究基于国际权威数据库,采用机器学习方法建立恶性肿瘤合并 ARF患者预后风险预测模型,并通过SHAP技术对模型进行可解释性分析。
1 资料与方法
1.1研究对象
本研究数据来源于美国急诊重症监护病房(eICU)协作研究数据库(eICU-CRD)。该数据库为公开的多中心ICU数据库,包含2014—2015年间美国超过20万例ICU患者的脱敏数据,其研究价值在既往研究中已得到广泛验证[7]。本研究成员已完成合作机构培训计划项目认证(证书号:46212703),并获得eICU-CRD使用权限。
纳入标准:(1)根据国际疾病分类第九版编码,疾病诊断中同时包含恶性肿瘤和ARF;(2)首次转入ICU。
排除标准:(1)年龄<18岁;(2)临床资料缺失率超过30%的患者。
将入组患者按7:3的比例随机分为训练集和验证集。其中训练集用于模型构建,验证集用于模型评价。
1.2 方法
1.2.1 数据提取和研究结局设定
基于临床实践和既往文献回顾,采用Navicat Premium软件提取ICU常规检测且与危重症患者预后密切相关的指标,具体包括:
1人口统计学特征:如性别、年龄、种族等;
2转入ICU后首个24 h内的生命体征:如体温、呼吸频率、平均动脉压等;
3转入ICU后首个24 h内的实验室检测指标,如血常规、电解质等;
4合并症:如高血压、糖尿病、心力衰竭及脓毒症等;
5转入ICU 24 h内实施的重要干预措施,如机械通气、镇静与血管活性药物等。研究结局为患者在ICU死亡。
1.2.2 数据预处理
使用R语言4.5.1版本对缺失值、异常值、低方差变量及多重共线性问题进行处理。首先,对于缺失率低于30%的变量,采用K近邻插补法进行填补[8]。其次,对异常值进行缩尾处理:将大于99百分位数的值替换为99百分位数,将小于1百分位数的值替换为1百分位数,并剔除零方差及近似零方差变量。最后,通过多重共线性检验,确保保留变量之间不存在高度相关性。
1.2.3 变量筛选
为防止模型过拟合现象并降低模型复杂度,采用最小绝对收缩和选择算子(LASSO)回归法进行变量筛选[9]。该方法通过对回归系数施加L1惩罚,自动将不显著变量的系数压缩至零,从而实现特征选择与正则化的双重目标,不仅提升了模型的泛化能力,也有助于提取最具预测价值的变量合集。具体操作过程中,基于LASSO回归,采用一个标准差准则选取λ值,并以此筛选出关键变量子集,用于后续建模分析。该策略可在保持模型解释力的同时,进一步优化模型的简洁性与泛化性能。
1.2.4 模型构建与评价
选取极端梯度提升(XGBoost)、支持向量机(SVM)、Logistic回归(LR)、多层感知器(MLP)及C5.0决策树5种机器学习方法进行模型开发和评价。首先,对训练集与验证集中的分类变量进行因子化处理,以确保其适用于模型训练。随后,采用网格搜索策略结合10折交叉验证对各模型进行超参数调优。该方法通过在训练数据内部多次执行训练-验证循环,确保所选参数组合既能充分拟合训练数据,又具备良好的泛化潜力。
模型性能以受试者工作特征曲线下面积(AUC)为主要评价指标,同时辅以准确率、灵敏度、特异度、阳性预测值(PPV)、阴性预测值(NPV)、F1分数及Brier分数等综合指标进行评估。最终,通过比较各模型在独立验证集上的区分度和校准度,筛选出预测性能最优的模型。
1.2.5 敏感性分析
敏感性分析可评估数据缺失处理对模型性能及稳定性造成的潜在影响。方法如下:从原始数据集中剔除所有存在任一变量缺失值的样本,构建完整病例数据集。在该数据集上,采用与主要分析相同的预测变量和机器学习算法,评估本研究主要结论的稳健性。
1.2.6 可解释性分析
在模型可解释性分析部分,本研究采用SHAP框架对最优模型进行解释。该方法可从全局与局部两个层面量化各特征对模型预测结果的贡献度。在全局层面,通过特征重要性条形图和SHAP值分布蜂窝图,呈现特征的整体影响模式;在局部层面,随机选取代表性样本,借助SHAP力图可视化各特征对个体预测结果的具体影响方向及其程度。
1.2.7 模型可视化
为进一步提升模型的临床适用性与使用便捷性,本研究基于性能最优的预测模型开发了一款网页版风险计算器。该计算器采用R Shiny框架构建,用户可通过友好的交互界面输入相关临床参数,实时获取个体风险预测结果及可视化展示。计算器不仅直观呈现各特征对预测结果的贡献度,还提供明确的风险分层与临床决策建议,从而辅助医护人员快速、准确地进行风险评估与临床决策。
1.3统计学处理
采用R 4.5.1软件进行统计学处理。偏态分布计量资料以中位数(四分位数)表示,组间比较采用Mann-Whitney U 检验;分类变量以频数(百分数)表示,并根据情况采用卡方检验或Fisher精确概率法进行组间比较。以P<0.05为差异具有统计学意义。
2 结果
2.1一般临床资料
检索eICU-CRD共发现27 589例ARF患者,经筛选最终纳入恶性肿瘤合并ARF患者3196例。其中训练集2261例、验证集935例。转入ICU期间死亡683例,存活2513例。研究对象入选流程见图1。训练集和验证集基线特征描述性统计见附表1。

图1 患者筛选流程图
ARF:急性呼吸衰竭;ICU:重症监护病房
死亡组与存活组患者多项基线资料存在统计学差异。具体表现为:死亡组患者接受机械通气、镇静药、胰岛素及血管活性药物治疗的比例更高(P均<0.05),同时其脓毒症与房颤的发生率也显著升高(P均<0.05),合并高血压、心力衰竭及冠状动脉性心脏病的比例更低(P均<0.05)。
在生命体征方面,死亡组患者的平均动脉压最小值、心率最大值、体温最小值、呼吸频率最大值及血氧饱和度最小值等关键指标均较存活组更差(P均<0.05)。
实验室检测结果显示,死亡组患者的肾功能(肌酐、尿素氮)、血气(碳酸氢盐)、血常规(白细胞、血红蛋白、血细胞比容、血小板)及电解质(血钙、血钾)等多项指标呈现出更显著的异常(P均<0.05)。
总体而言,死亡组患者表现出更严重的脏器功能损伤和代谢紊乱状态,这些特征与不良预后密切相关(表1)。
表1 死亡组和存活组基线特征比较



2.2变量筛选
采用 LASSO回归对候选变量进行筛选。系数路径图(图2A)显示,随着惩罚参数 λ 的逐渐增大,大部分变量的系数逐渐收缩至零,仅有少数变量在较大 λ 的情况下仍保持非零系数。通过 10 折交叉验证(图2B)确定最优 λ 值,并依据“1个标准差法则”选定最终模型,从而获得一个结构简化且稳健的预测变量集。

图2 最小绝对收缩和选择算子回归筛选变量示意图
A.系数路径图;B.10 折交叉验证图
最终筛选出 12 个与患者ICU预后密切相关的变量,包括:是否合并脓毒症,是否使用血管活性药物,转入ICU首个24 h内的平均动脉压最小值、心率最大值、呼吸频率最大值、血氧饱和度最小值、血碳酸氢盐最小值、血尿素氮最小值、白细胞计数最大值、红细胞平均体积最大值、血钾最大值及血糖最大值。在 LASSO 回归的变量收缩过程中,上述变量始终保持非零系数,表明其在 ICU 预后预测模型中具有重要的解释价值与临床意义。
2.3模型构建与评价
采用5种机器学习进行模型构建。图3为各模型在训练集和验证集识别ICU死亡人群的ROC曲线,表2为评价指标汇总结果。

图3 5种模型预测恶性肿瘤合并ARF患者ICU死亡的ROC曲线
A.训练集;B.验证集
LR:Logistic回归;MLP:多层感知器;SVM:支持向量机;XGBoost:极端梯度提升;ROC:操作者工作特征
表2 不同预测模型在训练集和验证集中的性能评价指标

综合模型性能评估结果,XGBoost在训练集与验证集上均展现出最优的综合表现,可被视为最佳模型:在训练集中,其AUC值高达0.940,展现出卓越的区分度,Brier分数(0.085)显著低于其他模型,表明概率预测最为准确;同时准确率、灵敏度和特异度等关键指标均最优。虽然在验证集上性能有所回落,但其AUC仍较高(0.763)、Brier分数(0.138)仍较低,且保持了最高的准确率(81.2%)和较高的阳性预测值(0.827),综合泛化能力稳健且可靠。
图4展示了XGBoost模型在验证集中的校准曲线(限于版幅,仅展示验证集中的校准曲线)。

图4 验证集中XGBoost模型预测恶性肿瘤合并ARF患者ICU死亡的校准曲线
结果显示,该模型的预测概率与实际观察风险之间具有良好的一致性。校准曲线紧贴理想曲线分布,表明该模型在恶性肿瘤合并ARF患者ICU死亡风险分层方面具有可靠的校准性能。综合训练集与验证集整体表现,最终确定 XGBoost为最佳预测模型。
2.4敏感性分析
为评估数据缺失处理对模型性能的影响,本研究进行了敏感性分析。从原始数据集中剔除所有存在缺失值的样本后,最终获得包含2587例患者的完整病例数据集。在该数据集上重新评估5种模型的预测性能。结果显示XGBoost仍最优,AUC为0.880,准确率为86.4%,Brier分数为0.100,见表3。
表3 5种模型在完整病例数据集中的性能表现

2.5可解释性分析
在模型解释性分析中,基于训练集数据使用SHAP方法绘制了三类可视化结果。
首先,特征重要性条形图(图5A)示血氧饱和度最小值、血碳酸氢盐最小值、平均动脉压最小值、是否使用血管活性药物及白细胞计数最大值为对模型预测结果贡献居前5位的变量,在恶性肿瘤合并ARF患者ICU死亡风险预测中起关键作用。

图5 XGBoost模型可解释分析SHAP图
A.特征重要性条形图
其次,SHAP分布蜂窝图(图5B)揭示了变量取值与模型预测结果间的关联。图中横轴为SHAP值,纵轴为各预测变量,点的颜色由紫色(低值)渐变为黄色(高值)。变量取值较高时,其对应的SHAP值多呈正向,推动预测结果向“死亡”方向偏移;反之,变量取值较低时,SHAP值多呈负向,推动预测结果向“存活”方向偏移。该模式反映了预测变量与患者预后之间存在的非线性及方向性关系。

图5 XGBoost模型可解释分析SHAP图
B.SHAP分布蜂窝图
最后,单样本SHAP力图进一步展示了个体预测中各特征的贡献分解(图5C)。如图所示,白细胞计数最大值、血碳酸氢盐最小值、平均动脉压最小值以及血氧饱和度最小值是该患者的主要保护因素;而呼吸频率最大值与红细胞平均体积最大值则为其危险因素。整体而言,SHAP分析不仅从全局层面揭示了模型的决策逻辑,也为个体预测结果提供了直观解释,增强了模型的可解释性与临床应用价值。

图5 XGBoost模型可解释分析SHAP图
C. SHAP力图
2.6模型可视化
为促进该模型的临床转化与应用,本研究将模型转化为一个便捷的恶性肿瘤合并ARF患者ICU死亡风险预后风险计算器,链接如下:https://nanzihan1998.shinyapps.io/Prognosis/。
3 讨论
本研究基于eICU-CRD数据库,采用5种机器学习方法构建了恶性肿瘤合并ARF患者ICU死亡风险的预测模型,并采用SHAP算法对最优模型进行解释。结果显示,综合在训练集和验证集中的表现,XGBoost模型的预测性能优于其他模型。在敏感性分析时,XGBoost模型的表现亦最优。可解释性分析显示,血氧饱和度最小值、血碳酸氢盐最小值、平均动脉压最小值、是否使用血管活性药物及白细胞计数最大值为对模型预测结果贡献居前5位的变量。
3.1模型构建和评价
本研究采用LASSO回归法进行预测模型的变量筛选,最终纳入模型的变量包括:是否合并脓毒症,是否使用血管活性药物,转入ICU首个24 h内的平均动脉压最小值、心率最大值、呼吸频率最大值、血氧饱和度最小值、血碳酸氢盐最小值、血尿素氮最小值、白细胞计数最大值、红细胞平均体积最大值、血钾最大值及血糖最大值。
这些指标均为临床常规监测项目,易于获取,具有较强的实用性和临床推广价值。与序贯器官衰竭估计、急性生理学与慢性健康状况评价Ⅱ评分等通用型危重症评价系统相比,本研究构建的模型展现出双重优势。
在性能上,其针对特定人群(恶性肿瘤合并ARF患者),实现了更精准的ICU死亡风险分层;在应用上,模型基于常规易得的临床变量而建立,并通过在线计算器实现了快速、便捷的床旁评估,具有良好的临床转化潜力和实用价值。根据SHAP分析可知,对恶性肿瘤合并ARF患者ICU预后影响最大的指标为血氧饱和度最小值,该指标越低患者ICU死亡风险越高。
ARF患者不可避免地会出现低氧血症,由于肿瘤患者基础状态差,多存在不同程度的肌少症、器官储备功能低下,ARF引发的严重低氧血症可迅速导致难治性多器官功能衰竭,从而加速患者死亡进程[10]。
除血氧饱和度外,本研究发现,碳酸氢盐最小值是影响恶性肿瘤合并ARF患者预后的最重要因素,碳酸氢盐最小值降低与ICU死亡风险增高显著相关。这一发现提示,代谢性酸中毒严重程度可能是评估该类患者病情危重程度和预后风险的一个重要指标。此种情况下的代谢性酸中毒可能是多重因素共同作用的结果,如恶性肿瘤进展导致的乳酸性酸中毒[11-12]、化疗药物损伤肾小管造成肾小管性酸中毒[13]、免疫治疗相关急性肾损伤引起的酸中毒[14]等,提示较低的血碳酸氢盐水平并非为孤立的指标,而是全身性疾病严重程度、多器官功能障碍(特别是循环和肾脏)的综合体现。
除上述因素外,本研究发现平均动脉压最小值、是否使用血管活性药物为影响恶性肿瘤合并ARF患者ICU死亡的重要因素,提示较低的血压和需使用血管活性药物可能与更差的预后相关。究其病理生理机制,恶性肿瘤可导致患者处于免疫抑制状态[15],使机体抗感染、应激和器官损伤的能力急剧下降。在此基础上,ARF可进一步加重呼吸和循环紊乱[16]。
在上述因素的影响下,机体处于高炎症反应、严重低氧血症、高碳酸血症和酸中毒状态,表现为脓毒症休克、循环功能失控,即难以纠正的低血压,此时通常依赖血管活性药物来维持灌注压。此种循环衰竭状态构成连接前序病变与终末结局的核心枢纽,导致全身组织器官灌注不足,进而诱发并加速不可逆的多器官功能衰竭,形成致命性恶性循环,最终使患者出现预后极差的临床结局[17-18]。
白细胞计数升高亦是患者预后更差的危险因素,其机制主要与两方面相关:一是白细胞计数显著升高常提示感染可能[19-20],这在免疫抑制患者中更易引发失控的炎症反应;二是白细胞计数增多为全身性炎症反应的标志,可导致内皮损伤、微循环障碍,加重呼吸衰竭及多器官损伤[21-22]。
3.2模型可解释性分析
既往对危重症患者预后的评估通常依赖临床经验、传统统计学模型或生物标志物[23-24],具有成本高、预测能力差、临床实用性弱的局限性。随着计算机与人工智能技术的迅猛发展,本研究将人工智能领域的核心技术机器学习引入了预测模型的构建。机器学习技术具有强大的数据驱动能力和数据挖掘能力,在处理高维与复杂数据方面展现出巨大优势,其构建的预测模型通常可取得优于传统方法的准确率[25-26]。
然而,此类模型常因决策过程不透明,即长期被诟病的“黑匣子”问题,而在医疗、金融、司法等高风险领域面临可信应用障碍。该问题不仅影响用户对模型输出的理解与信任,还可能掩盖潜在的模型偏差与伦理风险[27]。为提升模型的透明度和决策可理解性,研究者开发了多种可解释性分析算法。例如,SHAP基于合作博弈论量化特征对输出的贡献,能够提供全局与局部两个层面的解释;局部可解释的模型无关解释法(LIME)则通过构建局部替代模型,对单个预测中的特征影响进行近似描述[28]。
本研究采用SHAP技术对最优模型进行可解释性分析,分别从全局与局部两个角度阐释模型行为,从而增强了模型的可信度与说服力。为促进预测模型的临床转化与应用,本研究团队开发了一款在线风险计算器。该工具允许临床医生输入常规监测指标,实时获取患者个体化的死亡风险预测结果。在临床实践中,该计算器可用于早期识别高危患者,从而辅助医护人员优化医疗资源分配、加强监护力度或及时调整治疗方案。例如,针对预测为高风险的患者,可考虑实施更积极的呼吸支持、早期启动抗感染治疗或组织多学科会诊。
本研究存在以下局限性:首先, XGBoost模型表现出一定程度的过拟合现象,这可能是由于在有限样本条件下,复杂模型过度学习了训练数据中的噪声。尽管研究已通过LASSO回归进行变量筛选,并结合交叉验证优化参数以增强模型稳健性,但其在独立数据集上的泛化能力仍有待进一步的外部验证。其次,数据均来源于美国eICU-CRD数据库,尽管其为一个多中心大样本数据库,但模型的跨中心、跨国家及跨人种泛化能力,尤其是在中国患者群体中的表现需进一步探究。最后,当前分析未涵盖一些可能影响患者预后的新型生物标志物,未来研究应考虑纳入更多新兴指标以提升模型的预测效能和临床适用性。
本研究基于eICU-CRD数据库,利用机器学习方法构建了恶性肿瘤合并ARF患者ICU预后风险的预测模型,结果表明XGBoost模型预测性能最佳。SHAP可解释性分析显示,血氧饱和度、碳酸氢盐水平、平均动脉压、血管活性药物使用情况和白细胞计数是影响预后的关键因素。开发的在线风险计算器为临床提供了便捷的个体化预后评估工具,有助于早期识别高风险患者和指导治疗决策。
(本文编辑:董哲)
