收集 301 医院 451 名老年冠心病患者数据,湖北麻城人民医院推出机器学习模型,准确预测患者一年内死亡率

威公
• 阅读 459

内容一览:据国际糖尿病联盟 (IDF) 统计,2021 年中国糖尿病患者数量占全球
26%。而糖尿病患者血糖长期失控,有极高风险引起冠心病等并发症。近期,湖北省麻城市人民医院研究人员分析比较了多种模型,并用其中表现最优的机器学习模型,预测了中国老年冠心病合并糖尿病或糖耐量受损患者一年内死亡率为
26.83%。

关键词:冠心病 生存预后 梯度提升机

本文由 HyperAI 超神经首发于微信公众平台~

据 2017 年糖尿病患病调查,我国老年人糖尿病患者高达 7813 万人。结合多项大型人群研究发现,糖代谢异常与心血管病存在高度「共病」关系,即糖尿病患者往往会伴有冠心病等并发症,而后者已然成为糖尿病患者死亡的一大主因——约有 75% 的糖尿病患者死于冠心病。然而,目前关于冠心病合并糖尿病或糖耐量受损患者生存危险因素的相关研究寥寥可数

|备注:糖耐量受损 (IGT) 是一种由正常血糖向糖尿病过渡的异常糖代谢状态,属于糖尿病前期,可能进一步发展为糖尿病 (diabetes mellitus, DM)。

为了突破这一现状,中国湖北省麻城市人民医院的研究人员,开创性地对比了逻辑回归模型 (LR) 和 3 种机器学习模型,成功预测出中国老年冠心病合并糖尿病或糖耐量受损患者一年内死亡率,帮助医学界及时识别有短期死亡风险的患者,从而及早预警和治疗。

目前该研究已发布在《Cardiovascular Diabetology》期刊上,标题为「Machine learning-based models to predict one-year mortality among Chinese older patients with coronary artery disease combined with impaired glucose tolerance or diabetes mellitus」

收集 301 医院 451 名老年冠心病患者数据,湖北麻城人民医院推出机器学习模型,准确预测患者一年内死亡率

图 1:该研究成果已发表在《Cardiovascular Diabetology》

论文地址:
https://cardiab.biomedcentral.com/articles/10.1186/s12933-023...

实验过程

数据集:收集 301 医院 451 名老年冠心病患者数据

本研究分析了 2007 年 10 月至 2011 年 7 月期间,中国人民解放军总医院老年心脏病科收治的 974 名老年冠心病患者。其中,研究人员按照两个条件进一步筛选,分别为:

  1. 年龄超过 60 岁;
  2. 患有糖耐量受损 (IGT) 或糖尿病 (DM)。

最终生成的数据集中包含 451 名患者,并按 7 : 3 的比例随机分为训练集 (n = 308) 及测试集 (n = 143)。训练集用于训练和优化逻辑回归模型和 3 种机器学习模型,测试集则用于测试模型预测性能。数据集筛选流程如下:

收集 301 医院 451 名老年冠心病患者数据,湖北麻城人民医院推出机器学习模型,准确预测患者一年内死亡率

图 2:概述入选患者和研究设计流程图

模型开发:选定 4 大模型进行横向对比

本项研究中,研究人员开发了逻辑回归模型和 3 种机器学习模型,分别为梯度提升机模型 (GBM)、随机森林模型 (RF) 和决策树模型 (DT) 来建立预测模型,并根据布里尔分数 (Brier Score)、 AUC (Area Under the Curve)、校准曲线 (calibration curve) 和决策曲线 (decision curve) 几个指标,来评估预测效果。

Brier Score:衡量算法预测出的概率和真实结果的差异的一种方式。其取值范围为 0 到 1,分数越高则预测结果越差,校准程度越低。
收集 301 医院 451 名老年冠心病患者数据,湖北麻城人民医院推出机器学习模型,准确预测患者一年内死亡率

图 3: 布里尔分数计算公式

AUC:指曲线下面积。在统计学和机器学习中,AUC 常用于评估二分类模型的性能。其取值范围在 0 到 1,数值越接近 1,则表示模型性能越好;数值越接近 0.5,则表示模型预测能力较弱。

对3个机器学习模型进行特征筛选及参数调优

同时,研究人员对开发的机器学习模型进行了特征筛选和参数调优。首先,他们采用 LASSO (least absolute shrinkage and selection operator) 算法结合 10 倍交叉验证筛选出与一年死亡率显著相关的 7 个特征,作为模型输入,这 7 个特征分别为血红蛋白、HDL- C、白蛋白、血肌酐、NT-proBNP、CHF 和他汀类药物。然后,他们通过随机超参数搜索,使用 5 倍交叉验证和自举法 (bootstrap) 来寻找最佳参数组合,获取最佳曲线下面积 (AUC)。

收集 301 医院 451 名老年冠心病患者数据,湖北麻城人民医院推出机器学习模型,准确预测患者一年内死亡率

图 4:超参数调优过程

A:所有变量的最小绝对收缩与选择算子 (LASSO) 系数曲线
B:最佳参数组合
C:临床特征之间的相关系数

由图 4,所有相关系数均低于 0.80,表明不存在严重的共线性。用上述 7 个临床特征训练逻辑回归模型和 3 个机器学习预测模型。经过模型训练和优化,每个模型的最优超参数如下表所示:
收集 301 医院 451 名老年冠心病患者数据,湖北麻城人民医院推出机器学习模型,准确预测患者一年内死亡率

表 1:各模型的最优超参数

实验结果

从各个模型的整体性能来看

  • 逻辑回归模型 (LR) 的 Brier 分数为 0.116
  • 梯度提升机模型 (GBM) 的 Brier 分数为 0.114
  • 决策树模型 (DT) 的 Brier 分数为 0.143
  • 随机森林模型 (RF) 的 Brier 分数为 0.126

下图为各个模型的分析结果

收集 301 医院 451 名老年冠心病患者数据,湖北麻城人民医院推出机器学习模型,准确预测患者一年内死亡率

图 5: 各模型的 AUC、校准曲线、决策曲线、SHAP 值

D:各个模型整体性能
E:各个模型校准曲线
F:各个模型决策曲线
G:SHAP 值热力图
H:基于 SHAP 的特征重要性分析

根据图 5,可得出以下结论:

  1. LR、 GBM、 DT 和 RF 模型的 AUC 分别为 0.827、0.836、0.760 和 0.829。
  2. 校准曲线表明,所有模型都具有良好的校准效果。其中,GBM 模型效果最佳。
  3. 决策曲线分析表明,GBM 模型和 LR 模型均有良好的临床实用性。
  4. 基于 GBM 模型,研究人员进一步分析了整个人群中显著临床特征的重要性。通过分析个体 SHAP 值和平均 SHAP 值均发现与一年死亡率相关的前 3 个特征分别是 NT-proBNP、白蛋白和他汀类药物。**

| SHAPE: Shaley Additive exPlanation, 特征贡献度。研究人员通过分析 SHAP 值,可以获得对于预测结果的解释,了解各个特征如何影响模型的预测,进而更好地理解和解释模型的行为。

综上,研究人员提出,过往研究中的模型虽然预测性能很高,但由于变量太多,不太适合在临床上应用。而本研究中,研究人员成功使用 7 个特征开发出预测一年死亡率的模型,结果显示,GBM 模型 AUC 高达 0.836,Brier 分数为 0.116,预测性能整体最佳

值得注意的是,为了进一步方便临床应用,研究人员还设计了一个在线应用程序,只需要医生填写患者参数,就能预测一年内的死亡概率,这样一来,医生可以通过对高风险患者及早采取有利措施,提高患者生存概率。

AI 医疗领域前景光明,但不应盲目乐观

随着 AI 语音交互、计算机视觉和认知计算、深度学习等技术的逐渐成熟,AI 医疗领域的应用场景日益丰富,涉及医学影像、虚拟助手、药物研发、健康管理、病历/文献分析以及疾病预测管理等多个方向

据中国信通院《2020 人工智能医疗产业发展蓝皮书》,国内 AI 医疗领域虽然起步较晚,但市场需求旺盛,未来发展前景广阔。其中,值得关注的有,截至 2019 年末,全国 65 岁及以上老年人口占比已达 12.6%,意味着中国已正式步入老龄化社会。由此,慢性病发病率也在逐年增加。

在此背景下,以本研究为代表的疾病预测相关成果应运而生,能够有效帮助医生及病人更好地进行健康管理。然而,另一方面,也需看到就市场整体情况来看,AI 相关技术在医院仍未得到规模化应用,医院的付费意愿并不强烈,而这与用户的使用与付费习惯、医保政策等配套基础设施以及临床应用场景的高复杂度等原因有重要联系。所以,对于 AI 医疗领域来说,也仍然还有很长的路要走。

参考链接:
[1] https://doi.org/10.5334/gh.934
[2] https://doi.org/10.1111/1753-0407.13175
[3] https://doi.org/10.1007/s001250051352
[4] https://doi.org/10.1186/1475-2840-5-15
[5]https://rs.yiigle.com/CN112148202107/1328929.htm
[6]http://www.caict.ac.cn/kxyj/qwfb/ztbg/202009/P020200910495521...

本文由 HyperAI 超神经首发于微信公众平台~

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
深度学习技术开发与应用
关键点1.强化学习的发展历程2.马尔可夫决策过程3.动态规划4.无模型预测学习5.无模型控制学习6.价值函数逼近7.策略梯度方法8.深度强化学习DQN算法系列9.深度策略梯度DDPG,PPO等第一天9:0012:0014:0017:00一、强化学习概述1.强化学习介绍2.强化学习与其它机器学习的不同3.强化学习发展历史4.强化学习典
Stella981 Stella981
4年前
React Hooks实现异步请求实例—useReducer、useContext和useEffect代替Redux方案
<blockquote本文是学习了2018年新鲜出炉的ReactHooks提案之后,针对<strong异步请求数据</strong写的一个案例。注意,本文假设了:<br1.你已经初步了解<codehooks</code的含义了,如果不了解还请移步<ahref"https://reactjs.org/docs/hooksintro.html
Stella981 Stella981
4年前
DOIS 2019 DevOps国际峰会北京站来袭~
DevOps国际峰会是国内唯一的国际性DevOps技术峰会,由OSCAR 联盟指导、DevOps时代社区与高效运维社区联合主办,共邀全球80余名顶级专家畅谈DevOps体系与方法、过程与实践、工具与技术。会议召开时间:2019070508:00至2019070618:00结束会议召开地点:北京主办单位:DevOps
Wesley13 Wesley13
4年前
AI金融知识自学偏量化方向
前提:统计学习(统计分析)和机器学习之间的区别金融公司采用机器学习技术及招募相关人才要求第一个问题:  机器学习和统计学都是数据科学的一部分。机器学习中的学习一词表示算法依赖于一些数据(被用作训练集),来调整模型或算法的参数。这包含了许多的技术,比如回归、朴素贝叶斯或监督聚类。但不是所有的技术都适合机器学习。例如有一种统计和数
Stella981 Stella981
4年前
Android蓝牙连接汽车OBD设备
//设备连接public class BluetoothConnect implements Runnable {    private static final UUID CONNECT_UUID  UUID.fromString("0000110100001000800000805F9B34FB");
Stella981 Stella981
4年前
CPU推理性能提高数十倍,旷视天元计算图、MatMul优化深度解读
  机器之心发布  机器之心编辑部  !(http://dingyue.ws.126.net/2020/0806/6a6e4896j00qemtzy001ad000p000aop.jpg)本文针对旷视天元深度学习框架在推理优化过程中所涉及的计算图优化与MatMul优化进行深度解读。  背景及引言  在深度学
小万哥 小万哥
2年前
Python 机器学习入门:数据集、数据类型和统计学
机器学习是通过研究数据和统计信息使计算机学习的过程。机器学习是迈向人工智能(AI)的一步。机器学习是一个分析数据并学会预测结果的程序。数据集在计算机的思维中,数据集是任何数据的集合。它可以是从数组到完整数据库的任何东西。数组的示例:
威公
威公
Lv1
安能摧眉折腰事权贵,使我不得开心颜
文章
5
粉丝
0
获赞
0