作者:李杨,杜雷雷,许飞,李艺萱,乔恩
单位:国家心血管病中心 中国医学科学院阜外医院心血管疾病国家重点实验室结构性心脏病中心二病区,温州医科大学第一附属医院心内科,浙江大学医学院附属第一医院肺移植及普胸外科
通信作者:乔恩
文章来源:协和医学杂志, 2023,14(1):184-189.
综述:
随着信息技术的快速发展,各类数据急剧增长,数据资源与自然资源一样,已成为重要的战略资源,人类社会进入到大数据时代[1]。大数据时代下的医疗活动,如就诊治疗、医学研究、健康保健和卫生管理,时刻在产生大量的医疗数据。
有学者认为医疗大数据主要包含4个方面[2]:(1)以电子病历(EMR)、医学影像信息为主的临床大数据;(2)可穿戴设备或社交媒体采集健康相关行为产生的健康大数据;(3)临床试验、基础医学实验产生的生物大数据;(4)医疗机构、医疗保险机构等产生的运营大数据。
医疗大数据主要由结构化数据和非结构化数据构成,且以非结构化数据为主。结构化数据是指易于搜索、汇总、排序和量化的数据,如生命体征或实验室检测结果;非结构化数据是指不能预先指定结构的数据,如书面叙述、图像、视频或音频,在医学领域则包括病程记录、病理学检查结果和影像学图像等[3],其对数据存储、分析和处理提出了较高要求。
大数据具有体量大、流速高、类型多、价值高但价值密度低等特点,医疗大数据同样具有上述特点[4-5],如何从医疗活动产生的海量数据中提取有价值的信息,从而有效提升诊疗水平、简化诊疗流程、降低诊疗成本等,是当前医疗大数据发展面临的重要问题[2]。
大数据技术包括数据接入、数据分析、数据处理、数据存储、数据共享、数据交换及数据展现等多种功能,其中最主要的功能是数据存储、数据分析和数据处理[6-7]。
目前,大数据分析已应用于大规模的遗传学研究、公共卫生、个性化精准医疗、新药研发等领域[8],对大数据进行分析需要自动化过程,以深度学习为代表的人工智能(AI)技术可基于数据驱动的算法,学习并模拟人类行为,处理海量、高维数据,开展多种医学研究。因此,AI在医疗诊断和临床决策中的作用越来越受到重视[9-10]。本文就大数据和AI在医学实践中的具体应用进行阐述。
1 医学大数据的发展
上述医学大数据的4个方面中,临床大数据和生物大数据占重要地位,对其进行数据挖掘可指导医学发展[11]。
首先,医院信息系统(HIS)的发展为临床数据资源的收集、处理、存储和提取提供了方便,HIS中的医疗信息系统主要包括实验室信息管理系统(LIS)、医学影像存档与通讯系统(PACS)、放射信息管理系统(RIS)、EMR等,可详细记录规模庞大、种类复杂的患者诊疗数据[12]。
其次,不断推进的临床试验和基础医学实验,以及不断积累的生物医学大数据,尤其是二代、三代测序技术发展以来,产生的数据量大、结构复杂、分析难度大的组学数据不断改变着人们对疾病的认知[5]。
通过对医疗大数据的汇集、比较和甄别,可建立不同主题的数据库[11,13],成为AI分析的重要数据来源。目前,很多数据库资源可以开放获取,如重症医学数据库、组学数据库等。
1.1 重症医学数据库
在重症监护病房内,数字医疗设备、医护人员操作、患者检查等产生了一系列时序数据、图像数据和文本数据,这些数据具有密度大、质量高的特点[14]。
目前,国际上已建立多个重症医学相关数据库,其中临床研究应用较多的数据库包括重症监护医学信息数据库(MIMIC)、eICU(e Intensive Care Unit)、浙江大学医学院附属儿童医院儿科重症监护(PIC)数据库和MIT-BIH(Massachusetts Institute of Technology-Boston's Beth Israel Hospital)心电数据库等,且大部分数据库已被PhysioNet[15]收录。
1.1.1 MIMIC重症系列数据库
MIMIC重症系列数据库主要包括MIMIC-Ⅲ、MIMIC-Ⅳ和MIMIC胸部X线影像库(MIMIC chest X-ray,MIMIC-CXR)等大型单中心数据库。其中MIMIC-Ⅲ数据库整合了贝斯以色列迪康医学中心重症监护病房2001—2012年间61 532例患者的医疗信息,包括人口学信息、医嘱、实验室检查、影像学检查、护理记录、生存信息等。
获取CITI Program证书并在PhysioNet递交申请,审核通过之后即可下载数据开展学术研究[16-17]。MIMIC-Ⅳ数据库对MIMIC-Ⅲ进行了更新和改进,更新了临床医疗数据,改进了模块化的数据组织方法,突出了数据来源和用途[16,18]。
上述2个数据库均遵循健康保险流通与责任法案(HIPAA)[19],采用结构化数据清洗和数据转换方法处理患者信息,结构化数据要求去除18项患者隐私相关数据,如姓名、联系方式、住址和日期数据等信息。
以MIMIC-Ⅲ数据库为例,每例患者的日期相关信息被随机转换为未来的某个时间,但同一患者的日期间隔依然保持不变;且89岁以上患者的真实年龄均以超过300岁(MIMIC-Ⅲ)的形式展示。通过数据清洗和数据转换[16],在一定程度上保护了患者隐私。
辅助检查方面,PhysioNet于2019年发布了MIMIC-CXR[20],该数据库是以DICOM格式存储胸部X线影像资料的大型数据集,包含377 110张影像图像并提供相应的检查报告,方便医学人员开展科学研究。
1.1.2 eICU数据库
eICU数据库是PhysioNet联合飞利浦医疗科技公司、麻省理工学院计算机生理学实验室发布的多中心重症监护病房数据库,记录了2014—2015年间20家医院的2 500余例ICU患者信息,包括生命体征、护理记录、重症评分、诊断信息、治疗信息等[16,21]。
1.1.3 PhysioNet收录的其他数据库
浙江大学医学院附属儿童医院的PIC数据库[22]是一个大型儿科专科、单中心、中英双语数据库,为MIMIC系列重症数据库提供了中国数据。
此外,PhysioNet还收录了MIT-BIH心律失常数据库[23],该数据库存储了47名受试者的48条心电图记录,每条记录时长达30 min,包括23条随机筛选的心电图和25条特意筛选的罕见心电图,这些心电图节律复杂、波形多变且含有噪声,为人工智能分析复杂心电图提供了基础。
1.2 组学数据库
组学数据包括基因组、转录组、蛋白质组和代谢组等[24],其中基因组学数据备受科研人员关注。依赖于基因测序技术和信息技术的加持,基因组学得以快速发展;基因组学数据不仅规模庞大,且整合方式复杂,其分析需跨学科合作,涉及技术包括大规模数据存储、计算、生物统计、数学建模、信息安全、数据库、数据挖掘等多个方面[13]。
1.2.1 肿瘤基因组图谱数据库
肿瘤基因组图谱[25](TCGA,https://www.cancer.gov/tcga)计划是2006年美国国家癌症研究所和国家人类基因组研究所合作创立、共同监督的项目,是目前全球最大的癌症基因信息数据库。
该数据库借助于先进的基因组分析技术,对人类已经探索到的所有癌症基因组变异与基因表达水平图谱进行绘制,具体内容涉及基因组、蛋白质组、转录组、表观组和临床数据。此项目为发现肿瘤基因组改变并研究其生物学分子机制提供了大量的数据支持。
其中,个人突变组数据库[26](MPM)的创立来源于TCGA数据库,其目的是加快癌症精准用药方案制订,MPM数据库将蛋白质与蛋白质编码基因进行了映射,并理清了蛋白质间的相互作用信息,整理了蛋白质翻译后修饰或蛋白质-配体结合位点,该数据库还把体细胞突变信息与患者的生存信息建立联系,并展示了癌细胞系实验中的药物反应,是目前较为全面的数据库,为大规模基因组学研究与临床治疗架起了可视化桥梁。
1.2.2 基因表达综合数据库
基因表达综合数据库[27](GEO,http://www.ncbi.nlm.nih.gov/geo)是由美国国立生物技术信息中心创建并维护的完全开放基因表达数据库。该数据库收录了世界各国研究机构提交的高通量基因表达数据,其主要来自微阵列芯片、二代测序技术和其他高通量测序。同时,GEO数据库还提供多种工具和分析策略,可帮助用户查询和分析数据[28]。
1.2.3 在线人类孟德尔遗传
在线人类孟德尔遗传(OMIM)数据库[29]是一项研究人类基因、遗传变异与表型性状之间关系的数据库。OMIM主要介绍了人类遗传病与致病基因之间的关联,词条包括临床简介、疾病基本信息与描述、临床特征发病机制、分子遗传、群体遗传、动物模型等,是研究疾病与基因关系的重要依据[30],而临床基因组学的重点也在于研究基因变异与疾病发生的关系[31],因此OMIM数据库在一定程度上指导了临床基因组学研究。截至2021年4月,OMIM数据库目收录的条目数量已增至2.5万余条[32]。
1.3 其他主题数据库
1.3.1 美国国家健康与营养调查数据库
美国国家健康与营养调查(NHANES)数据库[33]是由美国疾病预防控制中心、美国国家卫生统计中心基于人群横断面调查建立的数据库,旨在收集美国家庭有关健康和营养状况的代表性数据。
调查内容共包括两部分:家庭访谈和健康检查。家庭访谈包括人口统计、社会经济、饮食和健康相关问题;健康检查包括医学、口腔和生理测量,以及由训练有素的医务人员进行的实验室测试。
1.3.2 美国国家癌症研究所监测、流行病学和最终结果数据库
美国国家癌症研究所监测、流行病学和最终结果数据库[34](SEER)是美国国家癌症研究所收集的癌症发病率、流行率和生存数据相关信息的数据库,其内容来源于美国部分州县癌症登记处,大约覆盖了30%的美国人口,是一个基于人群的大样本量数据库资源,可用来研究人口统计学特征、人口癌症分布特点以及地理位置对癌症的影响,该项目正在研发新的系统用以研究特定患者群中的生物标志物与结局指标之间的关系,并扩大生物标本库,不断推动癌症研究和实践发展。
2 AI技术在医学领域的应用
AI的主要分支是机器学习技术,机器学习主要分为有监督学习和无监督学习[3,35],二者均是计算机通过数据处理和学习总结已知数据规律,然后将规律应用至未知数据中,以有效地完成预测模型、疾病分类等医学难题[36],以医疗大数据分析建模为基础的AI已取得很多研究成果。
2.1 AI与医学影像
AI最可能在医学中实现的领域首先是医学影像,AI与医学影像大数据结合可提高其临床决策能力,提升医师工作效率和工作质量[37]。
以MIMIC-CXR数据库为例,Horng等[38]开发了一个机器学习模型,可对肺水肿的严重程度分级。此模型回顾性分析了MIMIC-CXR中64 581例患者的369 071张X线片和相关诊断报告,先将纳入人群按照是否发生心力衰竭分为两组,再将心力衰竭组患者的肺水肿等级分为四级,采用2种模型(半监督模型和预先训练监督模型)进行训练学习,结果发现2种机器学习模型均可对肺水肿进行有效分级。
2.2 AI与心电图
深度学习模型多用于对图像进行分析处理[35],因此AI对心电图波形图像数据的识别研究也较为广泛,提高了心电图诊断的精确度。
Attia等[39]通过卷积神经网络模型训练并验证了44 959例超声诊断为射血分数≤35%的心室功能不全患者的心电图,发现该模型通过心电图验证无症状性左心室功能障碍的ROC曲线下面积、灵敏度、特异度、准确度分别为0.93、86.3%、85.7%和85.7%,在未确诊心室功能不全的患者中,AI筛查阳性患者的风险是正常人的4倍。
因此,AI与心电图结合成为检测无症状性左心室功能障碍的有力工具。该团队还开发了一种AI支持的心电图模型,该模型使用标准的10 s十二导联心电图,利用卷积神经网络检测正常窦性心律时出现房颤的心电图特征,通过对180 922例患者的649 931份正常心电图进行检测,发现在窦性心律测试者中使用AI加强的心电图可进行房颤诊断[40]。
2.3 AI与组学分析
组学数据自身信息量庞大,与临床资料、影像学检查结果建立关联后可进行疾病的诊断、治疗及预后分析[41]。TCGA数据库利用机器学习整合了泛癌计划中33种癌症的RNA-seq结果、拷贝数、突变信息以预测肿瘤样本中RAS通路的激活情况,且该模型可预测野生RAS细胞系对MEK抑制剂的反应[42]。
国外学者采用无监督学习对121例胶质母细胞瘤患者的磁共振检查结果进行一致性聚类分析,发现可有效将影像结果分为3种类型,并在此基础上发现了独特的信号通路,该研究成果为胶质母细胞瘤患者提供了非侵入性分类方法,并可指导其靶向治疗[43]。
2.4 AI与疾病和不良事件风险预测
疾病和不良事件风险预测也是当前医学AI的重要组成部分[44-45]。临床不良事件和并发症是导致患者死亡或预后不良的主要原因,如急性肾损伤,美国大约1/5的患者在住院期间发生这一危及生命的不良事件。
Tomašev等[46]基于EMR的大型数据集开发了一项深度学习模型,可提前48 h预测急性肾损伤的发生,为其早期治疗提供了机会。在心血管疾病领域,冠心病是致死致残的首要原因,中国医学科学院阜外医院的学者开展了一项多中心横断面研究,通过深度学习分析5796例患者面部照片评估其冠心病的发生风险,该技术有望用于医院门诊或社区冠心病的筛查诊断[47]。
3 小结与展望
不同主题的数据库为科研工作提供了便利,但现有数据库中的数据来源多以某地区为主,未来医疗大数据的发展方向应将不同地区的数据整合在一起。但医疗大数据的隐私性所导致的“数据孤岛”现象也是未来发展面临的难点,应在充分保障数据隐私和安全的前提下,建立各医疗机构的数据共享机制,发展具有隐私保护的联邦学习技术,促进大数据在医疗领域的产业落地。
随着医疗大数据的发展,未来AI技术应基于医疗数据的特点,开发新的算法以解决医学难题。新技术与医学的结合形成交叉学科,需加大对多学科复合型人才的培养力度,让前沿技术更好地服务于医疗。
作者贡献
李杨负责论文构思及撰写;乔恩负责论文修订及审校;杜雷雷、许飞、李艺萱负责资料收集及思路设计。
参考文献
[1]顾荣. 大数据处理技术与系统研究[D]. 南京:南京大学,2016.
[2]叶清,刘迅,周晓梅,等. 健康医疗大数据应用存在的问题及对策探讨[J].中国医院管理,2022,42: 83-85.
[3]Sanchez-Pinto LN,Luo Y,Churpek MM. Big Data and Data Science in Critical Care[J]. Chest,2018,154: 1239-1248.
[4]Caliebe A,Leverkus F,Antes G,et al. Does big data require a methodological change in medical research?[J]. BMC Med Res Methodol,2019,19:125.
[5]弓孟春,陆亮. 医学大数据研究进展及应用前景[J].医学信息学杂志, 2016,37: 9-15.
[6]向冲,陈诚. 大数据技术在慢性病患者健康管理中的应用分析[J].大学,2020(38): 125-126.
[7]李静,王欲晓,徐楠松,等. 大数据技术在医院档案管理中的应用分析[J].文化创新比较研究,2020,4: 148-150.
[8]Wang L,Alexander CA. Big data analytics in medical engineering and healthcare: methods,advances and challenges[J].J Med Eng Technol,2020,44: 267-283.
[9]Benke K,Benke G. Artificial Intelligence and Big Data in Public Health[J].Int J Environ Res Public Health,2018,15: 2796.
[10]吴行伟,刘馨宇,龙恩武,等. 机器学习在临床药物治疗中的研究进展[J].中国全科医学,2022,25: 254-258.
[11]阮彤,高炬,冯东雷,等. 基于电子病历的临床医疗大数据挖掘流程与方法[J].大数据,2017,3:83-98.
[12]孙悦. 基于HIS的医疗业务流程设计研究[D].长春:吉林大学,2012.
[13]深圳华大基因科技有限公司,许四虎,晋向前,等.医学基因组学大数据与数据库的发展趋势与特色[EB/OL].(2022-03-10)[2022-07-30].https://www.163.com/dy/article/H22JJSP70518BVD2.html.
[14]朱志勇,陈一昕,李建功. 大数据技术在医疗急重症领域的应用[J].邮电设计技术, 2016(8): 28-32.
[15]庞兴梅. PhysioNet信息资源解析及利用[J].医学信息学杂志, 2010, 31: 28-30.
[16]Goldberger AL, Amaral LA, Glass L, et al. PhysioBank, PhysioToolkit, and PhysioNet: components of a new research resource for complex physiologic signals[J].Circulation,2000,101: E215-E220.
[17]Johnson AE, Pollard TJ, Shen L,et al. MIMIC-Ⅲ, a freely accessible critical care database[J].Sci Data,2016,3:160035.
[18]Johnson A,Bulgarelli L,Pollard T,et al.MIMIC-IV (version 1.0) [EB/OL].(2021-03-16)[2022-07-30].https://doi.org/10.13026/s6n6-xd98.
[19]Blechner B, Butera A. Health Insurance Portability and Accountability Act of 1996 (HIPAA): a provider's overview of new privacy regulations[J].Conn Med, 2002, 66: 91-95.
[20]Johnson A, Pollard T, Mark R, et al. MIMIC-CXR Data-base (version 2.0.0)[EB/OL].(2019-09-19) [2022-07-30].https://doi.org/10.13026/C2JT1Q.
[21]Pollard TJ,Johnson AEW,Raffa JD,et al. The eICU Collaborative Research Database, a freely available multi-center database for critical care research[J]. Sci Data, 2018, 5: 180178.
[22]Li H, Zeng X, Yu G. Paediatric Intensive Care database (version 1.1.0)[EB/OL].(2020-11-12)[2022-07-30].https://doi.org/10.13026/32x9-wv38.
[23]Moody GB, Mark RG. The impact of the MIT-BIH arrhythmia database[J].IEEE Eng Med Biol Mag, 2001, 20: 45-50.
[24]周滔,李静宜,马毅,等. 基于组学数据库整合工具的代谢通路分析应用[J].国际药学研究杂志, 2015, 42: 587-592,600.
[25]李瑞华,田国祥,郭晓娟,等. 如何利用TCGA数据库实现医学数据共享[J]. 中国循证心血管医学杂志, 2019, 11: 280-283.
[26]Zhou Y, Zhao J, Fang J, et al. My personal mutanome: a computational genomic medicine platform for searching network perturbing alleles linking genotype to phenotype[J].Genome Biol, 2021,22:53.
[27]闫小妮,田国祥,郭晓娟,等. GEO数据库架构、申请及数据提取方法与流程[J].中国循证心血管医学杂志, 2019, 11: 134-137.
[28]Barrett T,Wilhite SE,Ledoux P,et al. NCBI GEO: archive for functional genomics data sets--update[J].Nucleic Acids Res, 2013, 41: D991-D995.
[29]刘相兰,孙志福. 多组学大数据在精准医学中的地位及应用[J].精准医学杂志, 2020, 35: 1-5.
[30]李建华,李哲人,康雁,等. 在线孟德尔人类遗传数据库数据挖掘的研究进展[J].生物医学工程学杂志, 2014, 31: 1400-1404.
[31]刘杏,杨寅,葛一平,等. 人工智能在临床基因组学中的应用进展[J].中国医学科学院学报, 2021, 43: 950-955.
[32]Hamosh A, Amberger JS, Bocchini C, et al. Online Mendelian Inheritance in Man (OMIM): Victor McKusick's magnum opus[J].Am J Med Genet A, 2021, 185: 3259-3265.
[33]郭晓娟,田国祥,潘振宇,等. NHANES项目介绍及数据提取流程[J].中国循证心血管医学杂志, 2019, 11: 654-657.
[34]Daly M, Paquette I. Surveillance, Epidemiology, and End Results (SEER) and SEER-Medicare Databases: Use in Clinical Research for Improving Colorectal Cancer Outcomes[J].Clin Colon Rectal Surg,2019, 32: 61-68.
[35]崔雍浩,商聪,陈锶奇,等.人工智能综述:AI 的发展[J].无线电通信技术,2019, 45: 225-231.
[36]华伟,张妮潇.人工智能在心脏电生理和起搏中的应用[J].中国心血管杂志, 2020, 25: 480-484.
[37]苗红, 李男, 吴菲菲, 等. 基于机器学习的医学影像人工智能领域技术融合预测[J].情报杂志, 2022, 41:9.
[38]Horng S, Liao R, Wang X, et al. Deep Learning to Quantify Pulmonary Edema in Chest Radiographs[J].Radiol Artif Intell,2021, 3: e190228.
[39]Attia ZI, Kapa S, Lopez-Jimenez F, et al. Screening for cardiac contractile dysfunction using an artificial intelligence-enabled electrocardiogram[J].Nat Med,2019,25: 70-74.
[40]Attia ZI, Noseworthy PA, Lopez-Jimenez F, et al. An artificial intelligence-enabled ECG algorithm for the identification of patients with atrial fibrillation during sinus rhythm: a retrospective analysis of outcome prediction[J].Lancet, 2019,394: 861-867.
[41]贾宇珊,吴慧. 影像基因组学研究进展[J].磁共振成像, 2022, 13: 166-170.
[42]Way GP, Sanchez-Vega F, La K, et al. Machine Learning Detects Pan-cancer Ras Pathway Activation in The Cancer Genome Atlas[J].Cell Rep, 2018, 23: 172-180.
[43]Itakura H, Achrol AS, Mitchell LA, et al. Magnetic resonance image features identify glioblastoma phenotypic subtypes with distinct molecular pathway activities[J].Sci Transl Med, 2015, 7: 303ra138.
[44]孙岳川,高键东,吴及. 临床医学人工智能:典型应用与挑战[J].中国卒中杂志, 2021, 16: 643-648.
[45]王昕玥,渠鸿竹,方向东. 组学大数据和医学人工智能[J].遗传,2021, 43: 930-937.
[46]Tomaev N, Glorot X, Rae JW, et al. A clinically applicable approach to continuous prediction of future acute kidney injury[J]. Nature,2019, 572: 116-119.
[47]Lin S, Li Z, Fu B, et al. Feasibility of using deep learning to detect coronary artery disease based on facial photo[J]. Eur Heart J,2020, 41: 4400-4411.