基于糖尿病大数据的深度挖掘

/ 4

基于糖尿病大数据的深度挖掘

俞点 1,陈小波 2,于哲轩 2,应雨棋 1

  1. 浙江中医药大学 第二临床医学院,浙江杭州 310053;

2. 浙江中医药大学 第一临床医学院,浙江杭州 310053

摘要:随着全球糖尿病发病率逐年升高,如何提高医院治疗糖尿病患者的效果成为人们讨论的焦点,本文重点考虑医院对糖尿病患者的药物治疗模式。首先,对糖尿病住院患者的数据进行深度预处理,将处理后的数据作为最终的分析数据集。然后,通过统计分析、多维特征量分析等基础数据挖掘方法来明确糖尿病患者数据的基础特性。在特征量多维分析中,根据离散型和连续型对数据分类,结合临床实际情况来分析各个特征量与再入院率之间的关系。对于连续型特征量,基于最小二乘法求解正态分布数学模型。接着,结合不同药物组下的患者再入院率和住院药物费用两个指标,建立药价-药效比模型和TOPSIS模型来评价糖尿病患者的药物治疗情况并对医院的药物治疗模式提供参考意见。最后,为降低再住院率,利用支持向量机建立糖尿病再入院预测模型,辅助医生确定患者是否适合出院。

关键词:糖尿病 数据挖掘 药价-药效比模型 支持向量机


1 引言
糖尿病是一种代谢疾病,其特征表现是病人的血糖值会长期高于人体的标准值[1]。为了提高医院对住院糖尿病患者的诊治效果及辅助医院对糖尿病的诊疗和病人的安全性,有必要对现有医院收治病人的糖尿病治疗模式进行分析评估,对大型临床数据的分析评估也有助于对未来做出改善。本研究采用美国130家医院多年积累的医疗临床数据(数据来自Center for Machine Learning and Intelligent Systems, 名为Diabetes 130-US hospitals for years 1999-2008 Date Set),通过数据挖掘、统计分析和构建数据模型的方法来评估医院对糖尿病的治疗模式并给出合理建议。

2数据预处理与多维特征量分析

2.1数据预处理
本研究采用的数据挖掘对象是医疗数据,其具有异构性、高维度、主观性和缺失性等特点,具体表现在糖尿病住院患者数据包含实际数据预期中不完整,冗余和嘈杂的信息。因此,在挖掘数据前对数据进行清洗是有必要的。

2.1.1 数据说明

采用的数据集自美国医疗数据库,数据变量均为医疗专业英文词且国外的医疗术语习惯与中国存在一定程度的出入。根据文献[2]得到通俗且符合中国医疗习惯的数据说明表1。

5fab8768d5526_html_86a166dff6186b2b.png

2.1.2 缺失数据的处理

根据数据集可以发现数据库中部分变量存在缺失值,因此需要对数据进行一些必要的处理。统计数据后,缺失的特征量主要是“体重”(缺失96.86%)。体重数据的大量缺失是因为美国HITECH法案在推行全美实行电子病历前,医疗机构不需要详细记录病人的体重,由于数据缺失接近100%且与挖掘的重点无相关,因此对 “体重”剔除处理;主要诊断(缺失0.0206%),次要诊断(缺失0.0236%)和额外的次要诊断(0.056%),由于诊断的数据缺失较少,从整体来看不会影响对数据的挖掘,根据医学诊断文献资料[3],患者主要的病情是依据“𝑑𝑖𝑎𝑔_1”,结合文献[4]因此对于“𝑑𝑖𝑎𝑔_2”和“𝑑𝑖𝑎𝑔_3”的缺失数值不作处理。

2.2多维特征量与再入院率之间的关系

2.2.1 特征量选取

根据文献[5],主要挖掘性别、年龄 、入院情况、住院时长、葡萄糖血清测试和糖化血红蛋白测试结果这6种与糖尿病医疗相关的特征量与再次入院之间的关系。依据特征量在数值上是否连续,将其分为连续特征量和离散特征量并分别探索。

2.2.2 离散特征量

离散分布是可取值能一一罗列出来的一种变量,例如掷骰子的结果是5fab8768d5526_html_d74ac3926b6c96ec.gif 就是一种典型的离散变量。6种特征量中满足离散分布的有性别、入院情况、葡萄糖血清检测测试和糖化血红蛋白检验结果。

1)性别

性别特征量中的结果只有两种可能,不是男性就是女性,因此符合伯努利分布。具体的分布频率如下表2所示。

5fab8768d5526_html_ee2f854ef9089ecc.png

统计分析结果显示,在占比上,男性相比女性高8%。查询美国近几年出生人口男女性别比约为1.05:1,而住院的糖尿病患者中男女比例为5fab8768d5526_html_cb79098765017ed3.gif ,因此我们认为男性患糖尿病入院率高于女性。在此基础上进一步查找美国糖尿病患者男女比例分别为40.2%和39.6%,相应的根据临床数据证明了男性患糖尿病的概率高于女性的事实。

2)入院情况

同理上述年龄特征量,入院情况的频率分布及对应的再入院率如下表3所示。

5fab8768d5526_html_890d6662473be199.png

统计分析结果显示,急救室转诊的占比高达92%,说明入院的糖尿病患者病情都较为严重。根据糖尿病相关临床统计,糖尿病主要危害有急性并发症,致命性的心脑血管并发症,以及引起糖尿病人主要死亡原因的糖尿病肾病发生。由此我们作出预警:患有糖尿病的人群,其生命受到相对严重的威胁,具有一定的风险,患有糖尿病的患者应及时就诊,避免风险进一步上升。

3)葡萄糖血清检测测试
葡萄糖血清即血糖,指血液中葡萄糖浓度。

5fab8768d5526_html_2e82c3eedd8fa43.png

统计分析结果显示,葡萄糖血清检测大于200和大于300的入院患者占了2/3,这说明入院的大部分糖尿病患者都未能将血糖水平控制在稳定状态。而患者的再入院率随着葡萄糖血清检测值的升高而增大,这说明葡萄糖血清与再入院率的关系呈正相关。从临床实际角度出发,糖尿病患者的近期病情越严重,其自身机能免疫力也越弱,很有可能会因为血糖偏高导致不适或产生其他并发症而再次入院接受治疗。

4糖化血红蛋白检验结果
糖化血红蛋白可有效地反映糖尿病患者过去1~2个月内血糖控制的情况。

5fab8768d5526_html_d11dad02db9110f2.png

由统计分析结果显示,控制血糖情况较理想的患者只占了20%,血糖控制一般的患者占了21%,血糖控制不理想甚至很差的患者高达59%。患者的再入院率随着糖化血红蛋白值升高而增大,说明糖化血红蛋白与再入院率的关系呈弱正相关。糖化血红蛋白检测结果偏高说明糖尿病患者近段时间血糖持续偏高,其再入院概率也会越大。

2.2.3 连续特征量

年龄和住院时长均属于连续型随机特征量,利用Excel画出频数直方图来观察并判断所属分布情况。

5年龄

5fab8768d5526_html_806d3d2a5f9f6963.jpg

图 1:年龄频数直方图

分析统计数据汇总的直方图得到,入院患者中年龄大于50岁的占比近似90%,因此住院患者主要集中在50岁以上的年纪。这说明中老年人患糖尿病率更高,作为患病高发人群,需要引起社会关注。

就再入院率而言,年龄在80岁之前,年龄与再次入院率呈正对数相关。总体来说年龄越大,再次入院率越高。联系医学知识,随着人体的年龄增大,很多机体细胞逐渐衰亡,免疫力在不断下降,一些疾病伴随糖尿病的并发症出现的几率提高。

6住院时长5fab8768d5526_html_fb2c2620780fd2a3.png

图 2:住院时长频数直方图

分析统计数据汇总的直方图得到,住院时间为一周内的患者占比高达90%,因此绝大多数患者能在一周的治疗周期内出院。在住院时长小于等于7天时,患者住院的时间越长再次入院率小幅增高,年龄与再次入院率呈正对数相关,在住院时长大于7天之后,入院率就稳定在49%左右。可见患者的住院时长可以侧面体现患者的患病程度,但当时长久到一定天数之后,对患者的治疗效果相差不大。

3药物治疗模式的评价

3.1药物对再住院的分类分析

文献[6]明确药物的变化情况对糖尿病的治疗效果的影响是十分重要。根据数据集筛选出7种常用糖尿病口服药,分别为:二甲双胍、格列美脲、格列吡嗪、格列本脲、吡格列酮、罗格列酮和胰岛素。对应数据集中的数据,可以从住院患者中药物使用情况及药物变化情况对于再住院率的影响方面作出挖掘分析。

3.1.1口服降糖药分类
糖尿病药物分为注射型药物和口服型药物。注射型药物以胰岛素为代表,是当前发现的人体中唯一一类降糖激素,多用于糖尿病中晚期或伴随严重糖尿病并发症患者。根据文献[7]可以把糖尿病口服药物分为胰岛素增敏剂类药物和促胰岛素分泌类药物两大族。

胰岛素增敏剂,又称为“胰岛素增敏因子”,是一种通过增强体内胰岛素的敏感性来促进胰岛素充分利用的特殊物质。有以下分类:

<1 >磺酰脲类药物,例如:格列美脲格列吡嗪格列本脲等;

<2>苯甲酸衍生物(格列奈类药物),例如:那格列奈、瑞格列奈等。

促胰岛素分泌剂,是一种促进胰岛素分泌的药物,有以下分类:

<1>双胍类药物,例如:二甲双胍等;

<2>噻唑烷二酮类药物,例如:罗格列酮吡格列酮等;

<3> α葡萄糖苷酶抑制剂,例如:阿卡波糖等。

3.1.2联合用药选取

治疗糖尿病有时不止有单一的药物治疗,也有多种药物联合治疗的情况。联合用药分类研究须满足两种或两种以上的药均为同族药物。本研究中针对数据集选取两种药物的联合,如二甲双胍+罗格列酮、罗格列酮+阿卡波糖。针对联合用药的情况,参照数据集中病人的用药情况及糖尿病常用药物情况,再减去样本数过少(<20)的联合用药情况,最终选取了A:二甲双胍+罗格列酮和B:二甲双胍+吡格列酮,两种联合用药方式。
3.1.3药物价格获取

通过查询糖尿病药物的价格并根据服用量计算出日均价格,如下表6所示:

5fab8768d5526_html_2ee9b044c16fe214.png

3.1.4药物模型

药物经济学是药学、卫生经济学学科的一个分支,其以经济学、医药学、统计分析等为理论方法,运用经济学公式和模型,进行量化对照研究,可用来分析药物治疗方案、评价药物治疗费用,实现最小成本-最大治疗效果,达到最合理的药物治疗方案和最有效的临床治疗手段目的。进一步为临床指导合理用药,提升患者的生存质量,同时还可以为药政管理者提供决策建议及依据。

  1. 药价-药效比模型

根据文献[7]可以得到一个药物价格和药物效果之间的数学模型:

5fab8768d5526_html_2f0c5600bcbf002c.gif

其中:5fab8768d5526_html_71ef80a040483443.gif 表示单位药效所需的药物价格;5fab8768d5526_html_e437b532a42750ce.gif 表示5fab8768d5526_html_1dff24c851dde08c.gif 药物组的日均药物价格; 5fab8768d5526_html_a0ff42b827af661b.gif 表示使用5fab8768d5526_html_1dff24c851dde08c.gif 药物组患者的平均住院天数;

5fab8768d5526_html_1889df2f15a12dc.gif 表示5fab8768d5526_html_1dff24c851dde08c.gif 药物组的药效情况;

根据数据集的数据情况并结合临床意义,对数学模型进行适当变换采取再入院率用来代替药物效果。即药效5fab8768d5526_html_2b17a43f4e8a7be8.gif5fab8768d5526_html_1dff24c851dde08c.gif 药物组患者的再入院率来取代。

通过上述模型计算得出下表7

5fab8768d5526_html_8fbb334448618b2f.png

根据模型中的药物价格-药物效果比值的结果可以给上述用药排名,得到如下结果表8

5fab8768d5526_html_5f904c91ce491d75.png

  1. TOPSIS模型

根据参考文献[9],利用逼近于理想解的TOPSIS综合评价法对8组用药的再入院率和住院均药物价格间进行系统评分。首先,以黄金分割法标准对更为重要的再入院率指标赋予0.618权重,住院均药物价格赋予0.382权重。然后,选取各指标值的最优解和最劣解,再分别与各药组的指标值通过欧氏距离法计算距离。最后,通过线性加权得到各药组的TOPSIS系统评分(再入院率和住院均药价指标皆为越小越好,即为“负向指标”,因此TOPSIS得分越低越好),如表9所示:

5fab8768d5526_html_b33f6f54090a1af4.png

通过比较药价-药效比模型和TOPSIS模型,可以发现两种模型方法的排名中,只有一联用药的 “吡格列酮”治疗模式和二联用药的“二甲双胍+吡格列酮”治疗模式发生了名次交换,但不影响整体用药的判断。由两种不一样的评价方法得到相似结果,侧面反映了研究方法和模型的可靠性。

3.2 药物治疗意见

综上所述,为降低治疗成本我们建议:若患者需要促胰岛素分泌药物,可优先使用二甲双胍,若病情较重可优先使用二甲双胍+罗格列酮;若患者需要胰岛素增敏药物,可优先使用格列本脲


4.机器学习

4.1 降低再入院率

对于糖尿病住院患者高达40%以上的再入院率,若能采取相应措施降低患者的再入院率,就可以使医疗资源更好的利用于更需要的患者身上。影响预测患者是否会再入院的因素很多,其中最主要的因素有:性别、年龄 、入院情况、住院时长、葡萄糖血清测试和糖化血红蛋白测试结果。

4.2预测方法:
在早期阶段,预测患者是否再入院大多通过有经验的专家来判断该患者是否再次入院,但由于判断标准模糊,因此准确率较低。支持向量机(SVM) 是于1995年首先提出的一种基于VC理论和结构风险最小化原理的数据挖掘方法,通过机器学习的复杂机理来发掘大数据中的隐含规律并可作出预测,从而能解决实际问题中维数高、非线性等难点[10-11]。在本文,我们将其用来挖掘糖尿病再入院情况与上述相关指标间的关系[12-13]

4.3预测分析:

以是否再入院为目标向量,性别、年龄、入院情况、住院时长、葡萄糖血清测试和糖化血红蛋白测试结果为输入向量,由于维度较多防止模型过于复杂而产生过拟合,通过进行了十次的十折交叉验证[14],以十次验证的正确率均值来估计算法的准确性。

5fab8768d5526_html_e5ef16c77c65626c.png

由表10可得,支持向量机具有较高的准确率,达到了88.41%,且其平均绝对误差MAE仅为0.1327,预测性能较好。

4.4针对降低再入院率的意见

在机器学习分类器中被评定为会再次入院的患者,我们认为该患者本次住院治疗并未根治,如果此时对其给予出院那么该患者在短期内再次入院的可能性较高,故不应予以出院,让其继续住院进行观察和治疗,直至认为其在短期内不会再住院时再予以出院。



参考文献

[1]杨文英.磺脲类药物应用专家共识[J]. 国外医学:内分泌学分册,2004,24(4):255259.

[2]https://www.cms.gov/Medicare/Medicare-Contracting/ContractorLearningResources/downloads/JA0801.pdf

[3]https://wenku.baidu.com/view/77d6cdee6f1aff00bed51efc.html

[4] Strack B,DeShazo J P,Gennings C,et al. Impact of HbAlc measurement on hospital readmission rates:analysis on 70,000 clinical database patient records[J].BioMed research international,2014,2014.

[5]Bhuvan M S, Kumar A, Zafar A, et al. Identifying diabetic patients with high risk of readmission[J]. arXiv preprint arXiv:1602.04257, 2016.

[6]南敏. 2型糖尿病长期随诊中不同降糖药物组合对颈动脉内—中膜厚度变化的可能影响分析[D].北京协和医学院,2017.

[7]康茜茜. 基于净效益回归分析法的2型糖尿病药物经济学评价[D].北京中医药大学,2017.

[8]https://www.pharmacychecker.com/

[9]余超,吴磊,辛青,黄河浪,黄鹏,刘伟新.基于TOPSIS法的江西省农村中医适宜技术推广绩效评估[J].中国全科医学,2012,15(04):469-471.

[10]刘阳,孙华东,张艳荣,赵志杰.基于支持向量机的糖尿病预测模型研究[J].哈尔滨商业大学学报(自然科学版),2018,34(01):61-65+74.

[11]李娟,吴疆,卢莉,刘东磊,庞星火,胡永华.基于支持向量机建立环境和遗传因素对2型糖尿病的预测模型[J].中华疾病控制杂志,2012,16(02):171-175.

[12]何禹德. 基于数据挖掘技术的糖尿病临床数据分析[D].长春工业大学,2016.

[13]李永娜.基于支持向量机的回归预测综述[J].信息通信,2014(11):32-33.

[14]https://baike.baidu.com/item/%E5%8D%81%E6%8A%98%E4%BA%A4%E5%8F%89%E9%AA%8C%E8%AF%81/8586249?fr=aladdin