醫(yī)藥行業(yè)類型復(fù)雜的醫(yī)藥產(chǎn)品及服務(wù)、數(shù)量龐大的客戶群體等特性催生了海量級的數(shù)據(jù),具有數(shù)據(jù)量大、類型繁多、價值密度低、速度時效高的典型性大數(shù)據(jù)特征。那么,如何將數(shù)據(jù)組織起來,使其既有吸引力又易于理解?
接軌“大數(shù)據(jù)”,傳統(tǒng)醫(yī)療遇挑戰(zhàn);搭上“互聯(lián)網(wǎng)+”的列車,醫(yī)療機構(gòu)便開始行進在醫(yī)療信息數(shù)字化的路上。
醫(yī)療大數(shù)據(jù)是醫(yī)生對患者診療和治療過程總產(chǎn)生的大數(shù)據(jù),包括患者基本大數(shù)據(jù)、電子病歷、診療大數(shù)據(jù)、醫(yī)學影像大數(shù)據(jù)、醫(yī)學管理、經(jīng)濟數(shù)據(jù)、醫(yī)療設(shè)備和儀器數(shù)據(jù)等,以患者為中心,成為醫(yī)療信息的主要來源。而不斷數(shù)據(jù)化的信息,在使醫(yī)院數(shù)據(jù)庫信息容量不斷膨脹的同時,也對疾病及病人的管理、控制和醫(yī)療大數(shù)據(jù)研究起到了積極的作用,價值不菲。
現(xiàn)在要跨入“互聯(lián)網(wǎng)+”的頻道,其固有的復(fù)雜性和特殊性致使轉(zhuǎn)型難度不容小覷。就拿一個初具規(guī)模的醫(yī)院來說,每天需要接待上萬的患者前來就診,患者的基本信息、影像信息與其他特殊診療信息匯集在一起,那將是一個非常龐大的大數(shù)據(jù)。
據(jù)大數(shù)據(jù)初步統(tǒng)計,上海市區(qū)域醫(yī)療大數(shù)據(jù)信息平臺(上海市“醫(yī)聯(lián)工程”及區(qū)縣衛(wèi)生數(shù)據(jù)中心)已經(jīng)積累了覆蓋3900萬人群、1400 TB數(shù)據(jù)量的電子診療與健康檔案等醫(yī)療衛(wèi)生數(shù)據(jù)(涵蓋了全市38家三級醫(yī)院3900萬就診人群的診療信息,包括患者基本信息、就診信息、健康檔案、檢驗及影像檢查報告、醫(yī)學影像圖像文件、住院相關(guān)病歷、醫(yī)保結(jié)算等醫(yī)療衛(wèi)生數(shù)據(jù),涉及就診記錄2.1億條,處方記錄9.1億條)。日積月累,這個大數(shù)據(jù)量將會持續(xù)快速增長,為醫(yī)院的數(shù)據(jù)存儲、集成、調(diào)用等應(yīng)用帶來巨大壓力。除了數(shù)據(jù)規(guī)模巨大之外,醫(yī)療行業(yè)的數(shù)據(jù)類型和結(jié)構(gòu)極其復(fù)雜,如PACS影像、B超、病理分析等業(yè)務(wù)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)存儲復(fù)雜,并且對傳統(tǒng)的處理方法和技術(shù)帶來巨大挑戰(zhàn)。
從理論層面來講,醫(yī)療大數(shù)據(jù)主要來源于以下幾個方面:
(1)病人就醫(yī)過程中產(chǎn)生的信息。從患者進入醫(yī)院開始,掛號環(huán)節(jié)便將個人姓名、年齡、住址、電話等信息輸入完全了;隨后在醫(yī)生就醫(yī)環(huán)節(jié),病患的身體狀況、醫(yī)療影像等信息也將被錄入數(shù)據(jù)庫;看病結(jié)束以后,患者買單結(jié)算的過程中,又將有費用信息、報銷信息、醫(yī)保使用情況等信息被添加到醫(yī)院的大數(shù)據(jù)庫里面。這將形成醫(yī)療大數(shù)據(jù)最基礎(chǔ)卻也是最龐大的原始資源。
(2)臨床醫(yī)療研究和實驗室數(shù)據(jù)。臨床和實驗室數(shù)據(jù)整合在一起,使得醫(yī)療機構(gòu)面臨的數(shù)據(jù)增長非常快,一張普通CT圖像含有大約150 MB的數(shù)據(jù),一個標準的病理圖則接近5 GB。如果將這些數(shù)據(jù)量乘以人口數(shù)量和平均壽命,僅一個社區(qū)醫(yī)院累積的數(shù)據(jù)量就可達數(shù)萬億字節(jié)甚至數(shù)千萬億字節(jié)(PB)之多。
(3)制藥企業(yè)和生命科學。藥物研發(fā)所產(chǎn)生的數(shù)據(jù)是相當密集的,對于中小型的企業(yè)也在百億字節(jié)(TB)以上的。在生命科學領(lǐng)域,隨著計算能力和基因測序能力逐步增加,美國哈佛醫(yī)學院個人基因組項目負責人詹森·鮑比就認為,到2015年,將會有5000萬人擁有個人基因圖譜,而一個基因組序列文件大小約為750MB。
(4)智能穿戴設(shè)備帶來的健康管理。隨著移動設(shè)備和移動互聯(lián)網(wǎng)的飛速發(fā)展,便攜式的可穿戴醫(yī)療設(shè)備正在普及,個體健康信息都將可以直接連入互聯(lián)網(wǎng),由此將實現(xiàn)對個人健康數(shù)據(jù)隨時隨地的采集,而帶來的數(shù)據(jù)信息量將更是不可估量的。
從行業(yè)技術(shù)上來講,醫(yī)療大數(shù)據(jù)特征包含了大數(shù)據(jù)性+醫(yī)療性
如此規(guī)模巨大的臨床實驗數(shù)據(jù)、疾病診斷數(shù)據(jù)以及居民行為健康數(shù)據(jù)等匯聚在一起所形成的醫(yī)療大數(shù)據(jù),已然呈現(xiàn)出其作為大數(shù)據(jù)的特性,即:
(1)數(shù)據(jù)規(guī)模大(volume)。例如一個CT圖像含有大約150MB的數(shù)據(jù),而一個基因組序列文件大小約為750MB,一個標準的病理圖則大得多,接近5GB。
(2)數(shù)據(jù)結(jié)構(gòu)多樣(variety)。醫(yī)療數(shù)據(jù)通常會包含各種結(jié)構(gòu)化表、非(半)結(jié)構(gòu)化文本文檔(XML和敘述本)、醫(yī)療影像等多種多樣的數(shù)據(jù)存儲形式。
(3)數(shù)據(jù)增長快速(velocity)。一方面,醫(yī)療信息服務(wù)中包含大量在線或?qū)崟r數(shù)據(jù)分析處理,例如,臨床決策支持中的診斷和用藥建議、流行病分析報表生成、健康指標預(yù)警等;另一方面,得益于信息技術(shù)的發(fā)展,越來越多的醫(yī)療信息被數(shù)字化,因此在很長一段時間里,醫(yī)療衛(wèi)生領(lǐng)域數(shù)據(jù)的增長速度將依然會很快。
(4)數(shù)據(jù)價值巨大(value)。毋庸置疑,數(shù)據(jù)是石油,是資源,是資產(chǎn),醫(yī)療大數(shù)據(jù)不僅與每個人的個人生活息息相關(guān),對這些數(shù)據(jù)的有效利用更關(guān)系到國家乃至全球的疾病防控、新藥品研發(fā)和頑疾攻克的能力。
而除了大數(shù)據(jù)所具有的特征(即volume,variety,value,velocity)外,醫(yī)療大數(shù)據(jù)還具有多態(tài)性、不完整性、時間性及冗余性等醫(yī)療領(lǐng)域特有的一些特征。
(1)多態(tài)性醫(yī)療大數(shù)據(jù)包括純數(shù)據(jù)(如體檢、化驗結(jié)果)、信號(如腦電信號、心電信號等)、圖像(如B超、X線等)、文字(如主訴、現(xiàn)/往病史、過敏史、檢測報告等),以及用以科普、咨詢的動畫、語音盒視頻信息等多種形態(tài)的數(shù)據(jù),是區(qū)別于其他領(lǐng)域大數(shù)據(jù)的最顯著特征。
(2)不完整性醫(yī)療數(shù)據(jù)的搜集和處理過程經(jīng)常相互脫節(jié),這使得醫(yī)療數(shù)據(jù)庫不可能對任何疾病信息都能全面反映。大量大數(shù)據(jù)來源于人工記錄,導(dǎo)致數(shù)據(jù)記錄的偏差和殘缺,許多數(shù)據(jù)的表達、記錄本身也具有不確定性,病例和病案尤為突出,這些都造成了醫(yī)療大數(shù)據(jù)的不完整性。
(3)時間性患者的就診、疾病的發(fā)病過程在時間上有一個進度,醫(yī)學檢測的波形、圖像都是時間函數(shù),這些都具有一定的時序性。
(4)冗余性醫(yī)學大數(shù)據(jù)量大,每天都會產(chǎn)生大量信息,其中可能會包含重復(fù)、無關(guān)緊要甚至是相互矛盾的記錄。
下面講述以下關(guān)于醫(yī)療大數(shù)據(jù)的實際應(yīng)用案例
經(jīng)過數(shù)據(jù)的原始積累,并逐步走向成熟的醫(yī)療大數(shù)據(jù),將給我們帶來怎樣的效用呢?根據(jù)全球管理咨詢公司麥肯錫的一份最新報告顯示,醫(yī)療保健領(lǐng)域如果能夠充分有效地利用大數(shù)據(jù)資源,醫(yī)療機構(gòu)和消費者便可節(jié)省高達4500億美元的費用。
大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用可在以下幾個方面發(fā)揮積極作用:
(1)服務(wù)居民。居民大數(shù)據(jù)健康指導(dǎo)服務(wù)系統(tǒng),提供精準醫(yī)療、個性化健康保健指導(dǎo),使居民能在醫(yī)院、社區(qū)及線上的服務(wù)保持連續(xù)性。例如,提供心血管、癌癥、高血壓、糖尿病等慢性病干預(yù)、管理、健康預(yù)警及健康宣教(保健方案訂閱、推送);同時減少患者住院時間,減少急診量,提高家庭護理比例和門診醫(yī)生預(yù)約量。
(2)服務(wù)醫(yī)生。臨床決策支持,如用藥分析、藥品不良反應(yīng)、疾病并發(fā)癥、治療效果相關(guān)性分析、抗生素應(yīng)用分析;或是制定個性化治療方案。
(3)服務(wù)科研。包括疾病診斷與預(yù)測、提高臨床試驗設(shè)計的統(tǒng)計工具和算法、臨床實驗數(shù)據(jù)的分析與處理等方面,如針對重大疾病識別疾病易感基因、極端表現(xiàn)人群;提供最佳治療途徑。
(4)服務(wù)管理機構(gòu)。規(guī)范性用藥評價、管理績效分析;流行病、急病等預(yù)防干預(yù)及措施評價;公眾健康監(jiān)測,付款(或定價)、臨床路徑的優(yōu)化等。
公眾健康服務(wù)。包括危及健康因素的監(jiān)控與預(yù)警、網(wǎng)絡(luò)平臺、社區(qū)服務(wù)等方面。
接軌“大數(shù)據(jù)”,傳統(tǒng)醫(yī)療遇挑戰(zhàn)
“互聯(lián)網(wǎng)+”的日新月異,醫(yī)療大數(shù)據(jù)機構(gòu)便開始行進在醫(yī)療信息數(shù)字化的路上。
醫(yī)療大數(shù)據(jù)是醫(yī)生對患者診療和治療過程總產(chǎn)生的數(shù)據(jù),包括患者基本數(shù)據(jù)、電子病歷、診療數(shù)據(jù)、醫(yī)學影像數(shù)據(jù)、醫(yī)學管理、經(jīng)濟數(shù)據(jù)、醫(yī)療設(shè)備和儀器數(shù)據(jù)等,以患者為中心,成為醫(yī)療信息的主要來源。而不斷數(shù)據(jù)化的信息,在使醫(yī)院數(shù)據(jù)庫信息容量不斷膨脹的同時,也對疾病及病人的管理、控制和醫(yī)療研究起到了積極的作用,價值不菲。但是,發(fā)展了那么多年的傳統(tǒng)醫(yī)療行業(yè),現(xiàn)在要跨入“互聯(lián)網(wǎng)+”的頻道,其固有的復(fù)雜性和特殊性致使轉(zhuǎn)型難度不容小覷。就拿一個初具規(guī)模的醫(yī)院來說,每天需要接待上萬的患者前來就診,患者的基本信息、影像信息與其他特殊診療信息匯集在一起,那將是一個非常龐大的數(shù)據(jù)。據(jù)初步統(tǒng)計,上海市區(qū)域醫(yī)療信息平臺(上海市“醫(yī)聯(lián)工程”及區(qū)縣衛(wèi)生數(shù)據(jù)中心)已經(jīng)積累了覆蓋3900萬人群、1400 TB數(shù)據(jù)量的電子診療與健康檔案等醫(yī)療衛(wèi)生數(shù)據(jù)(涵蓋了全市38家三級醫(yī)院3900萬就診人群的診療信息,包括患者基本信息、就診信息、健康檔案、檢驗及影像檢查報告、醫(yī)學影像圖像文件、住院相關(guān)病歷、醫(yī)保結(jié)算等醫(yī)療衛(wèi)生數(shù)據(jù),涉及就診記錄2.1億條,處方記錄9.1億條)。日積月累,這個數(shù)據(jù)量將會持續(xù)快速增長,為醫(yī)院的數(shù)據(jù)存儲、集成、調(diào)用等應(yīng)用帶來巨大壓力。除了數(shù)據(jù)規(guī)模巨大之外,醫(yī)療行業(yè)的數(shù)據(jù)類型和結(jié)構(gòu)極其復(fù)雜,如PACS影像、B超、病理分析等業(yè)務(wù)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),這些大數(shù)據(jù)存儲復(fù)雜,并且對傳統(tǒng)的處理方法和技術(shù)帶來巨大挑戰(zhàn)。
醫(yī)療大數(shù)據(jù)中“大數(shù)據(jù)”是怎么來的?
隨著醫(yī)療衛(wèi)生信息化建設(shè)進程的不斷加快,醫(yī)療數(shù)據(jù)的類型和規(guī)模也在以前所未有的速度迅猛增長,甚至到了在很大程度上無法利用目前主流軟件工具,在合理的時間內(nèi)達到擷取、管理并整合成為能夠幫助醫(yī)院進行更積極目的經(jīng)營決策的有用信息的地步。而且,如此具有特殊性、復(fù)雜性的龐大的醫(yī)療大數(shù)據(jù),其搜集如果僅靠個人甚至個別機構(gòu),那基本是不可能完成的任務(wù)。那么,這些數(shù)據(jù)到底是怎么產(chǎn)生的,又都來自于哪里呢?經(jīng)過簡單的梳理,我們大致可以把他們歸檔在以下4個框架里:
(1)病人就醫(yī)過程中產(chǎn)生的信息。從患者進入醫(yī)院開始,掛號環(huán)節(jié)便將個人姓名、年齡、住址、電話等信息輸入完全了;隨后在醫(yī)生就醫(yī)環(huán)節(jié),病患的身體狀況、醫(yī)療影像等信息也將被錄入數(shù)據(jù)庫;看病結(jié)束以后,患者買單結(jié)算的過程中,又將有費用信息、報銷信息、醫(yī)保使用情況等信息被添加到醫(yī)院的大數(shù)據(jù)庫里面。這將形成醫(yī)療大數(shù)據(jù)最基礎(chǔ)卻也是最龐大的原始資源。
(2)臨床醫(yī)療研究和實驗室數(shù)據(jù)。臨床和實驗室數(shù)據(jù)整合在一起,使得醫(yī)療機構(gòu)面臨的數(shù)據(jù)增長非???,一張普通CT圖像含有大約150 MB的數(shù)據(jù),一個標準的病理圖則接近5 GB。如果將這些數(shù)據(jù)量乘以人口數(shù)量和平均壽命,僅一個社區(qū)醫(yī)院累積的數(shù)據(jù)量就可達數(shù)萬億字節(jié)甚至數(shù)千萬億字節(jié)(PB)之多。
(3)制藥企業(yè)和生命科學。藥物研發(fā)所產(chǎn)生的數(shù)據(jù)是相當密集的,對于中小型的企業(yè)也在百億字節(jié)(TB)以上的。在生命科學領(lǐng)域,隨著計算能力和基因測序能力逐步增加,美國哈佛醫(yī)學院個人基因組項目負責人詹森·鮑比就認為,到2015年,將會有5000萬人擁有個人基因圖譜,而一個基因組序列文件大小約為750MB。
(4)智能穿戴設(shè)備帶來的健康管理。隨著移動設(shè)備和移動互聯(lián)網(wǎng)的飛速發(fā)展,便攜式的可穿戴醫(yī)療設(shè)備正在普及,個體健康信息都將可以直接連入互聯(lián)網(wǎng),由此將實現(xiàn)對個人健康數(shù)據(jù)隨時隨地的采集,而帶來的數(shù)據(jù)信息量將更是不可估量的。