2017年3月18日,在由中國研究型醫(yī)院學會醫(yī)療信息化分會醫(yī)療和臨床科研大數(shù)據(jù)專業(yè)委員會主辦、HIT專家網(wǎng)承辦的“醫(yī)療大數(shù)據(jù)應(yīng)用與實踐研討會”上,國家衛(wèi)生計生委統(tǒng)計信息中心原副主任、中國醫(yī)院協(xié)會信息管理專業(yè)委員會(CHIMA)主任委員王才有闡述了當前對醫(yī)療大數(shù)據(jù)概念的再認識,及其所面臨的機遇與挑戰(zhàn)。
醫(yī)療大數(shù)據(jù)
第一象限:大數(shù)據(jù)采集 在數(shù)據(jù)采集階段,醫(yī)院通常會使用關(guān)系型大數(shù)據(jù)庫(例如Oracle,DB2,MySQL……),其核心訴求是要保障大數(shù)據(jù)的完整性和一致性,確保數(shù)據(jù)不會因為軟硬件故障而遭到損失。此外,隨著互聯(lián)網(wǎng)流量的引入,大數(shù)據(jù)的聯(lián)機處理量級和效率也成為一個重要的考量。一些醫(yī)院為提升聯(lián)機事務(wù)的處理效率,引入分布式大數(shù)據(jù)庫以滿足互聯(lián)網(wǎng)流量下高并發(fā)訪問的需求。
第二象限:大數(shù)據(jù)整理 每個醫(yī)院有很多不同的業(yè)務(wù)系統(tǒng),這些系統(tǒng)會采用相對獨立的大數(shù)據(jù)庫來存儲和處理不同的業(yè)務(wù)數(shù)據(jù)。通常系統(tǒng)使用的關(guān)系型數(shù)據(jù)設(shè)計容量有限,需要定期把歷史數(shù)據(jù)清理到中心大數(shù)據(jù)倉庫,從而確保聯(lián)機交易處理的快速高效。中心大數(shù)據(jù)倉庫是為了存儲各個獨立系統(tǒng)的歷史全量數(shù)據(jù),同時匯集各個系統(tǒng)的數(shù)據(jù),因而在設(shè)計上會采用分布式可擴展的技術(shù)架構(gòu),通過例如Hadoop, Spark等技術(shù)保證可以用低廉的成本,對整個集群容量和處理能力進行無縫擴展。
第三象限:大數(shù)據(jù)分析 用戶需要利用大數(shù)據(jù)資產(chǎn)創(chuàng)造價值。首先,來自各個分立系統(tǒng)的歷史全量大數(shù)據(jù)可以進行關(guān)聯(lián)查詢,通過批量處理構(gòu)建不同維度的大數(shù)據(jù)分析表,驅(qū)動BI和報表展示。然后,基于全量大數(shù)據(jù)的探索式分析,可以對各個系統(tǒng)的大數(shù)據(jù)執(zhí)行相關(guān)性分析,依賴先進的機器學習算法發(fā)掘新的商業(yè)規(guī)則,并利用大數(shù)據(jù)規(guī)律影響指導(dǎo)決策。
第四象限:大數(shù)據(jù)決策 在第三象限通過批量大數(shù)據(jù)處理構(gòu)建的數(shù)據(jù)立方體、維度表和層級表,需要傳遞到關(guān)系型數(shù)據(jù)庫,從而驅(qū)動報表展示,生成決策視圖。進行 決策支持的數(shù)據(jù)立方體、維表數(shù)據(jù)庫又稱為大數(shù)據(jù)集市,BI應(yīng)用和大數(shù)據(jù)驅(qū)動的應(yīng)用可以直接從大數(shù)據(jù)集市獲取數(shù)據(jù)進行業(yè)務(wù)分析,也可以在維表基礎(chǔ)上進行二次大數(shù)據(jù)匯集,形成更高層次的業(yè)務(wù)聚合。 醫(yī)療大數(shù)據(jù)的四大挑戰(zhàn)
醫(yī)療大數(shù)據(jù)面臨四大挑戰(zhàn)
第一,大數(shù)據(jù)來源的挑戰(zhàn)。大數(shù)據(jù)的來源是多元的,質(zhì)量是不受控制的,有些大數(shù)據(jù)是拿來也不可用的,比如:不可及的碎片化大數(shù)據(jù),可及但又是錯誤的大數(shù)據(jù),可及、正確但是殘缺、無法修補的大數(shù)據(jù)。
第二,大數(shù)據(jù)治理的挑戰(zhàn)。沒有新的大數(shù)據(jù)治理方式,解決不了大數(shù)據(jù)共享問題?,F(xiàn)在是社會化的大數(shù)據(jù)采集、分享方式。原有的自給自足的大數(shù)據(jù)治理方式,必須采用新的大數(shù)據(jù)治理方式。
第三,大數(shù)據(jù)分析能力的挑戰(zhàn)。最近幾年,算法進步,并行計算能力進步很快。信息中心更多是學計算機的人,缺少統(tǒng)計分析、流行病學、醫(yī)學的人。
第四,組織能力的挑戰(zhàn)。大數(shù)據(jù)應(yīng)用需要團隊協(xié)同,除去技術(shù)、大數(shù)據(jù)來源,最重要的還是組織問題。要挖掘大數(shù)據(jù)的價值,需要掌握不同的技術(shù)、學科、專業(yè)的人。需要不同專業(yè)的人去去學習,特別是各種學科邊界上的接口人才、組織管理人才,包括數(shù)據(jù)科學家、業(yè)務(wù)專家、決策者、IT工程師等。