百奥知

基于数据湖的创新临床研究数据体系建设

发布时间:2022-05-31 阅读:5155

摘要——


随着有关临床研究多项法规和指导原则的不断出台,信息化系统和技术在临床研究中的应用越来越广泛。但创新药临床研究本身具备参与方多、参与环节关联性强、数据多样性复杂等特点,2022年新冠疫情已严重影响到临床研究各个环节顺利进行,如何应用人工智能和新一代信息技术加强临床研究各环节的链通,实现临床数据的高效获取和价值递进成为我们创新工作的方向。


临床研究包括数据采集、随机化、药品管理、医学编码、外部数据、患者随访、药物安全、项目管理、文档管理、影像阅片、病理组织阅片、数据管理等多个环节,依托一体化信息系统建设覆盖临床研究各个环节的数据湖,构建多层次、不同维度的数据分析模型评估临床研究的数据质量、文档质量、项目质量,参与方不仅能够以可视化形式复盘临床研究数据完整性和真实性,而且能够精准定位不同环节的工作结果和质量,通过数据深度挖掘和场景化呈现,倒推企业药品生命周期管理的完善和创新,支持管理层决策与变革。



海量数据与数据湖建设趋势

在万物互联的时代,每天都会产生海量的数据。据统计,2016年全球数据量已达到16.1ZB,预计到2025年数据量还将增加10倍。数据的海量与多元化让数据治理与价值挖掘变得越来越困难,其解决之道如数据湖建设成为国内外最具价值与可行性的趋势。如AWS、Informatica、IBM、微软等公司都已经完成了数据湖的相关产品和解决方案的布局。根据Aberdeen的一项调查显示,运用数据湖技术的企业比同类企业在收入增长方面高出9%。


那么什么是数据湖(Data Lake)?根据维基百科,数据湖是一个存储于企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。运用数据湖,可以规模化存储所有结构化和非结构化数据,按原样存储数据(无需先对数据进行结构化处理),做数据生命周期管理,以多种类型的数据分析如可视化、大数据处理、实时分析、机器学习等用于指导、辅助企业管理决策。


随着大数据时代的到来,数据治理与应用需求激增,数据湖建设势必成为数据管理的重要方式。


药物临床研究数据体系的复杂性

随着中国药企研发实力提升和国家政策监管加强,中国新药研发正在提速。据统计,2020年,中国医药市场在药物研发总投入为247亿美元,占全球药物研发支出的12.1%。预计到2025年,中国在药物研发支出将达到496亿美元,年均复合增长率为15.0%,约是全球同期水平的2倍。新药研发是一个漫长、昂贵和高风险的过程,平均需要超过10-15年的时间,每种新药获批临床使用的平均成本超过10-20亿美元。临床研究阶段(I期、II期、III期及IV期)支出占总体药物研发费用的近70%。


临床研究涉及申办方、研究机构,伦理委员会、研究者、现场管理组织(SMO)、合同研究组织(CRO)、检测单位等多个参与方。临床研究过程需要采集和保存各种不同类型的数据,如体格检查、疾病评估、中心实验室数据、肿瘤影像学数据等,并会产生多个文件,如知情同意书、药品发放与接收文件、EDC测试报告、监查计划与报告、数据管理计划与报告等。这些数据与文件具备采海量采集、多样性大、关联性强、复杂性强的特点。利用信息化技术提高临床研究数据采集的效率与质量,提升临床研究管理水平已经成为行业共识。


目前,临床研究信息化已经覆盖到临床的电子数据采集、随机化、医学编码、外部数据、患者日志、药物安全、项目管理、文档管理、影像阅片、病理组织阅片等临床项目的全部环节。但在国内大部分企业临床研究实践中,首先,由于不同的信息化系统分属不同的部门使用,各系统采购可能会选择不同的供应商,而且均需要独立的信息管理人员,不同部门及人员一般也不探讨深度的数据交换与共享。其次,各系统之间研究数据的交换与共享常受到各种技术与人为因素的制约,如各系统之间的数据结构、数据库类型、数据交换的接口以及开发商的支持力度等。有的企业在推进系统整合的过程中,遇到了各系统使用的历史、新系统人员培训、用户的可接受度等诸多方面的挑战,特别是新数据与历史数据的整合,也面临诸多难题。再次,临床研究各个环节中的数据分散与孤立,导致管理者无法从更高角度、更细维度对项目和数据进行集中与分类管理、进行广度和深度分析和挖掘。


回归本源,从业务流程上来看,各个系统之间并非是孤立的,而是存在密切的联系。所以如何集成临床研究各个环节的数据,建立统一的临床研究大数据体系,并且构建数据分析模型评估临床研究的数据质量、文档质量、项目质量,成为我们创新工作的方向。


此外,近年来新冠疫情的黑天鹅效应已严重影响到临床研究各个环节顺利进行,我们以国内某大型创新药企业为例,为您分享如何应用人工智能和信息化技术加强临床研究各环节的联通,实现临床数据的高效获取和价值挖掘。


基于数据湖的临床研究一体化平台建设

开展一个临床试验项目,需要使用到多个系统如EDCRTSMePROPVCTMSeTMF等。如果各系统独立运行、系统间缺乏互联互通,项目组人员需要登录不同的系统,各系统项目名称、项目代码、研究中心、研究者等项目公用信息需要在不同系统中重复录入,为了防止录入错误,还需要进行一致性比对检查,严重影响工作的效率与质量。于是基于数据湖的临床研究一体化平台建设,实现临床研究信息的整体管理,建立从数据、文档及流程管理的全覆盖,成为不二之选。

EDC

(图:基于eClinical的临床研究一体化平台建设思路)


基于数据湖的临床研究一体化云平台,解决了以下几个问题

1.临床研究一体化平台下用户账户统一管理,实现一个用户,一个账号,一个登录入口。一个用户使用统一的一个账户,可以根据用户的角色自由进入不同的子系统,各子系统间可自动识别,并按照用户的相应角色获取子系统权限,从而避免出现同一用户多个系统的账户重复设置、不同系统的多个登录入口以及使用多个登录账户的问题。


2.实现项目信息的互联互通。主要包括项目基本信息,如项目名称、项目代码、中心名称与中心代码、研究者名称与研究者代码等。项目信息的统 一化管理,大大降低了项目信息的维护成本。


3.实现临床研究数据的互联互通,形成数据湖。通过不同系统间的数据互通,将患者疾病治疗周期内的全部数据包括人口学数据、病史数据、诊断信息、检验数据、治疗数据、随访数据、药品数据、以及跟单疾病相关的其他来源于真实世界的数据汇总集成至统一平台,真正形成可供深度分析和挖掘的临床数据湖。


基于数据湖的临床研究数据分析和价值呈现

一体化平台上汇集了临床研究相关的所有数据与信息,用户使用可视化工具可以实时、直观呈现各种信息便于复盘临床研究数据完整性和真实性,而且能够精准定位不同环节的工作结果和质量,同时使用多种技术对数据进行分析,可以尽早发现数据背后的信息与趋势,为临床研究提供预警。


EDC

(图:基于数据湖的临床研究数据价值路径)

EDC

(图:从受试者入组情况看项目进展风险)

EDC

(图:从临床监察角度看项目质量风险)

EDC

(图:从SAE角度看药物安全风险)

EDC

(图:从临床试验文档视角看项目执行力度)


通过使用数据挖掘技术、自然语言处(natural language processing, NLP)、机器学习等多种技术数据深度挖掘和场景化呈现,倒推药品生命周期管理的完善和创新,支持管理层决策与变革。此外,依托数据分析结果重新调整组织结构,有效节省和优化人力投入,为团队效能提升提供参考。

EDC

(图:管理层以化合物视角看待项目分布情况)

EDC

(图:管理层以临床试验视角来看所有项目情况)


基于数据湖的临床研究数据体系建设的探索除来自企业自身发展的需要, 还跟国家监管机构的规范化指导与监管密切相关。我们不仅要研究和贯彻国内外有关药物研发与临床研究数据相关的法律法规和指导原则,更要重视信息化系统所涉及到的患者隐私和数据安全,才能在迅猛发展的创新药研发浪潮中实现合规与效率、安全与商业的最终平衡,为我国医药产业的弯道超车提供强大助力。


案例启示

随着医药研发市场竞争趋势白热化,对于具备一定数量的药物研发管线的创新药企业而言,建立基于数据湖的临床研究数据体系,深度挖掘数据价值对于提升临床研究效率与质量,乃至于公司重大决策都有很大益处。


当然就目前而言这项工作需要花费时间和投入,对于药企、信息化公司来说具有一定的挑战性。


但毋庸置疑的是在双方密切配合、高效工作下搭建出的临床研究数据体系会既满足国内外临床研究法规和指导原则又能充分映射企业需求符合企业运行规律和成本控制要求,助力新药快速上市。