破译病毒基因,AI抗击疫情立下战功,更有望破解海量基因解读难题

机器之能 · 2020-02-03
人工智能对处理海量基因数据具备明显优势

编者按:本文来自微信公众号“机器之能”(ID:almosthuman2017),作者:付海天、樊晓芳,36氪经授权发布。

基因检测服务伴随检测技术的飞速进步和检测成本的大幅降低,逐渐走进民众视野。然而尽管基因检测技术已达到临床普及应用的水平,但基因数据计算却成为其最大瓶颈。对生物基因组的测序工作通常涉及高达TB级数据的处理,对数据处理与分析技术提出了极高要求。

人工智能对处理海量基因数据具备明显优势,已在基因指标定量分析、基因药物数据库建设、基因疾病知识库构建、基因检测报告数据解读等环节有广泛应用。随着人工智能与基因检测技术的深度融合应用,有望帮助基因检测服务实现基因解析的自动化、批量化和个性化,提高基因数据的解析准确度和速度。

一、基因检测概览

1.1基因检测在医疗领域中的主要应用

①肿瘤筛查(个体化用药/伴随诊断)②新药研发③遗传病检测④心血管疾病⑤生殖健康(新生儿疾病筛查/胚胎植入前检测/无创产前筛查)⑥药物基因组学⑦医学基础研究

1.2基因检测主流技术

①聚合酶链式反应(PCR)②单分子测序③高通量测序技术(NGS)④基因芯片

1.3基因检测服务流程

破译病毒基因,AI抗击疫情立下战功,更有望破解海量基因解读难题

1.4可应用于基因检测的人工智能相关技术

机器学习:利用机器学习技术来识别大量遗传数据集中的模式,用于预测个体发展某些疾病的可能性或帮助获取潜在治疗设计。

深度学习:具有CNN、RNN等多种网络模型,可被应用于鉴别基因的不同成分,比如外显子、内含子、启动子、增强子、剪接位点、非转录区等。

区块链:利用去中心化的共识方式,存储基因大数据,为数据贡献者、基因科学工作者、技术开发者、社区生态参与者提供价值量化和权益回报的网络。

数据挖掘:可用于研究基因表达的相关性,如表达与甲基化的相关性、表达与突变的相关性、表达与SNP位点的相关性、表达与DNA拷贝数的相关性等。

二、基因检测产业及市场概况

2.1基因检测市场规模及政策背景

据前瞻网数据,2007-2017年,中国基因测序行业市场规模增速高于全球整体水平,年均复合增速达47.5%。2018年全球基因测序市场规模在117亿美元左右,其中国内基因测序行业市场规模达到80亿元,估计到2020年将达到98亿元。

2017年5月科技部《“十三五”生物技术创新专项规划》提到发展新一代基因测序技术,重视单分子技术在其中的应用和测序数据的分析解读。2017年7月国务院发布了《新一代人工智能发展规划》,提出基于人工智能开展大规模基因组识别、蛋白组学、代谢组学等研究和新药研发。

2.2基因检测产业链

破译病毒基因,AI抗击疫情立下战功,更有望破解海量基因解读难题

2.3基因检测商业模式

科研级基因检测:覆盖研究方案设计、基因测序、数据挖掘、功能验证等多个模块的解决方案。

临床级基因检测:包括微生物、遗传疾病、肿瘤3类检测,服务于用药指导、治疗方案决策等。

消费级基因检测:包括祖源分析、酒精代谢能力、营养代谢、皮肤特性、健康风险等检测项目。

三、基因检测领域细分应用场景及代表机构

破译病毒基因,AI抗击疫情立下战功,更有望破解海量基因解读难题

四、基因检测代表人工智能技术应用产品/解决方案及应用案例

Emedgene——AI助手:该公司开发了一种自然语言处理(NLP)引擎,可以自动读取新发布的科学文献,将其纳入Emedgene的总知识库中。Emedgene基因组学AI助手的工作是自动收集解读遗传案例时所应用的逻辑,将这种逻辑纳入AI助手中,当输入新的遗传信息时,AI助手会寻找类似的案例进行同逻辑解读。

当AI助手识别到新的致病变体后,Emedgene基因组研究部门则会开发出致病变体的逻辑算法,然后将这些新算法添加到AI助手中,并在下次出现类似情况时显示。

志诺维思——智能基因云(iGenomeCloud):这是一个企业级肿瘤免疫基因组大数据分析平台,能够一站式解决检测机构在面向WES的免疫指标定量分析、免疫指标基线数据库建设、免疫知识库搭建以及报告中辅助解读逻辑等痛点。

该平台为客户保留了定制化再开发的可能性,包括IT硬件配置、变异探测AI模型初始化、变异探测AI模型迭代、LIMS接口、高级质控预警、任务管理调度、报告生成流程以及数据分析管理系统在内的多个模块均可按照客户需求进行定制,对功能和计算通量进行扩展。

恺尔生物——恺尔深图系统:恺尔生物采用RNA-seq技术进行唾液转录组学分析,开发了恺尔深图系统,通过AI模型的优化训练以及验证,提升预测的准确性。目前,公司自主研发的恺尔深图人工智能癌症早期筛查系统已获得独立完整的知识产权保护,并取得医疗器械注册检验。

恺尔深图系统基于人工智能技术的RNA 基因检测对多种癌症早期筛查特异性及敏感性均接近或大于80%;检测周期通常为1-3天,而常规的基于DNA 测序的癌症早期筛查产品检测周期为7-20天。

DeepDiagnos——驱动突变筛选算法:该算法可以快速分析患者的全基因组数据,并找出其中的驱动突变。算法模型主要分为两个部分。第一部是肿瘤的判断,首先通过算法挑选出一系列的突变基因列表,通过这些突变来判断肿瘤发生的可能性。

第二部分则是按照不同疾病分别来构建模型,将检测到的数据放到模型里进行打分,然后将结果按得分的高低顺序排列,分数最高的发生的可能性更高。该算法目前对于I期肿瘤的诊断效果不算理想,更适合肿瘤早筛。

Google——DeepVariant:这是基于深度卷积神经网络开发的一款突变检测软件,DeepVariant通过模拟人类对基因测序比对数据的分析,在不具备任何基因组学先验知识、不对基因测序数据做任何统计假设的条件下,通过监督式学习海量已标记基因组比对数据快照图像,基于Tensorflow深度学习框架训练深层次卷积神经网络(CNN)图像识别模型,实现从高通量测序数据中寻找基因变异进而完成基因分型的功能,其算法具有测序平台无关性、跨物种变异检测、通用性高等传统生物信息学方法所不具备的优势。

IBM——Watson for Genomics(WfG):WfG可在短时间内规模化地从结构化和非结构化的信息源中提炼所需信息,并进一步进行机器学习。同时,WfG能够了解并读懂肿瘤具体的变异情况、病理学情况,并重建知识库、识别潜在治疗方案,帮助医生节省精力和时间,做出治疗决策。

目前,WfG解决方案支持多种肿瘤类型,包括但不限于肺癌、乳腺癌等常见的实体肿瘤、白血病、淋巴瘤、骨髓瘤在内的血液肿瘤和原发灶不明及罕见肿瘤等。

同时,WfG已经与美国14家癌症中心和独立医学实验室的专家团队建立了合作,使临床解读更加规范化。临床研究显示,对于1018例入组患者,经靶向全外显子测序和生信分析后,WfG在3分钟内即完成每例患者的临床解读。

五、人工智能技术在基因检测中的应用局限性

1.国内缺乏基因检测核心知识产权技术产品,进口设备成本较高。 

2.基因数据分析解读专业人员供给不足,人才缺口较大。

3.就业、保险领域存在基因数据歧视隐患,损害个人合法权益 。

4.基因数据的解读技术与深度挖掘速度远不及数据的产出速度。

5.基因结合病理数据容易匹配追踪到具体个人,侵犯个人隐私。

六、基因检测智能化发展趋势

1.基因产业整体将由基因检测向向基因编辑、基因治疗方向延伸。

2.基因测序价格快速下降,带动消费级基因检测市场快速发展。

3.基因检测、免疫治疗等多种技术联合治疗成为临床诊疗趋势。

4.药物基因组学发展推动基因组学药物研发,促进精准医疗发展。

5.基因数据被整合到临床工作流程和系统中,辅助医生决策过程。

+1

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业