优质服务商推荐更多服务商>

人工智能用于识别基因激活序列并查找致病基因

1534

人工智能每天都在基因组学中扮演着越来越重要的角色。最近,加州大学圣地亚哥分校的一个研究小组利用人工智能技术发现了一种可以为控制基因激活铺平道路的DNA密码。此外,澳大利亚国家科学组织(CSIRO)的研究人员利用人工智能算法分析了超过1万亿个基因数据点,促进了我们对人类基因组的理解,并通过对特定致病基因的定位。


人类基因组和所有DNA包含四个不同的化学碱基:腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶,分别缩写为A、G、T和C。这四个碱基以编码不同基因的各种组合连接在一起。大约四分之一的人类基因是由大致为TATAAA的基因序列编码的,只有微小的变化。这些TATAAA衍生物包含“TATA盒”,非编码DNA序列在由TATA组成的基因的转录初始化中起作用。未知人类基因组的另外75%如何被激活,但是,由于大量的可能的碱基序列组合。


据《科学日报》报道,由于使用了人工智能,来自UCSD的研究人员设法识别出与TATA盒激活一样频繁使用的DNA激活码。研究人员将DNA激活码称为“下游核心启动子区域”(DPR)。该论文的资深作者详细介绍了这一发现,据加州大学圣地亚哥分校生物科学教授James Kagonaga称,下游核心启动子区域(DPR)的发现揭示了如何激活四分之一至三分之一的基因。

人工智能用于识别基因激活序列并查找致病基因_人工智能_机器人

Kadonaga在1996年研究果蝇时,最初发现了一个与DPR部分相对应的基因激活序列。从那时起,Kadonaga和他的同事一直致力于确定哪些DNA序列与DPR活性相关。研究小组首先创建了50万个不同的DNA序列,并确定哪些序列显示了DPR活性。大约200000个DNA序列被用来训练一个人工智能模型,该模型可以预测是否在人类DNA块中观察到DPR活动。据报道,这个模型非常精确。Kadonaga将该模型的性能描述为“难以置信的好”,其预测能力“难以置信”。用于创建模型的过程被证明是如此可靠,以至于研究人员最终创建了一个类似的人工智能,专注于发现新的TATA盒事件。


将来,可以利用人工智能来分析DNA序列模式,并为研究人员提供更多有关人类细胞中基因激活如何发生的见解。Kadonaga相信,就像人工智能如何帮助他的研究人员识别下游核心启动子区域(DPR)的一样,人工智能也将帮助其他科学家发现重要的DNA序列和结构。


正如Medical Express报道的那样,在另一种使用人工智能探索人类基因组的应用中,澳大利亚CSIRO国家科学机构的研究人员使用了一个名为Variant Spark的人工智能平台,以分析超过1万亿点的基因组数据。希望基于人工智能的研究将有助于科学家确定某些与疾病相关的基因的位置。


传统的遗传特征分析方法可能需要数年才能完成,但是正如CSIRO生物信息学负责人Denis Bauser博士所解释的那样,人工智能具有极大地加速这一过程的潜力。Varian Spark是一个人工智能平台,可以分析诸如对某些疾病的易感性等特征,并确定哪些基因可能会影响到它们。


Bauser和其他研究人员利用Variant Spark在短短15小时内分析了大约10万人的综合数据集。VariantSpark分析了一万亿个基因组数据点的一千万个变体,这项任务甚至需要最快的竞争对手使用传统方法数千年才能完成。


正如澳大利亚国家科学组织(CSIRO)电子健康研究中心首席执行官David Hansin博士通过Medical Express解释的那样:“尽管近来全基因组测序技术取得了技术突破,但对复杂疾病的分子和遗传起源仍然知之甚少,这使得预测,采取适当的预防措施和个性化治疗变得困难。”


Bauer认为Variant Spark可以按比例扩展到人群级别的数据集,并有助于确定基因在心血管疾病和神经元疾病发展中的作用。此类工作可能会导致早期干预,个性化治疗以及总体上更好的健康结果。



特别声明:本文仅供交流学习 , 版权归属原作者,并不代表蚂蚜网赞同其观点和对其真实性负责。若文章无意侵犯到您的知识产权,损害了您的利益,烦请与我们联系vmaya_gz@126.com,我们将在24小时内进行修改或删除。

相关推荐: