9月28日,生物信息领域权威期刊Nucleic Acids Research在线发表了NBA竞猜人工智能学院计智伟教授课题组的题为“CircaKB: a comprehensive knowledgebase of circadian genes across multiple species”的研究论文。在这项工作中,研究人员开发了一个跨物种的昼夜节律基因综合知识库,提供了一套全基因水平上的基因表达振荡模式注释工具。
CircaKB 是第一个在全基因水平上提供基因表达振荡模式系统注释的知识库 (图1)。目前,CircaKB 包含了 226 个时间过程转录组数据集,涵盖各种组织、器官和细胞系,涉及15个代表性物种。此外,它集成了 12 个计算模型,以获得可靠的数据分析并识别基因表达的振荡模式及其变化。CircaKB还为用户提供了强大的交互功能,包括便捷搜索、快速浏览、强大的数据可视化和自定义上传。
图1. CircaKB功能全景图
作为一个全面的知识库,CircaKB为昼夜节律基因的资源和注释提供了一个交互式平台 (图2A)。首先,CircaKB 包含了丰富的数据资源,整合了来自多个国际公共数据库 (例如GEO,EBI,GEN,GTEX) 的226个时间过程转录组数据集,涵盖15个物种和54种器官/组织的5577个样本 (图2B)。CircaKB 涵盖的物种包括哺乳动物、脊椎动物、昆虫、植物和微生物。其次,它集成了12个统计模型,在全基因水平上识别基因表达的振荡模式。具体而言,七个模型用于昼夜节律振荡检测,另外五个模型用于差异节律分析。通过CircaKB提供的Web交互界面,用户可以轻松浏览统计数据并查询有关任何基因的昼夜节律模式的注释。
图2. CircaKB平台概览 (A) CircaKB的整体框架;(B) CircaKB 数据库的样本统计
为了展示CircaKB提供的资源和注释的可靠性,我们选择了有关小鼠和人类的三个典型案例来展示该平台的实用性。
应用案例1。我们以小鼠肝脏为例,演示如何使用CircaKB实现昼夜节律振荡检测 (图3A)。首先,选取三个具有代表性的小鼠肝脏数据集,它们具有不同的采样时间 (24h 或 48h)和采样周期 (1h 或 2h)。由于算法的差异,这些计算模型识别出的具有显著振荡模式的基因数量差异很大(图 3A(I))。JTK_CYCLE、Cosinor和ARSER具有出色的分析能力,可以获得几乎所有的昼夜节律参数。其次,使用数据集GSE11923来评估上述三个模型的分析结果是否存在显著差异。如图3A(II)所示,Cosinor与ARSER之间至少有85%的基因存在重叠。JTK_CYCLE检测到的大多数振荡基因也能被Cosionr识别出来。最后,比较了上述三个模型预测的核心时钟基因Arntl的周期曲线。图3A(III)显示,这三个模型推断出的Arntl的振荡模式相似。
图3. CircaKB 在单个数据集上研究昼夜节律模式的两个案例研究 (A) 识别小鼠肝脏中基因表达的昼夜节律振荡;
(B) 识别老年人和年轻人之间基因表达的昼夜节律模式的改变
应用案例2。采用数据集 GSE71620,展示CircaKB如何助力研究衰老对于人类大脑中基因表达昼夜节律的影响。数据来自年轻和老年捐赠者的BA11大脑区域。数据分析显示,许多基因在老年人大脑中表现出节律差异,包括振幅变化、相移、基线和拟合度变化 (图 3B(I))。特别是,我们发现AD相关生物标志物BACE2具有两种振荡模式变化,这表明 BACE2可能通过昼夜节律改变调节正常衰老 (图3B(II))。
图4. 使用不同数据源研究特定基因的昼夜节律模式 (A) CircaKB的搜索功能;(B) 核心时钟基因 Cry1 的搜索结果涉及不同的生物体;(C) 使用来自不同实验室的数据集预测小鼠心脏 Cry1的昼夜节律模式
应用案例3。探索核心时钟基因Cry1被选为代表案例。首先,用户打开搜索页面,输入基因名 (图4A)。单击“搜索”按钮后,将执行搜索功能以检索CircaKB中所有匹配的数据集。搜索结果如图4B所示,显示了CircaKB中包含基因Cry1的物种。选择感兴趣的物种的特定组织并单击“查看”图标,将转到详细页面以供进一步探索。图4C显示了使用来自不同实验室的数据集预测的小鼠心脏中Cry1的昼夜节律模式。从不同数据源推断出的Cry1 表达的昼夜节律模式非常接近。1) 所有昼夜节律曲线的周期都在24到27小时范围内;2) 峰值出现在17.6小时到21.7小时之间。
另外,CircaKB提供快速的网页响应时间以实现高效访问。在上传带宽为30Mbps、下载带宽为100Mbps、平均延迟为18ms的测试中,我们发现“昼夜节律”和“差异节律”网页的平均加载时间分别仅为645.66ms和1548.24ms。除了昼夜节律的检测以外,CircaKB还能有效检测周期更短、频率更高的超昼夜节律。总之,我们相信 CircaKB 将对昼夜节律基础研究和临床医学产生重大影响。
本文的第一作者为NBA竞猜人工智能学院2022级硕士生朱星臣,通讯作者为计智伟教授。来自UTHealth的Xiaobo Zhou, Seung-Hee Yoo和Zheng Chen三位教授参与了该项研究工作。UNC Chap Hill的Weiling Zhao教授为论文的撰写提供了宝贵建议。