GenBank数据库你真的了解吗?

发布于 2021-10-11 07:51

本次小编分享一篇于2021年1月8号发表在Nucleic Acids Res上的文献,影响因子16.974。该文献是GenBank 官方发表的一篇阐述过去一年GenBank的发展以及一年来GenBank最新进展的文章,特别是关于SARS-CoV-2数据的存储、提交以及检索方式的更新。并且官方表示,如果在发表的研究中使用了GenBank数据库,要求引用这篇文献。

摘要

GenBank是一个全面的公共数据库,包含478000个正式描述的物种的超过21亿核苷酸序列的9.9万亿碱基对。每日与欧洲核苷酸档案库(the European Nucleotide Archive)和日本DNA数据库(the DNA Data Bank of Japan)进行数据交换,确保覆盖全球的数据。最近的更新包括来自SARS-CoV-2病毒的新数据资源、对登革热和SARS-CoV-2病毒NCBI提交门户和相关提交向导的更新、病毒和原核生物的新分类查询,以及EST和GSS序列的简化提交流程。

介绍

GenBank是一个全面的核苷酸序列的公共数据库,是一个支持注释书目和生物建造的分布式的国家生物技术信息中心(NCBI),也是一个国家医学图书馆(NLM),总部位于美国国家卫生研究院(NIH)。本文简要回顾了过去一年GenBank的发展,总结了GenBank的最新进展。

下载数据库的信息

NCBI以传统的平面文件格式和结构化的ASN.1格式通过匿名FTP (ftp.ncbi.nlm.nih.gov/genbank)提供GenBank序列记录。戒至2020年8月15日发布的数据,有3131个文件需要1461 GB的未压缩磁盘存储。此外,每天的GenBank增量更新文件包含最新版本以来的新记录和更新记录,可以在ftp.ncbi.nlm.nih.gov/genbank/daily-nc/以平面文件格式获得。

GenBank的最新进展

SARS冠状病毒资源

新冠状病毒资源——为了应对2020年初出现的COVID-19大流行,以及伴随而来的病毒序列数据的增加(图2),NCBI提供了一些可用资源,以协助社区提交,NCBI现在提供了一个定制的(https://submit.ncbi.nlm.nih.gov/sarscov2/)SARS-CoV-2序列提交门户。平均而言,该门户在1-2小时内向提交者提供返回访问,组装的序列将用VADR进行注释。使用这些门户不仅确保序列数据可通过INSDC数据库获得,还可通过NCBI病毒资源、RefSeq、BLAST获得。NCBI在一个(https://www.ncbi.nlm.nih.gov/sars-cov-2/)新的登陆页面上收集了这些和其他与SARS-CoV-2有关的资源,除了几个下载SARS-CoV-2数据、查看相关文献等链接外,还包括指向上述资源的链接。

NCBI病毒——特别令人感兴趣的是NCBI病毒资源中专门讨论SARS-CoV-2的新部分。在上面讨论的SARS-CoV-2登陆页面上也会出现此页面的链接。此页用作SARS-CoV-2病毒的信息中心,并在一个表格中收集SARS-CoV-2的可用基因组和蛋白质,用户可以根据16个属性(包括序列长度、源地理区域和收集日期等)浏览和筛选。然后,用户可以选择、下载和排列这些数据,还可以构建系统发育树。

NCBI数据集——NCBI数据集是一种新的实验性产品,允许用户使用web界面、API或UNIX/LINUX命令行工具(https://www.ncbi.nlm.nih.gov/datasets/)轻松下载复杂的基因组数据集。为了应对对SARS-CoV-2数据日益增长的需求,NCBI数据集现在包括一个专门的冠状病毒页面,提供超过18000个冠状病毒基因组的下载,包括来自SARS-CoV-2的(https://www.ncbi.nlm.nih.gov/datasets/coronavirus/genomes)超过15000个完整基因组。除了基因组数据本身,这个界面还允许下载注释SARS-CoV-2蛋白组合。

提交过程改进

提交网站更新——2020年,NCBI提交门户网站(https://submit.ncbi.nlm.nih.gov)进行了几次更新,以改善总体导航和易用性。主页有一个新的、精简的设计,它为提交者提供了公共数据类型的清晰起点,并提供了一个建议工具,允许提交者输入数据类型并快速找到合适的流程。这个新界面的一部分是一系列帮助页面(例如https://submit.ncbi.nlm.nih.gov/about/genbank/),其中显示了提交者在开始提交之前应该准备好的项目列表,以及数据格式指南。一旦提交者开始一个过程,提交“向导”将指导他们完成各个步骤,并为该过程提供额外的帮助。

新提交向导——提交门户提供了三个改进的向导来简化提交:来自登革病毒序列的新向导、来自后生动物的线粒体细胞色素氧化酶(COX1)和处理二倍体基因组组装的更新向导。这些类似的向导加快了提交过程,登革和COX1向导使用VADR和验证功能提供自动功能注释,使提交者不必提供自己的注释。登革向导接受FASTA格式的序列,并要求提供以下来源信息:分离物、血清型/基因型、收集日期、宿主和收集国。COX1向导只接受后生动物(多细胞动物)的COX1基因序列,不能有任何侧翼序列。如果该生物不在NCBI分类数据库中,提交者应提供该生物的分离或标本凭证,并提供线粒体遗传密码。WGS向导(https://submit.ncbi.nlm.nih.gov/subs/genome/)现在包括更好地处理来自二倍体基因组组合的初级和备用单倍型。这些改进减少了以前提交所需的手工管理数量,并最小化了提交所需的步骤。

简化EST, GSS和HTG提交——如前所述,EST和GSS序列现在与所有其他GenBank(和INSDC)序列合并在核苷酸数据库中。同样,EST和GSS序列的提交者现在可以使用标准BankIt工具,将EST和GSS提交作为标准GenBank提交处理(https://submit.ncbi.nlm.nih.gov/about/bankit/)。我们希望HTG序列的提交者也能在2021年初使用GenBank标准提交门户。

改进的分类搜索

病毒——NCBI分类法(https://www.ncbi.nlm.nih.gov/taxonomy/)现在支持基于巴尔的摩分类法的病毒名称的新的Entrez搜索查询,该分类法根据病毒的核酸(DNA或RNA)链(单链或双链)、翻译方向和复制方法(表2)对病毒进行分组。NCBI分类法用国际病毒分类委员会(ICTV)提供的基于进化关系的分级分类法取代了巴尔的摩分类法。虽然进化关系不一定会反映出来,但Baltimore搜索词仍然在使用,并可以提供功能上下文。关于NCBI分类学中的病毒的更多细节在其他地方提供。

原核生物——NCBI分类学还扩展了Entrez搜索词,以发现未根据国际原核生物命名规则(ICNP)有效出版的细菌和古细菌名称。未列入1980年批准名称清单或未直接发表在国际系统与进化微生物杂志(IJSEM)上的原核生物名称可以通过列入随后发表在IJSEM上的验证清单进行验证。在此之前,它们被认为是“有效出版”的,在ICNP的命名中没有地位。这些名字在NCBI分类法中显示,但现在可以在Entrez分类法中使用搜索词过滤它们:effective current name[filter]。同样,一些未经培养的原核生物分类群的候选物种名称,并没有根据本守则有效公布,现在也可在entz Taxonomy中检索:candidatus current name[filter]。

官方给提交者的建议

如前所述,我们继续鼓励提交者提供上下文元数据,以支持进一步使用和分析数据(例如,抽样地点的国家、纬度和经度)以及其他数据(如独立名称或数字加上适用的博物馆/收藏标识符)。我们还敦促提交者使用证据标签来提供关于支持标注证据的信息(https://www.ncbi.nlm.nih.gov/genbank/evidence/)。如果提交者在提交前已经使用了现有的公共测序reads来提高其组件的质量,我们鼓励提交者在提交中引用这些reads的登录号。当提交原核基因组时,我们鼓励提交者要么使用NCBI原核基因组注释管道(https://www.ncbi.nlm.nih.gov/genome/annotation_prok/)注释他们的基因组,要么要求NCBI在基因组发布前注释。

NCBI强烈鼓励提交人在(https://www.ncbi.nlm.nih.gov/bioproject)BioProject数据库中注册测序项目,并在相关出版物发布后更新他们的BioProject记录。这样做在测序项目和它们产生的数据之间提供了可靠的联系,还可能允许连接到BioSample数据库,该数据库提供关于研究中使用的生物材料的额外信息。最后,我们会提醒提提交者在他们的数据公布时通知GenBank,这样我们可以确保他们的数据及时公布。

ZKSXYYDS

中科生信

新浪微博

@中科生信

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材