还用NCBI传SRA数据呢？落伍了！

2017-09-13 12:08 未知生信百科阅读 0

核心摘要： 中国科学院北京基因组研究所生命与健康大数据中心 BIG Data Center BIGD 于2016年2月29日正式成立是研究所三大科研体系之一中心面向我国人口健康和社会可持续发展的重大战略需?? 关键词：精准医学、组学

中国科学院北京基因组研究所生命与健康大数据中心(BIG Data Center, BIGD)于2016年2月29日正式成立，是研究所三大科研体系之一。中心面向我国人口健康和社会可持续发展的重大战略需求，围绕国家精准医学和重要战略生物资源的组学数据，建立海量生物组学大数据汇交、存储与管理的应用与共享平台，发展组学大数据系统整合、挖掘与分析的新技术、新方法，力争建成支撑我国生命科学发展、国际知名的生命与健康大数据中心。

来！看一下主页画风（http://bigd.big.ac.cn/）：

确实，跟NCBI有相似之处！不过，更好用，中国人还是得支持一下自己的事业！

受基因组所的老同事所托，也是怀有对国人数据库的敬仰之情，本篇文章将对如何传数据进行介绍！

第一步，准备工作

准备好你的reads文件，计算好他们的md5。

比如

5aa05dd66815b027b10233c8661e07bb T112_good_1.fq.gz

1c9bd20eae0848fdcaab37cbb3f88cde T112_good_2.fq.gz

前面的这一串数字就是md5值。

这个md5呢是对数据完整性的一种校验，百度下载一个md5计算器，就可以进行计算。当然公司测序之后会连带md5一起发给你，这就方便多了。

##第二步，建立bioproject

点击红框位置，进入之后页面：

点击new bioproject，进入页面

继续点击 Creat Bioproject

填好信息，星号位置必填。点击红色按钮，进行下一步

自己建立项目名称，选择是否立即释放，点击红色按钮，进行下一步

选择什么类型数据，基因组、转录组、还是甲基化数据？纯品还是混样？

点击红色按钮，进行下一步：

此步骤可填可不填，点击红色按钮，进行下一步

最后一步是overview阶段，提交确认，这样，bioproject就建立了。

返回返回可以看到，已经成功建立。

构建biosample

先讲一下biosample什么概念，比如我们在四个条件下测的转录组，包括：高盐胁迫、干旱胁迫、低温胁迫、重金属胁迫。

这样的话，我们要建立四个biosample，加入每一个处理下又存在两个重复，这样的话，在每个biosample的experiment下，我们要建立两个run.

点击红框的biosample，进入下一步

点击New Biosample，进入下一步。

点击Creat Biosample，进入下一步

同样的，点击红色按钮

此步骤注意了，要关联bioproject的信息，将上一步构建好的bioproject号码填写进去。点击的时候，会自动进行关联，直接选择就好了。

点击红色按钮，进行下一步。

选择，进行下一步。

这一步信息填的稍多一些，耐心填完，星号为必填。

最终还是，overview。

没问题，提交！

返回，会看到，biosamle里面已经建立了序列号。

同样的，我们建立四个biosample，为了存储四个条件下的数据。这样的话，在biosample菜单下会存在四个序列号。

Reads提交

点击红色框，进入下一步

点击红框上传。

新建GSA，进项下一步。

填写信息，自己认识的一个别名，提交，进行下一步。

这一步注意了，需要构建Experiment。点击，进行下一步。

假如这四个处理都是在一个bioproject下进行的，那么其余三次选择左边红色方框的内容时候，都需要选择同一个bioproject。然而，四个实验由于属于同一个bioproject不属于同一个biosample。所以之前我们要在同一个bioproject下构建四个biosample，这一步进行的时候，右方框要选择四个不同的biosample.

提交之后，就构建好了。

##构建run，不同重复需要建立多个run。

构建run了，也就是传数据阶段。

填好，刚才我们例子中提供的文件全名和md5信息。记住，一定要全名，包括后缀gz.

根据下面提供的ftp地址，上传就好了，一定要传到GSA文件夹里面，传完之后，就是等待机器审核了。

许久之后，会邮件通知你的序列号。

TAGS: 基因组精准医学转录组组学研究所

发表评论

上一篇：大规模基因研究揭示人类进化

下一篇：儿童安全用药,基因检测能否帮上忙?