我们热爱生命科学!-生物行
当前位置: 主页 > 神经科学 > 研究进展

还用NCBI传SRA数据呢?落伍了!

时间:2017-09-13 12:08来源:生信百科   作者:未知 点击: 152次

中国科学院北京基因组研究所生命与健康大数据中心(BIG Data Center, BIGD)于2016年2月29日正式成立,是研究所三大科研体系之一。中心面向我国人口健康和社会可持续发展的重大战略需求,围绕国家精准医学和重要战略生物资源的组学数据,建立海量生物组学大数据汇交、存储与管理的应用与共享平台,发展组学大数据系统整合、挖掘与分析的新技术、新方法,力争建成支撑我国生命科学发展、国际知名的生命与健康大数据中心。

来!看一下主页画风(http://bigd.big.ac.cn/):

还用NCBI传SRA数据呢?落伍了!

确实,跟NCBI有相似之处!不过,更好用,中国人还是得支持一下自己的事业!

受基因组所的老同事所托,也是怀有对国人数据库的敬仰之情,本篇文章将对如何传数据进行介绍!

第一步,准备工作

准备好你的reads文件,计算好他们的md5。

比如

5aa05dd66815b027b10233c8661e07bb T112_good_1.fq.gz

1c9bd20eae0848fdcaab37cbb3f88cde T112_good_2.fq.gz

前面的这一串数字就是md5值。

这个md5呢是对数据完整性的一种校验,百度下载一个md5计算器,就可以进行计算。当然公司测序之后会连带md5一起发给你,这就方便多了。

##第二步,建立bioproject

还用NCBI传SRA数据呢?落伍了!

点击红框位置,进入之后页面:

还用NCBI传SRA数据呢?落伍了!

点击new bioproject,进入页面

还用NCBI传SRA数据呢?落伍了!

继续点击 Creat Bioproject

还用NCBI传SRA数据呢?落伍了!

填好信息,星号位置必填。点击红色按钮,进行下一步

还用NCBI传SRA数据呢?落伍了!

自己建立项目名称,选择是否立即释放,点击红色按钮,进行下一步

还用NCBI传SRA数据呢?落伍了!

选择什么类型数据,基因组、转录组、还是甲基化数据?纯品还是混样?

点击红色按钮,进行下一步:

还用NCBI传SRA数据呢?落伍了!

此步骤可填可不填,点击红色按钮,进行下一步

还用NCBI传SRA数据呢?落伍了!

最后一步是overview阶段,提交确认,这样,bioproject就建立了。

还用NCBI传SRA数据呢?落伍了!

返回返回可以看到,已经成功建立。

构建biosample

先讲一下biosample什么概念,比如我们在四个条件下测的转录组,包括:高盐胁迫、干旱胁迫、低温胁迫、重金属胁迫。

这样的话,我们要建立四个biosample,加入每一个处理下又存在两个重复,这样的话,在每个biosample的experiment下,我们要建立两个run.

还用NCBI传SRA数据呢?落伍了!

点击红框的biosample,进入下一步

还用NCBI传SRA数据呢?落伍了!

点击New Biosample,进入下一步。

还用NCBI传SRA数据呢?落伍了!

点击Creat Biosample,进入下一步

还用NCBI传SRA数据呢?落伍了!

同样的,点击红色按钮

还用NCBI传SRA数据呢?落伍了!

此步骤注意了,要关联bioproject的信息,将上一步构建好的bioproject号码填写进去。点击的时候,会自动进行关联,直接选择就好了。

还用NCBI传SRA数据呢?落伍了!


点击红色按钮,进行下一步。

还用NCBI传SRA数据呢?落伍了!

选择,进行下一步。

还用NCBI传SRA数据呢?落伍了!

这一步信息填的稍多一些,耐心填完,星号为必填。

还用NCBI传SRA数据呢?落伍了!

最终还是,overview。

没问题,提交!

还用NCBI传SRA数据呢?落伍了!

返回,会看到,biosamle里面已经建立了序列号。

同样的,我们建立四个biosample,为了存储四个条件下的数据。这样的话,在biosample菜单下会存在四个序列号。

Reads提交

还用NCBI传SRA数据呢?落伍了!

点击红色框,进入下一步

还用NCBI传SRA数据呢?落伍了!

点击红框上传。

还用NCBI传SRA数据呢?落伍了!

新建GSA,进项下一步。

还用NCBI传SRA数据呢?落伍了!

填写信息,自己认识的一个别名,提交,进行下一步。

还用NCBI传SRA数据呢?落伍了!

这一步注意了,需要构建Experiment。点击,进行下一步。

还用NCBI传SRA数据呢?落伍了!

假如这四个处理都是在一个bioproject下进行的,那么其余三次选择左边红色方框的内容时候,都需要选择同一个bioproject。然而,四个实验由于属于同一个bioproject不属于同一个biosample。所以之前我们要在同一个bioproject下构建四个biosample,这一步进行的时候,右方框要选择四个不同的biosample.

提交之后,就构建好了。

还用NCBI传SRA数据呢?落伍了!

##构建run,不同重复需要建立多个run。

构建run了,也就是传数据阶段。

还用NCBI传SRA数据呢?落伍了!

填好,刚才我们例子中提供的文件全名和md5信息。记住,一定要全名,包括后缀gz.

根据下面提供的ftp地址,上传就好了,一定要传到GSA文件夹里面,传完之后,就是等待机器审核了。

许久之后,会邮件通知你的序列号。

(责任编辑:泉水)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
特别推荐
推荐内容