中国核酸序列数据库使用手册

本帮助文件包括三个部分：数据搜索、数据递交、Blast运算、所有的feature key和qualifier的说明、遗传密码子表。

从Biosino数据库中搜索序列
Biosino数据库提供了符合以下条件下的序列搜索：
1. Submitter：按递交序列者登陆的用户名搜索。
2. Sequence No.：按Biosino数据库的序列号搜索。Biosino数据库序列号由字符“CN”和10位数字组成，本处搜索只要添10位数字就可以了。
3. Sequence Name：按序列的名称搜索。
4. Sequence Length：搜索某些长度范围内的序列。长度的写法为[a,b]，其中a,b为两个正整数（a<=b），用“&”表示将几个长度范围间是“and”的关系，用"|"表示几个长度间是“or”的关系。
5. Divisions：按序列的分类查找。
6. Molecule：按分子的类别查找。
7. Organism：按序列的物种种类查找。
8. Key words：按序列的关键词查找。用 "&"表示不同关键词间的"and"关系, 用"|"表示不同关键词间"or"的关系。例如aa&bb|cc 表示查找关键词中同时含有aa和bb的序列，或是关键词含cc的序列。
9.Between：查找递交日期在那两天间的序列。日期的格式是年年年年-月月-日日.
10. International ID：查找国际序列号为输入字符的序列。带国际序列号的数据指GenBank, EMBL,和DDBJ的序列。
11.One page contains XX records：查找结果每页显示的条目数。
操作：按下"Submit" 键搜索数据库中符合所选的所有条件的序列。要选择条件，只要在前面打勾选上就是了。按下 "Clear" 键清除所有填入的条件和选择勾。

搜索结果用表格形式显示。表格由八部分组成：Sequence ID, Sequence Name, Version, Submitter, Detail, Description, division 和molecule。
sequence ID栏：由Biosino数据库序列号与国际序列号（ Accession Number）以及序列的长度三部分通过":"分开。Biosino数据库序列号是Biosino数据库中的唯一识别号，它由字符"CN"和十位数字组成。国际序列号（Accession Number）是该序列在NCBI, EMBL和DDBJ注册并取得的国际注册号。
Sequence Name栏：序列或其所代表的基因的名称简写，通常限制在12个字符以内。
Version栏指的是该序列的版本号。
Submitter栏指的是向本数据库递交序列的递交者的用户名。任何人都需在进入数据库前注册，在得到确认后就可以对数据库操作。
Detail栏：点击此处会另开一个窗口，从该窗口可以将搜索的数据以NCBI、 EMBL、DDBJ和Biosino四种格式的任何一种显示。
Description栏：该序列的简单描述。通常该描述以该序列的生物物种开头。
Division栏：该序列的分类。
Molecule栏：该序列的分子类型。
本结果显示页有三个地方有超链接：
1、点击Submitter会在一个小的新窗口显示递交者的联系方法。
2、点击Biosino数据库自己的序列号( CN Sequence ID)会显示该序列的详细信息。如果递交者对序列要求保护，并且现在还没到公开数据的话，则此处不会出现超链接，但是你可以通过点击Submitter的超链接与作者联系。在接下去的序列详细信息中，所有的情况与递交序列的一样，请参考递交序列的说明。
3、点击Detail上的超链接，会打开一个新窗口。从窗口的schema下拉菜单中选择一个结果显示格式。总共有四种格式： SIBS的 Biosino, NCBI的GenBank, EBI的EMBL和 NIG的DDBJ。在显示结果的空白处点击鼠标右键（不是选择schema的那部分）选择菜单中的察看源文件，在写字本里出现的就是符合该格式的文件，选择“另存为”可以将结果保存起来。
Continue：如果搜索的结果超出你规定每页显示的条数，点击此超链接会接着显示下一页。
Back：返回到刚才的那一页结果。

返回页首

Blast运算
New Task：点击此处开始一个新的blast运算。
1.Program：选择进行那种blast运算。

Program
Description

blastp
从蛋白质数据库中搜索与所给氨基酸序列相似的序列。

blastn
从核酸数据库中搜索与给定的核酸序列相似的序列。

blastx
将给定核酸序列按所有阅读框翻译成氨基酸序列，然后从蛋白质数据库中搜索与这些翻译的氨基酸序列相似的序列。用此运算可以找到未知核酸序列潜在的蛋白产物。

tblastn
将给定的蛋白序列与核酸数据库中核酸按所有阅读框翻译而成的蛋白进行相似性比较。

tblastx
将给定的核酸序列按六个阅读框翻译而成的蛋白序列与核酸数据库中的核酸按六个阅读框翻译而成的蛋白进行相似性比较。

2.Sequence：粘贴和输入想做blast运算的序列。该序列应该是FASTA格式的，如果你没有FASTA格式的序列好粘贴的话，可以自己在第一行打">",从第二行还是做序列的粘贴。有多条序列做blast，处理方法一样，至少在每条序列前加一行，该行至少包含一个">"。
3.Send the result by email?：这个选项选中的话，blast运算结果将以email方式发送到你注册本数据库所用的email地址中。
操作：点击 "Submit" 开始一个新的blast运算。

Task Queue
1.Task Code：Blast运算的任务号码。要刷新/删除或察看blast运算的结果，点击相应的任务号码。
2.Submit Date：建立该blast运算的时间。这里的时间是GMT国际标准时间（北京时间－8）。
3.Status：运算任务状态。一共有三种状态： waiting, processing和finished。只有当状态是“finished"的时候才可以点击task code察看结果。如果你选择了 "send the result by email?"，结果会自动发送到你的email地址。
4.Complete Date：Blast运算结束的日期和时间。
5.Goto the first page：跳到所有任务的第一页。
6.locate：如果有很多任务在队列中，可以通过输入一个确定的task code直接跳到该任务。

Task result
点击task code察看结果，在接下去的一页会显示该任务递交日期、结束日期、所选的程序及其参数以及输入的序列。
Show result：点击该链接显示blast运算的结果。该结果与从NCBI下载的单机版本的结果形式是一样的。所有的结果会在服务器上保留5天，5天内任何时候都可以查询结果，5天后该结果会被删除。
Delete：删除任务及其结果。

返回页首

向Biosino数据库递交序列
1.Sequence Name: 序列条目的简单描述，通常字符长度限制在12个字符以内。
2.Sequence Length: 递交序列的长度。如果你没有填写该栏目，系统会根据你输入的序列自动计算长度。具体的序列在Sequence(item 11)中粘贴或输入。
3.Organism: 该序列来源的物种的系统命名，由属名＋种名组成。点击下拉菜单，从中选出物种的系统命名。如果递交序列的物种不在列表中，请选择"other"并在"note"中注释或在feature key "source" 的 qulifier "organism"中注明。如果序列包括非遗传密码子的mRNA、cDNA，则需在qualifier "/transl_table"中注明。
4.Molecule: 序列的分子类型。
DNA:直接来源于生物的DNA(基因组DNA). 注：rRNA基因的DNA序列属于这种分子类型。
cDNA to mRNA: 从mRNA反转录而成的cDNA序列。
RNA: 直接来源于生物的RNA(基因组RNA),如病毒.
cDNA to genomic RNA: 剪接处理为mRNA, rRNA, tRNA,或其他胞内RNA前的初始转录物(前体RNA).
tRNA: 来源于转运RNA的序列,如来源于tRNA的cDNA序列.
rRNA: 来源于核糖体RNA的序列(Ribosomal RNA), 如来源于rRNA的cDNA序列。
snRNA: 来源于核小RNA的序列，入来源于snRNA的cDNA序列。
scRNA: 来源于小胞质RNA的序列，如来源于小胞质RNA的cDNA序列。
Other[plasmid]: 既不是遗传物质也不是转录产物的序列。如质粒，B染色体，F因子。
5.Division: 数据库中所有的序列被分成几类，即divisions. 这几类大多是根据物种分类来分的，但也有一些是根据研究所使用的技术特别是近些年所使用的技术来分的。
下表显示的是类别和三字代码：

Division
Code

ESTs
EST

Bacteriophage
PHG

Fungi
FUN

Genome survey
GSS

High Throughput Genome
HTG

Human
HUM

Invertebrates
INV

Organelles
ORG

Other Mammals
MAM

Other Vertebrates
VRT

Plants
PLN

Prokaryotes
PRO

Rodents
ROD

STSs
STS

Synthetic
SYN

Unclassified
UNC

Viruses
VRL

6.Release Date: 如果你选择了保护数据一段时间，该项目让你选择该数据的公开日期。参见"Public?"。
7.Public?: 该项让你选择是否将数据保护一段时间。如果你想立即公开数据，需要选择该项。缺省的选项是数据保护，直到你在 "Release Date"所填写的日期才公开数据。保护的数据仍然可以搜索到，但看不到具体的内容，想要保护数据可以点击递交者的超链接，自行与递交者联系。
8.Topology: 选择序列的拓扑学结构。有线性和环状两项可以选择。
9.Molecular type: 分子类型。单链核酸序列选择 "Single strand"，双链核酸序列选择"Double strand"，其他情况选择"Mixture strand"。
10.Sequence Description:
对序列的简单描述，应该以该序列的物种开头。下面是几种不同情况下描述的例子：

a.For an mRNA having a complete CDS:

Genus species product name (optional gene symbol) mRNA, complete cds.

b.For an mRNA having a partial CDS:

Genus species product name (optional gene symbol) mRNA, partial cds.

c.For a genomic record having a complete CDS:

Genus species product name (optional gene symbol) gene, complete cds.

d.For a genomic record having only one exon and a partial CDS:

Genus species product name (optional gene symbol) gene, exon 2 and partial cds.

e.For mitochondrian or chloroplast-localized proteins and RNA sequences:

Genus species product name (optional gene symbol) gene, complete cds;

[one choice from below].

Genus species XXS ribosomal RNA gene, partial sequence;

[one choice from below].

nuclear gene(s) for mitochondrial product(s)

nuclear gene(s) for chloroplast product(s)

mitochondrial gene(s) for mitochondrial product(s)

chloroplast gene(s) for chloroplast product(s)

f.Non-gene (intergenic) chloroplast or mitochondrial sequences:

Genus species xxx region, chloroplast sequence.

Genus species xxx region, mitochondrial sequence.

11.Sequence:
序列应该是原始的序列，必须是IUPAC单字符。
序列在生物学上是连续的，内部不含有任何未测序的空隙。
避免递交带有很多NN的序列。
序列应该是不带有接头、载体序列的，包括mRNA的polyA序列。
对于修饰碱基，在序列中用标准代码代替，然后用feature key的note和qualifier来描述该修饰碱基。

Nucleotide base codes (IUPAC)

Authority Nomenclature Committee of the International Union of Biochemistry
Reference Cornish-Bowden, A. Nucl Acid Res 13, 3021-3030 (1985)
Contact EMBL
Scope Location descriptors, /codon

Listing

Symbol Meaning
------ -------

        a       a; adenine
        c       c; cytosine
        g       g; guanine
        t       t; thymine in DNA; uracil in RNA
        m       a or c
        r       a or g
        w       a or t
        s       c or g
        y       c or t
        k       g or t
        v       a or c or g; not t
        h       a or c or t; not g
        d       a or g or t; not c
        b       c or g or t; not a
        n       a or c or g or t
Modified base abbreviations

(责任编辑：泉水)

搜索

热门标签:

中国核酸序列数据库使用手册