RNA-seq annotation

RNA-seq数据库的注释信息。

Field字段例子
Accession数据编号自动生成
*Title标题给数据一个标题
*Data type数据类型RNA-seq
*Preprocess数据处理Raw count / RPKM / FPKM / TPM 基因表达数值的含义
Sequencing Technology测序技术SMRT-seq / 10x / Div-seq
*Organism物种Homo sapiens / Musculus
Cell line细胞系实验所用的细胞系
*Description描述一段对数据的描述,关于实验设计,样品信息,研究内容
Sample size样本量样本数/细胞数(单细胞)
*Expression matrix基因表达数据二维表格(csv/tsv);每一列是细胞,每一行是基因
*Sample annotation样品注释二维表格(csv/tsv);第一列是样本,后面的是对样本的注释
Gene annotation基因注释二维表格(csv/tsv);第一列是基因,后面的是对基因的注释
Fastq fileFastq文件原始测序数据在超算上的路径
Publication出版物文章题目(超链接)
Author文章作者列出数据出处文章主要作者
*Submitter提交人名字+联系人邮箱
Affiliation实验室提交人所在实验室,如裴端卿组
Submission date提交日期数据提交日期,如2017-10-31

数据的组织形式

*Expression matrix

(必填)基因表达值列表,以Comma-Separated Values (csv) 或Tab-Separated Values (tsv) 表格存储。每一列代表一个样品/细胞,每一行代表一个基因。比如有四个样本,分别对mef和iPS细胞做了两次重复的RNA-seq,则基因表达表格形如:

mef_rep_1mef_rep_2ips_rep_1ips_rep_2
Thy1837613
Nanog2016143204
Sall4676397
Cdk15610187122

*Sample annotation

(必填)对每个样本的注释信息,以Comma-Separated Values (csv) 或Tab-Separated Values (tsv) 格式存储。第一列是样本/细胞编号,第二列之后是对样本的注释。形如:

conditionmediumcell_line
mef_rep_1mefserumc57
mef_rep_2mefserumc57
ips_rep_1ips2ic57
ips_rep_2ips2ic57

Gene annotation

(选填)对每个基因的注释信息,以Comma-Separated Values(csv)或Tab-Separated Values(tsv)格式存储。第一列为基因id,第二列之后是对基因的注释。形如:

ensembl_idchromosome
Thy1ENSMUSG00000032011chr9
NanogENSMUSG00000012396chr6
Sall4ENSMUSG00000027547chr2
Cdk1ENSMUSG00000019942chr10