RNAseq_Database.md

RNA-seq annotation

RNA-seq数据库的注释信息。

Field	字段	例子
Accession	数据编号	自动生成
*Title	标题	给数据一个标题
*Data type	数据类型	RNA-seq
*Preprocess	数据处理	Raw count / RPKM / FPKM / TPM 基因表达数值的含义
Sequencing Technology	测序技术	SMRT-seq / 10x / Div-seq
*Organism	物种	Homo sapiens / Musculus
Cell line	细胞系	实验所用的细胞系
*Description	描述	一段对数据的描述，关于实验设计，样品信息，研究内容
Sample size	样本量	样本数/细胞数(单细胞)
*Expression matrix	基因表达数据	二维表格(csv/tsv)；每一列是细胞，每一行是基因
*Sample annotation	样品注释	二维表格(csv/tsv)；第一列是样本，后面的是对样本的注释
Gene annotation	基因注释	二维表格(csv/tsv)；第一列是基因，后面的是对基因的注释
Fastq file	Fastq文件	原始测序数据在超算上的路径
Publication	出版物	文章题目(超链接)
Author	文章作者	列出数据出处文章主要作者
*Submitter	提交人	名字+联系人邮箱
Affiliation	实验室	提交人所在实验室，如裴端卿组
Submission date	提交日期	数据提交日期，如2017-10-31

(必填)基因表达值列表，以Comma-Separated Values (csv) 或Tab-Separated Values (tsv) 表格存储。每一列代表一个样品/细胞，每一行代表一个基因。比如有四个样本，分别对mef和iPS细胞做了两次重复的RNA-seq，则基因表达表格形如：

	mef_rep_1	mef_rep_2	ips_rep_1	ips_rep_2
Thy1	83	76	1	3
Nanog	20	16	143	204
Sall4	6	7	63	97
Cdk1	56	10	187	122

(必填)对每个样本的注释信息，以Comma-Separated Values (csv) 或Tab-Separated Values (tsv) 格式存储。第一列是样本/细胞编号，第二列之后是对样本的注释。形如：

(选填)对每个基因的注释信息，以Comma-Separated Values(csv)或Tab-Separated Values(tsv)格式存储。第一列为基因id，第二列之后是对基因的注释。形如：