RNA-seq数据库的注释信息。
Field | 字段 | 例子 |
---|---|---|
Accession | 数据编号 | 自动生成 |
*Title | 标题 | 给数据一个标题 |
*Data type | 数据类型 | RNA-seq |
*Preprocess | 数据处理 | Raw count / RPKM / FPKM / TPM 基因表达数值的含义 |
Sequencing Technology | 测序技术 | SMRT-seq / 10x / Div-seq |
*Organism | 物种 | Homo sapiens / Musculus |
Cell line | 细胞系 | 实验所用的细胞系 |
*Description | 描述 | 一段对数据的描述,关于实验设计,样品信息,研究内容 |
Sample size | 样本量 | 样本数/细胞数(单细胞) |
*Expression matrix | 基因表达数据 | 二维表格(csv/tsv);每一列是细胞,每一行是基因 |
*Sample annotation | 样品注释 | 二维表格(csv/tsv);第一列是样本,后面的是对样本的注释 |
Gene annotation | 基因注释 | 二维表格(csv/tsv);第一列是基因,后面的是对基因的注释 |
Fastq file | Fastq文件 | 原始测序数据在超算上的路径 |
Publication | 出版物 | 文章题目(超链接) |
Author | 文章作者 | 列出数据出处文章主要作者 |
*Submitter | 提交人 | 名字+联系人邮箱 |
Affiliation | 实验室 | 提交人所在实验室,如裴端卿组 |
Submission date | 提交日期 | 数据提交日期,如2017-10-31 |
(必填)基因表达值列表,以Comma-Separated Values (csv) 或Tab-Separated Values (tsv) 表格存储。每一列代表一个样品/细胞,每一行代表一个基因。比如有四个样本,分别对mef和iPS细胞做了两次重复的RNA-seq,则基因表达表格形如:
mef_rep_1 | mef_rep_2 | ips_rep_1 | ips_rep_2 | |
---|---|---|---|---|
Thy1 | 83 | 76 | 1 | 3 |
Nanog | 20 | 16 | 143 | 204 |
Sall4 | 6 | 7 | 63 | 97 |
Cdk1 | 56 | 10 | 187 | 122 |
(必填)对每个样本的注释信息,以Comma-Separated Values (csv) 或Tab-Separated Values (tsv) 格式存储。第一列是样本/细胞编号,第二列之后是对样本的注释。形如:
condition | medium | cell_line | |
---|---|---|---|
mef_rep_1 | mef | serum | c57 |
mef_rep_2 | mef | serum | c57 |
ips_rep_1 | ips | 2i | c57 |
ips_rep_2 | ips | 2i | c57 |
(选填)对每个基因的注释信息,以Comma-Separated Values(csv)或Tab-Separated Values(tsv)格式存储。第一列为基因id,第二列之后是对基因的注释。形如:
ensembl_id | chromosome | |
---|---|---|
Thy1 | ENSMUSG00000032011 | chr9 |
Nanog | ENSMUSG00000012396 | chr6 |
Sall4 | ENSMUSG00000027547 | chr2 |
Cdk1 | ENSMUSG00000019942 | chr10 |