RNA-seq数据库的注释信息。
| Field | 字段 | 例子 |
|---|---|---|
| Accession | 数据编号 | 自动生成 |
| *Title | 标题 | 给数据一个标题 |
| *Data type | 数据类型 | RNA-seq |
| *Preprocess | 数据处理 | Raw count / RPKM / FPKM / TPM 基因表达数值的含义 |
| Sequencing Technology | 测序技术 | SMRT-seq / 10x / Div-seq |
| *Organism | 物种 | Homo sapiens / Musculus |
| Cell line | 细胞系 | 实验所用的细胞系 |
| *Description | 描述 | 一段对数据的描述,关于实验设计,样品信息,研究内容 |
| Sample size | 样本量 | 样本数/细胞数(单细胞) |
| *Expression matrix | 基因表达数据 | 二维表格(csv/tsv);每一列是细胞,每一行是基因 |
| *Sample annotation | 样品注释 | 二维表格(csv/tsv);第一列是样本,后面的是对样本的注释 |
| Gene annotation | 基因注释 | 二维表格(csv/tsv);第一列是基因,后面的是对基因的注释 |
| Fastq file | Fastq文件 | 原始测序数据在超算上的路径 |
| Publication | 出版物 | 文章题目(超链接) |
| Author | 文章作者 | 列出数据出处文章主要作者 |
| *Submitter | 提交人 | 名字+联系人邮箱 |
| Affiliation | 实验室 | 提交人所在实验室,如裴端卿组 |
| Submission date | 提交日期 | 数据提交日期,如2017-10-31 |
(必填)基因表达值列表,以Comma-Separated Values (csv) 或Tab-Separated Values (tsv) 表格存储。每一列代表一个样品/细胞,每一行代表一个基因。比如有四个样本,分别对mef和iPS细胞做了两次重复的RNA-seq,则基因表达表格形如:
| mef_rep_1 | mef_rep_2 | ips_rep_1 | ips_rep_2 | |
|---|---|---|---|---|
| Thy1 | 83 | 76 | 1 | 3 |
| Nanog | 20 | 16 | 143 | 204 |
| Sall4 | 6 | 7 | 63 | 97 |
| Cdk1 | 56 | 10 | 187 | 122 |
(必填)对每个样本的注释信息,以Comma-Separated Values (csv) 或Tab-Separated Values (tsv) 格式存储。第一列是样本/细胞编号,第二列之后是对样本的注释。形如:
| condition | medium | cell_line | |
|---|---|---|---|
| mef_rep_1 | mef | serum | c57 |
| mef_rep_2 | mef | serum | c57 |
| ips_rep_1 | ips | 2i | c57 |
| ips_rep_2 | ips | 2i | c57 |
(选填)对每个基因的注释信息,以Comma-Separated Values(csv)或Tab-Separated Values(tsv)格式存储。第一列为基因id,第二列之后是对基因的注释。形如:
| ensembl_id | chromosome | |
|---|---|---|
| Thy1 | ENSMUSG00000032011 | chr9 |
| Nanog | ENSMUSG00000012396 | chr6 |
| Sall4 | ENSMUSG00000027547 | chr2 |
| Cdk1 | ENSMUSG00000019942 | chr10 |