国际千人基因组计划数据库怎么用起来？-摩杜云开发者社区

从公共数据库中下载基因组或外显子组数据，一般需注意以下几项：

1. 使用权限

2. 物种及参考基因组版本

3. 数据来源及引用：GEO、千人基因组计划等

4. 表型：种族、健康状况、性别、年龄和家系信息

5. 数据类型：遗传变异、体细胞变异；SNV、InDel或SNV；基因芯片或测序（测序仪、单双端及读长）

6. 文件类型：fastq、bam、vcf或gvcf

国际千人基因组计划

项目起始。人类基因组计划耗费10多年后在2003年绘出人类的完整基因组图谱。作为某种延续，也得益于测序通量的提高，国际千人基因组计划（The 1000 Genomes Project, 1000G/1KGP）从2008年启动，到2012年即获得了超过1000人的基因组数据，是科学界首次实现千人规模以上的基因组对比分析（2012年）。

1000G建立的人类遗传变异资源由国际基因组样本资源（The International Genome Sample Resource, IGSR）维护和共享。IGSR官网：

国际千人基因组计划数据库怎么用起来？_大数据

http://www.internationalgenome.org/

项目规划。1000G旨在绘制当时（2012年）最为详尽、最有医学应用价值的人类基因组遗传多态性图谱。其后数据不断扩充，分析结果不断更新和迭代。目前已经有超过2500个人的基因组。2500个人的全部基因组可产生50TB（5万GB）的数据量，包含8万亿个DNA碱基对。

参与单位。华大基因是1000G的主要发起单位之一，承担了非洲人群和400个黄种人的全基因组测序。其它单位有英国桑格研究所和美国国立人类基因组研究所等。

人群分布。每个亚群一般包含几十到一百多个健康人。例如：尼日利亚伊巴丹区域的约鲁巴人；肯尼亚Webuye的Luhya人和Kinyawa的Maasai人；居住于美国西南部的非洲人后裔；居住于东京的日本人；居住于北京的中国人；居住于丹佛的中国人；意大利的Toscani居民；美国犹他州的北欧和西欧人后裔；美国休斯顿的Gujarati印第安人；美国洛杉矶的墨西哥人后裔。项目后期的人群多样性有大幅增加。

1000G数据库的应用

任何两个人在基因水平上99%是一样的，小部分的基因组序列因人而异。每个看起来很健康的人其实都携有数百个罕见的基因变异，其中有些基因变异已证实与某些疾病风险有关。这些基因变异究竟在什么情况下才会实质性地增加患病风险，目前不得而知（聊生信：我们会关注相关的研究与应用进展）。

发现罕见的基因变异。1000G可以帮助发现一些携带者占总人口比例不到1%的基因变异。这些罕见基因变异或许与疾病有关，例如可能增加心脏病或癌症的患病风险。对基因变异进行研究有助于开发预防、治疗相关疾病的方法。

作为人群对照。可以帮助研究者不再泛泛地找一些人的基因组（几个或几十个）用于对比，而是直接调阅他们长期生活区域的人群基因组数据，开展更加有针对性的比较。

应用汇总。发现疾病发病机理、疾病的易感性、对药物和环境因素的反应性；常见疾病的诊断、个性化预测、预防和治疗；在大的范围内定位人群突变基因、帮助发现人类遗传疾病的相关基因、鉴定特定遗传病人群中的罕见致病基因、更精确地定位已发现的遗传风险因素、挖掘出更多未知的致病遗传因素；药物基因组学、人类群体遗传学、人类进化史。

样本列表的选择和下载

1000G包含的个体主要是来自不同人群的（自我声称）健康的样本（people who declared themselves to be healthy），可方便地下载到原始数据。但作为对照时需要注意：只有少部分样本进行了深度测序，大部分数据都是低深度测序。

主要数据组成：

Pilot：试点，比对到NCBI36

Phase1：约1000例，低深度和外显子数据，GRCh37

Phase2：约1700例，分析方法有更新

Phase3：约3000例，GRCh37，2504例的样本信息公开

1000 Genomes on GRCh38：约2700例样本

GRCH38的不同版本（GRCH38.p1, GRCH38.p2等）是对GRCH38的修补（patch），坐标系不会改变。

数据入口（data portal）：

https://www.internationalgenome.org/data-portal/sample

先选择测序技术：