国际千人基因组计划数据库怎么用起来?
  YqjIGb6XwPoE 2023年11月02日 36 0


从公共数据库中下载基因组或外显子组数据,一般需注意以下几项:

1. 使用权限

2. 物种及参考基因组版本

3. 数据来源及引用:GEO、千人基因组计划等

4. 表型:种族、健康状况、性别、年龄和家系信息

5. 数据类型:遗传变异、体细胞变异;SNV、InDel或SNV;基因芯片或测序(测序仪、单双端及读长)

6. 文件类型:fastq、bam、vcf或gvcf

国际千人基因组计划

项目起始。人类基因组计划耗费10多年后在2003年绘出人类的完整基因组图谱。作为某种延续,也得益于测序通量的提高,国际千人基因组计划(The 1000 Genomes Project, 1000G/1KGP)从2008年启动,到2012年即获得了超过1000人的基因组数据,是科学界首次实现千人规模以上的基因组对比分析(2012年)。

1000G建立的人类遗传变异资源由国际基因组样本资源(The International Genome Sample Resource, IGSR)维护和共享。IGSR官网:

国际千人基因组计划数据库怎么用起来?_大数据

http://www.internationalgenome.org/

项目规划。1000G旨在绘制当时(2012年)最为详尽、最有医学应用价值的人类基因组遗传多态性图谱。其后数据不断扩充,分析结果不断更新和迭代。目前已经有超过2500个人的基因组。2500个人的全部基因组可产生50TB(5万GB)的数据量,包含8万亿个DNA碱基对。

参与单位。华大基因是1000G的主要发起单位之一,承担了非洲人群和400个黄种人的全基因组测序。其它单位有英国桑格研究所和美国国立人类基因组研究所等。

人群分布。每个亚群一般包含几十到一百多个健康人。例如:尼日利亚伊巴丹区域的约鲁巴人;肯尼亚Webuye的Luhya人和Kinyawa的Maasai人;居住于美国西南部的非洲人后裔;居住于东京的日本人;居住于北京的中国人;居住于丹佛的中国人;意大利的Toscani居民;美国犹他州的北欧和西欧人后裔;美国休斯顿的Gujarati印第安人;美国洛杉矶的墨西哥人后裔。项目后期的人群多样性有大幅增加。

1000G数据库的应用

任何两个人在基因水平上99%是一样的,小部分的基因组序列因人而异。每个看起来很健康的人其实都携有数百个罕见的基因变异,其中有些基因变异已证实与某些疾病风险有关。这些基因变异究竟在什么情况下才会实质性地增加患病风险,目前不得而知(聊生信:我们会关注相关的研究与应用进展)。

发现罕见的基因变异1000G可以帮助发现一些携带者占总人口比例不到1%的基因变异。这些罕见基因变异或许与疾病有关,例如可能增加心脏病或癌症的患病风险。对基因变异进行研究有助于开发预防、治疗相关疾病的方法。

作为人群对照。可以帮助研究者不再泛泛地找一些人的基因组(几个或几十个)用于对比,而是直接调阅他们长期生活区域的人群基因组数据,开展更加有针对性的比较。

应用汇总发现疾病发病机理、疾病的易感性、对药物和环境因素的反应性;常见疾病的诊断、个性化预测、预防和治疗;在大的范围内定位人群突变基因、帮助发现人类遗传疾病的相关基因、鉴定特定遗传病人群中的罕见致病基因、更精确地定位已发现的遗传风险因素、挖掘出更多未知的致病遗传因素;药物基因组学、人类群体遗传学、人类进化史。

样本列表的选择和下载

1000G包含的个体主要是来自不同人群的(自我声称)健康的样本(people who declared themselves to be healthy),可方便地下载到原始数据。但作为对照时需要注意:只有少部分样本进行了深度测序,大部分数据都是低深度测序。

主要数据组成

Pilot:    试点,比对到NCBI36

Phase1:约1000例,低深度和外显子数据,GRCh37

Phase2:约1700例,分析方法有更新

Phase3:约3000例,GRCh37,2504例的样本信息公开

1000 Genomes on GRCh38:约2700例样本

GRCH38的不同版本(GRCH38.p1, GRCH38.p2等)是对GRCH38的修补(patch),坐标系不会改变。

数据入口(data portal)

https://www.internationalgenome.org/data-portal/sample

先选择测序技术:

国际千人基因组计划数据库怎么用起来?_机器学习_02

另有全基因组、小RNA、Nanopore、PacBio和单细胞测序,及基因型芯片数据

再选择人群:

国际千人基因组计划数据库怎么用起来?_机器学习_03

最后选择数据集合:

国际千人基因组计划数据库怎么用起来?_java_04

先选择了外显子组(Exome);人群:CHB(北京,n=103);CHS(南方汉族人群,n=113);数据集合:30x on GRCh38。最终有216个样本符合。

点击Download the list下载得到样本名称:

国际千人基因组计划数据库怎么用起来?_数据分析_05

需要根据这些样本列表从1000G数据库下载感兴趣的各类变异文件,我们后续的推文再介绍。

撰写:宋红卫

校对:宋红卫

国际千人基因组计划数据库怎么用起来?_大数据_06

更多人类遗传学知识、文献和分析技术

往期精品(点击图片直达文字对应教程)


国际千人基因组计划数据库怎么用起来?_大数据_07

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
YqjIGb6XwPoE