发布日期:2018-03-28
家谱在遗传学、人类学、经济学等多个领域有着广泛的应用。然而,扩展家谱的收集是繁琐的,且通常依赖于有限地理范围和有使用权限的复杂数据资源。近日,一项发表在《科学》杂志上的研究报告称,利用家谱网站上公开的在线数据收集到了千万规模人口的家谱。
Cienpies Design/Alamy
研究人员首先从Geni.com(该网站为全球最大的合作家谱网站之一,用户在Geni上分享他们的家谱)那里获得了8600万条记录(其中4300万有家族信息)。其使用自动化管道删除任何无效拓扑(例如拥有两个以上父母的个人)。这种自动化方法与系谱学家在关于无效拓扑的决策上拥有90%以上的一致性。数据集中最大的一个家谱包括1300万人,在创始人和他们的后代之间平均跨越了11代。通过评价线粒体DNA (母系传递)和Y染色体短串联重复序列(父系传递)等单系标记的遗传分离模式,也证实了家谱质量的真实。
接下来,作者从在线档案中提取人口统计数据(包括出生和死亡日期以及个人的地理位置)。通过关联相关历史事件(例如,重要战争中死亡率上升),对平均寿命与历史数据进行密切匹配,分析并证实人口出生和死亡期,进一步得出主要城市中个人的首次历史出现与其建立日期相一致,从而确定了位置数据的准确性。
作者还创建了一个模型来检测遗传变异(包括可加性,优势,上位性等)对长寿的影响,该模型表现出了使用全基因组关联研究难以解剖的复杂遗传学。对300万对亲属寿命的分析揭示遗传成分具有显著的加性(约16%),显性贡献率较低(2~4%),没有检测到上位性,(表明基因对长寿的作用可能比科学家们想象的小)。这些新数据中的加性遗传因素低于先前的估计值(约25%),表明致力于从基因组数据中检测致病基因的遗传变异以寻求长寿基因可能比预期的更困难。
此外,作者使用他们的数据集来分析人类迁徙模式时,发现西方社会中的女性移民比男性多,尽管都是短距离迁移。因此,作者推测,大规模的跨国移民活动可能更多的涉及男性而不是女性。
作者通过分析婚姻半径(配偶出生地之间的距离)—随着它的增加,根据“隔离距离”理论可预测会导致夫妻遗传相关性降低。在当时主要的社会政治事件中,平均婚姻半径也如预期的那样发生了变化,例如在1750年和1870年工业革命出现后婚姻半径增长。有趣的是,在1800年之后,婚姻半径的增加和夫妻的基因相关性下降之间存在50年的延迟,在此期间,尽管距离越来越远,但是个人继续与亲戚结婚。作者将这种现象归因于文化规范的改变,(而不是19世纪早期远程交通的出现)。
这项研究证明了研究人员和公众之间(通过在线数据库)合作的有效性。在将基因组测序数据覆盖到这些谱系上之后,用这种方法建立的庞大家系将有助于对遗传学和公共健康方面的定量评估。
参考资料:
Human genetics: Population-scale family trees from publicly available data
来源:生物探索