Engage to Life Energy
全基因组关联剖析(Genome Wide Association Study,GWAS)是已普遍用于寻找与重大遗传疾病或者性状关联的SNPs。此研究妄想的第一步是估算需几多个样本才华以足够的功效(Power)来检测已知SNP对性状的效应值。其中功效是指能够乐成检测到SNP效应值的概率,也就是1-β(β为常见的假设磨练中的第二类过失),一样平常需在80%以上,它主要由以下三个因素决议,包括SNP效应值、样本量和设定的第一类过失(α)。我们先容一个网页界面的在线剖析工具GAS Power Calculator,它的初始版本CaTS阻止2017年已在1000个GWAS研究中被使用(http://csg.sph.umich.edu/abecasis/gas_power_calculator/index.html)【1】。
为了使用GAS Power Calculator,我们需要先相识以下若干个基本看法。
1) OR (Odd Ratio) 值是怀抱SNP效应值或者也叫做关联强度,当基因型为AA时总人群的患病人数比例(PAA),康健人数比例则为(1 - PAA),那么OddAA为PAA /(1 - PAA),当基因型AG时如上同理获得OddAG,那么OR值体现OddAG / OddAA ,同理以是否携带等位基因A与G时,可体现为OddG / OddA。
2) GRR(Genotype Relative Risk)值是指相对危害,好比相关于基因型AA时基因型AG的相对危害是PAG / PAA,基因型GG则是PGG / PAA。
3) α(第一类过失)是指假设磨练中的原假设为真的时间,拒绝原假设的概率为α。
4) β(第二类过失)是指假设磨练中的原假设为假的时间,接受原假设的概率为β。
5) Power(功效)指1 –β,体现能获得指定OR值或者RR值的可能性,一样平常GWAS研究估算的样本量需要抵达80%的统计功效。
6) Disease Allele Frequency(DAF,致病等位基因频率)是指总人群中致病等位基因(碱基)中的频率。
7) Prevalence(患病率)是指总人群中患病人数比例。
GAS Power Calculator在线工具需要输入信息包括已知Prevalence、DAF、各个基因型下的GRRs、α显著性水平(以基因芯片为例,一样平常为5╳10-8)和抽样的康健人数和患病人数,输出信息包括期望功效、患病组与康健组的期望DAF 和 各个基因型下的总人群内患病人数比例,我们以2009年和2017年揭晓的两篇关于脑胶质瘤的GWAS研究为案例【2,3】举行在线操作与效果展示。
首先简略先容下一个危害位点rs10069690(rs编号),它位于第5号染色体的5p15.33区域、物理位置为第1,279,790个碱基以及注释基因TERT,这个位点的GRR为1.45,脑胶质瘤患病率小于0.0001,DAF来自于GnomAD数据库。
我们会见网址(见上),依次输入信息包括Prevalence(0.0001)、GRR(1.45)、Disease Model(Additive)、Significance Level(5╳10-8)、Statistical Power vs.(Cases + Controls)、DAF(0.3584), 基于以上输入信息,GAS Power Calculator给出估算总样本数(康健人数和患病人数)与功效的函数曲线(如图1的右图)。通过此图可以看到当功效为80%时,红线所示其估算的样本数约莫为5000例。而2009年揭晓的文章现实接纳患病人数为1,878例、康健人数3,670例和总人数为5,548例,因此与GAS Power Calculator估算的样本数基本吻合。我们修改输入信息Cases(1,878)和Controls(3,670),盘算功效抵达99.4%(如图2),说明当总人数为5,548时有99.4%的可能性检测到此SNP位点的效应值。
图1,输入信息、估算样本量与功效的函数曲线
图2,期望功效、康健组与患病组的DAF
再简略先容下另一个危害位点rs3751667,它位于第16号染色体的16p13.3区域、物理位置为1,004,554个碱基以及注释基因LMF1,这个位点的GRR为1.14。
会见网址,依次输入信息包括Prevalence(0.0001)、GRR(1.14)、Disease Model(Additive)、Significance Level(5╳10-8)、Statistical Power vs.(Cases + Controls)、DAF(0.2844),基于以上输入信息,GAS Power Calculator给出估算总样本数(康健人数和患病人数)与功效的函数曲线(如图3的右图)。通过此图可以看到当功效为80%时,红线所示其估算的样本数约莫为30,000例。如凭证之前5000例的数据是无法筛选到此SNP的(阈值设定为5╳10-8),确实2009年揭晓的文章也没有报道此SNP。但2017年揭晓的文章报道了这个新危害位点,研究职员现实接纳的样本量扩大到患病人数为12,496例、康健人数18,190例和总人数为30,686例。我们修改输入信息Cases(12,496)和Controls(18,190),盘算功效抵达94.1%(如图4),说明当总人数为30,686时有94.1%的可能性能检测到此SNP位点的效应值。
图3,输入信息、估算样本量与功效的函数曲线
图4,期望功效、康健组与患病组的DAF
通过以上的在线剖析,我们可以相识到当效应值越小,想抵达相同功效则需要更多样本量。另外读者也可以自己实验和视察差别的输入和返回的效果,可以发明当DAF越靠近0.5,想抵达相同功效需要更少的样本量,康健组与患病组的样本量之比越靠近1,功效越高,如图5【4】。
图5,当患病率为5%下、康健组与患病组的样本量之比为1、α显著性水平为5%、差别DAF(或MAF)和OR效应值下,患病数与功效的函数曲线
参考文献
[1] Jennifer Li Johnson, Goncalo R. Abecasis. GAS Power Calculator: web-based power calculator for genetic association studies. Biorxiv. 2017. doi: https://doi.org/10.1101/164343.
[2] Sanjay Shete et al., Genome-wide association study identifies five susceptibility loci for glioma. Nat Genet. 2009 Aug;41(8):899-904. doi: 10.1038/ng.407.
[3] Beatrice S Melin et al., Genome-wide association study of glioma subtypes identifies specific differences in genetic susceptibility to glioblastoma and non-glioblastoma tumors. Nat Genet. 2017 May;49(5):789-794. doi: 10.1038/ng.3823.
[4] Eun Pyo Hong, Ji Wan Park. Sample size and statistical power calculation in genetic association studies. Genomics Inform. 2012 Jun;10(2):117-22. doi: 10.5808/GI.2012.10.2.117.
微信:genenergy