经过前两期的讲解,我们对GWAS(全基因组关联研究)分析所需的数据类型及其质控方法有了一定了解,今天我们将进入核心内容:关联分析。GWAS分析通常采用回归模型来检验标记与表型间的关联。具体来说,零假设(H0)认为标记的回归系数为零,即该标记(如SNP)对表型没有影响;而备择假设(H1)则认为标记的回归系数不为零,即该标记与表型存在相关性。
表型数据类型与关联分析方法
在第一期中,我们提到表型数据的类型主要包括三种:数量性状、质量性状和分级性状。在进行关联分析之前,需要根据不同类型的表型选择合适的分析方法,并且通常对p值进行校正以减少假阳性结果的发生。
1. 连续性状
连续性状指的是在群体中呈现连续分布的性状,例如身高、体重和血压等。适用的方法有:T检验(Student’s t-test)和线性回归(linear regression)。
- 对于assoc分析(未校正p值),可以使用命令:
plink --bfile test --assoc --out result_assoc
- 如果需校正p值,则使用:
plink --bfile test --assoc --adjust --out result_assoc
(生成带有*assocadjusted后缀的文件) - 采用线性回归时,使用命令:
plink --bfile test --linear --out result_linear
- 如需校正p值,命令为:
plink --bfile test --linear --adjust --out result_linear
(协变量通过--covar
参数添加)
2. 阈值性状
阈值性状是指表型数据分为两类的数据,例如1和2(0和-9表示缺失值),通常对应对照组(1)和实验组(2)。可选择的方法包括:卡方检验和逻辑斯蒂回归(logistic regression)。
- 对于assoc分析(未校正p值),使用命令:
plink --bfile test --assoc --out result_assoc
- 如需校正p值,使用:
plink --bfile test --assoc --adjust --out result_assoc
(同样会生成带有*assocadjusted后缀的文件) - 采用logistic回归时,命令为:
plink --bfile test --logistic --out result_logistic
- 如需校正p值,命令为:
plink --bfile test --logistic --adjust --out result_logistic
(可通过--covar
添加协变量)
3. 分级性状
分级性状是通过人为观察能够进行分类的离散型变量,具体定义依赖于经验。例如,对于植物的抗病性,可以根据叶片病斑的面积(0~100%)定义为连续性状,或者设定阈值将其划分为高、中、低的分级性状。
- 对于assoc分析(未校正p值),使用命令:
plink --bfile test --assoc --out result_assoc
- 如需校正p值,使用:
plink --bfile test --assoc --adjust --out result_assoc
- 对logistic回归,命令为:
plink --bfile test --logistic --out result_logistic
- 如需校正p值,命令为:
plink --bfile test --logistic --adjust --out result_logistic
到此,我们终于获得了令人期待的显著性结果。可以对结果表格进行p值筛选,以过滤假阳性,并进行数据的可视化展示,如著名的Q-Q图和曼哈顿图。想要了解如何进行可视化分析吗?别着急,我们会在下一期详细阐述,敬请期待!同时,欢迎关注Z6·尊龙凯时,为您的生物医疗研究保驾护航!