GEMMA(Genome-wide Efficient Mixed Model Association algorithm) 基于混合线性模型进行全基因组关联分析,相比于其他关联分析软件在以下几点上有所改进:
1. 更快
2. 更加准确
3. 基因plink二进制数据进行分析
4. 功能更加丰富,同时可以进行多个表型的混合线性模型
1.输入文件格式
- 基因型文件
- 表型文件
- 亲缘关系矩阵
- 协方差(可选)
GEMMA的输入文件可以有两种格式,分别是plink二进制文件和BIMBAM格式;由于plink用的比较普遍,这里只介绍如何使用plink文件格式。
需要注意的是两种格式的文件不能够混用,如果用错了可能会出现未知错误
1.1 基于基因型vcf文件生成plink二进制文件
1 | vcftools --vcf test.vcf --plink --out test |
1.2 表型文件
test.fam
文件的第6列代表的是样本对应的表型值,其中每一行代表一个样本;需要注意的是表型文件中样本的顺序要和基因型文件一致.
如果存在多个表型只,可以修改test.fam
文件内容,第6列表示第一个表型值,第7列表示第二个表型值;依次类推
1 | #* 合并表型文件和`test.fam`文件 |
1.3 亲缘关系矩阵
使用GEMMA自带的两种算,计算个体与个体之间基因型的相关性(n x n)
-gk 1
the centered relatedness matrix-gk 2
the standardized relatedness matrix
1 | #* 输入文件将会在当前目录的output下的test_Related_matrix.cXX.txt文件 |
1.4 协方差矩阵
每一行代表一个样本,同样的是样本的顺序要和基因型文件中保持一致;可以囊阔c个协变量(n x c)
如果需要估计截距项时,需要将第一列的值设为1
2. 运行混合线性模型
test.fam
文件中表型值所在的列,表型值是从第6列开始的,-n 2
表示第7列; 以此类推:
1 | gemma -bfile test -n -k output/test_Related_matrix.cXX.txt -c covariant.txt -lmm -o test_lmm |