GEMMA使用

GEMMA(Genome-wide Efficient Mixed Model Association algorithm) 基于混合线性模型进行全基因组关联分析,相比于其他关联分析软件在以下几点上有所改进:

1. 更快
2. 更加准确
3. 基因plink二进制数据进行分析
4. 功能更加丰富,同时可以进行多个表型的混合线性模型

1.输入文件格式

  1. 基因型文件
  2. 表型文件
  3. 亲缘关系矩阵
  4. 协方差(可选)

GEMMA的输入文件可以有两种格式,分别是plink二进制文件和BIMBAM格式;由于plink用的比较普遍,这里只介绍如何使用plink文件格式。
需要注意的是两种格式的文件不能够混用,如果用错了可能会出现未知错误

1.1 基于基因型vcf文件生成plink二进制文件

1
2
3
4
5
6
7
8
9
10
11
vcftools --vcf test.vcf --plink --out test 
#out files
#test.ped
#test.map
#基因ped文件生成plink 二进制文件
plink --file test --make-bed --out test

#out files
#test.bed
#test.bim
#test.fam

1.2 表型文件

test.fam文件的第6列代表的是样本对应的表型值,其中每一行代表一个样本;需要注意的是表型文件中样本的顺序要和基因型文件一致.
如果存在多个表型只,可以修改test.fam文件内容,第6列表示第一个表型值,第7列表示第二个表型值;依次类推

1
2
3
#* 合并表型文件和`test.fam`文件
cut -f6 --complement -d" " test.fam |paste - phenotype.txt >new.fam
mv new.fam test.fam

1.3 亲缘关系矩阵

使用GEMMA自带的两种算,计算个体与个体之间基因型的相关性(n x n)

  1. -gk 1 the centered relatedness matrix
  2. -gk 2 the standardized relatedness matrix
1
2
#* 输入文件将会在当前目录的output下的test_Related_matrix.cXX.txt文件
gemma -bfile test -gk 1 -o test

1.4 协方差矩阵

每一行代表一个样本,同样的是样本的顺序要和基因型文件中保持一致;可以囊阔c个协变量(n x c)
如果需要估计截距项时,需要将第一列的值设为1

2. 运行混合线性模型

test.fam文件中表型值所在的列,表型值是从第6列开始的,-n 2表示第7列; 以此类推:

1
gemma -bfile test  -n  -k output/test_Related_matrix.cXX.txt -c covariant.txt  -lmm -o test_lmm 

3. GWAS信号展示

4. QTL跨组织的时期共享

------ 本文结束 thankyou 感谢阅读 ------

欢迎扫一扫上面的微信二维码,订阅 codeHub 公众号