为了查找某个研究领域的相关信息,生物学家往往要花费大量的时间。与此同时由于不同数据库之间的信息可能不同步或者术语不一样,这使得信息的检索更加的麻烦。如果让人来做还勉强能查,但是让机器来查询的话一切就会变的无章可循。Gene Ontology(GO)就是为了解决这种问题而发起的一个项目;每一个GO Term都是由7个数字标识这个Term编号,同时还有一个lable标识具体的生物学功能。每个Tern属于一个本体,在GO中有三个ontology它们分别是:
- molecular function,
- cellular component
- biological process
今天要做的就是大批量的根据某个功能的关键字,搜索已经报导的基因对应的序列信息;从而进行Blast找到你所研究的物种中的同源基因。这里以爬取Ethylene
关键字为例,分以下三个步骤搞:
- 根据关键字爬取GO编号信息
- 根据GO编号爬取对应的基因注释信息
- 根据基因注释信息爬取基因的序列信息