使用教程直接看以下内容

  1. 客户端软件(软件群文件里有)
  2. window软件配置
  3. 安卓配置
  4. 白名单配置

1.服务端脚本(不需要管):

  1. https://github.com/v2fly/v2ray-core
  2. https://github.com/v2fly/fhs-install-v2ray
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#修改配置文件
/usr/local/etc/v2ray/config.json


{
"inbounds": [{
"port": 10086, // 服务器监听端口,必须和上面的一样
"protocol": "vmess",
"settings": {
"clients": [{ "id": "b831381d-6324-4d53-ad4f-8cda48b30811" }]
}
}],
"outbounds": [{
"protocol": "freedom",
"settings": {}
}]
}

重启服务

1
systemctl restart v2ray

2.客户端软件

  1. windows: https://github.com/2dust/v2rayN/releases
  2. 安卓 https://github.com/2dust/v2rayNG

3.windows客户端脚本配置

解压后,开箱即食

Read more »

Plink

Plink是一款开源的,用于全基因组关联分析的工具集;它一般用于对基因型数据进行基本的操作。
以下是记录了关联分析中常见的一些操作

提取指定SNP的坐标信息

  1. 基于SNP id进行提取

--recode 将会提取SNP的信息生成对应的map和ped文件
--extract 则可以进行多个SNP信息的批量提取,后面接一个SNP id的文件

1
2
3
4
#* 提取单个SNP信息
plink --bfile genotypeFile --snp SNP1 --recode --out test
#* 批量提取多个SNP信息
plink --bfile genotypeFile --extract SNP.txt --recode --out test
  1. 基因染色体坐标进行提取

提取指定基因组范围的SNP信息,使用--extract range 范围文件名;范围文件中包含四列信息分别是

  1. 染色体编号(可能是数字)
  2. 起始位置
  3. 终止位置
  4. 区域的label(随便起名字)
1
2
#* 提取指定范围的SNP信息
plink --bfile genotypeFile --extract range local.txt --recode --out test

计算任意两个SNP之间的连锁度

Read more »

GEMMA(Genome-wide Efficient Mixed Model Association algorithm) 基于混合线性模型进行全基因组关联分析,相比于其他关联分析软件在以下几点上有所改进:

1. 更快
2. 更加准确
3. 基因plink二进制数据进行分析
4. 功能更加丰富,同时可以进行多个表型的混合线性模型

1.输入文件格式

  1. 基因型文件
  2. 表型文件
  3. 亲缘关系矩阵
  4. 协方差(可选)

GEMMA的输入文件可以有两种格式,分别是plink二进制文件和BIMBAM格式;由于plink用的比较普遍,这里只介绍如何使用plink文件格式。
需要注意的是两种格式的文件不能够混用,如果用错了可能会出现未知错误

1.1 基于基因型vcf文件生成plink二进制文件

1
2
3
4
5
6
7
8
9
10
11
vcftools --vcf test.vcf --plink --out test 
#out files
#test.ped
#test.map
#基因ped文件生成plink 二进制文件
plink --file test --make-bed --out test

#out files
#test.bed
#test.bim
#test.fam

1.2 表型文件

test.fam文件的第6列代表的是样本对应的表型值,其中每一行代表一个样本;需要注意的是表型文件中样本的顺序要和基因型文件一致.
如果存在多个表型只,可以修改test.fam文件内容,第6列表示第一个表型值,第7列表示第二个表型值;依次类推

Read more »

Bootstrap(自助法取样)

Bootstrap 的思想是生成一系列 bootstrap 伪样本,每个样本是初始数据有放回抽样。通过对伪样本的计算,获得统计量的分布;当样本数量非常大时,每次抽样中不是重复的样本概率趋近为 0.632,故该抽样方法也叫 0.632 自助法

置信区间估计

在正态分布情况下对统计量的置信区间进行估计,在标准正态分布中最常用的就是95%置信区间;从公式上演化推断均值的95%置信区间就是:

标准正态分布

$$\begin{equation}
\mu-1.96\sigma \le X\le\mu+1.96\sigma
\end{equation}$$

但事实上,当找不到合适的分布时,就无法用标准的正态分布计算置信区间了。但幸运的是有一种随机化的方法可以用于计算
非参数分布的置信区间。通过对小样本数据的有放回抽样近似的估计总体的分布,例如我们对包含30个小样本的测试数据进行平均值置信区间估计。

实现步骤

+ 随机进行1000次有放回的抽样,每次抽样从数据集中抽取30个样本
+ 每次抽样后计算当前抽样状态的平均值
+ 最后得到1000次抽样的平均值分布
+ 使用百分位数方法估计平均数的置信区间

代码实现

Read more »

基因型文件处理合集

1.计算两个SNP位点间的连锁度

1
2
3
#* plink 文件前称
bmapFile=/data/cotton/zhenpingliu/LZP_fiberFullPopulationRNAseq/03express_gene/eQTLgenes_Allstages_340samples/indepent_eQTL/Samples_Q1000_SNPs_joint_376.filter2.Chrs.short
plink --bfile $bmapFile --ld SNP303009 SNP304796

2.提取SNP对应的坐标信息

1
2
3
#* 提取任意SNP对应的坐标信息
plink --bfile $bmapFile --snp SNP303009 --make-bed
plink --bfile $bmapFile --extract SNPlist.txt --make-bed
Read more »

神经网络(NN)是在某些输入数据上执行的嵌套函数的集合。 这些函数由参数(由权重和偏差组成)定义,这些参数在 PyTorch 中存储在张量中。

训练 NN 分为两个步骤:

正向传播:在正向传播中,NN 对正确的输出进行最佳猜测。 它通过其每个函数运行输入数据以进行猜测。

反向传播:在反向传播中,NN 根据其猜测中的误差调整其参数。 它通过从输出向后遍历,收集有关函数参数(梯度)的误差导数并使用梯度下降来优化参数来实现。 有关反向传播的更详细的演练,请查看 3Blue1Brown 的视频。

1
import torch,torchvision
1
2
3
4
#* 一个随机张量具有3个通道的64X64的图片
model = torchvision.models.resnet18(pretrained=True)
data = torch.rand(1, 3, 64, 64)
labels =torch.rand(1, 1000)

1.通过模型的每一层运行输入数据,进行正向传播

1
prediction=model(data) #forward pass 

2.计算损失并通过反向传播估计每个模型参数的梯度

1
2
loss=(prediction-labels).sum()
loss.backward() # backward pass

#3.使用SGD优化器根据模型参数的梯度来调整每个模型参数

Read more »

1.张量的初始化

1
2
import torch
import numpy as np
  1. 由原始数据直接生成
  2. 从numpyArray转换而来
1
2
3
4
5
6
data = [[1, 2], [3, 4]]
x_data = torch.tensor(data)

np_array = np.array(data)
x_np = torch.from_numpy(np_array)
x_np
tensor([[1, 2],
        [3, 4]])

2.通过已有的张量来生成新的张量

新的张量可以继承原有张量的结构和数据属性
也可以重新指定新的数据类型

1
2
3
4
5
x_ones=torch.ones_like(x_data) #! 保留原张量的结构和属性
print(f"ones Tensors:\n{x_ones}\n")

x_rand=torch.rand_like(x_data,dtype=torch.float) #! 重写数据类型
print(f"Random Tensor:\n {x_rand}\n")
ones Tensors:
tensor([[1, 1],
        [1, 1]])

Random Tensor:
 tensor([[0.7318, 0.2529],
        [0.1007, 0.8059]])

3.张量的属性

Read more »

Git系列(八)——添加远程库

现在我们已经成功创建了Github帐号并且绑定了我们自己的电脑,那我们就来学习一下如何添加远程仓库。

Read more »

由粘连蛋白介导的人类基因组中染色体loop图谱

科学问题:

远端调控元件与基因的互作对基因的表达有着重要的作用,在不同类型的细胞中这种远端调控元件与基因的互作存在差异的,而这种差异的程度以及是否会造成不同细胞间基因的差异表达仍旧是未知

背景

染色质三维结构

TAD:作为基因组内一个基本的调节单元;促进内部的调节元件与基因发生互作而阻止与附近基因的互作。这种染色质区域化是高基因组结构和功能的重要特征。在动物和果蝇中部分TAD是在CTCF 结合位点形成一个环状的粘连蛋白复合物。作者这里想要探究粘连蛋白介导的loop在不同类型细胞中的情况及其对基因表达的影响。

CTCF模式

Read more »