forked from yufree/notes
-
Notifications
You must be signed in to change notification settings - Fork 0
/
14-bioinformatics.Rmd
executable file
·150 lines (121 loc) · 4.99 KB
/
14-bioinformatics.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
# 生物信息学数据库
## 数据结构
- 列代表特征 行代表条目
- 每个条目有一个唯一性特征
- 数据表可通过列链接成为关系数据库
## Pubmed 搜索
- PubMed search tags
- [AD] – Affiliation (company or school)
- [ALL] – All fields (eliminates defaults)
- [AU] or [AUTH] – Author
- [1AU] – First author
- [ECNO] – Enzyme Commission Numbers
- [EDAT] – Entry date (YYYY/MM/DD)
- [ISS] - Issue # of journal
- [JOUR] - Journal (Title, Abbreviation , ISSN)
- [LA] – Language
- [PDAT] – Publication date (YYYY/MM/DD)
- [PT] – Publication type
- [SUBS] – Substance name
- [TIAB] – Title/Abstract
- [TW] – Text words
- [UID] – Unique identifiers (primary keys)
- [VOL] or [VI] – Volume of journal
- MeSH terms [MH][MAJR][SH]
- 被 MeSH 索引的关系数据库
- 保守性检索 有层级关系
- 时间段搜索 冒号分割 YYYY/MM/DD:YYYY/MM/DD
- 序列长度搜索 [SLEN] 可以是蛋白 可以是核酸
- 蛋白分子量搜索 [MOLWT]
- 物种搜索 [ORGN]
- Nucleotide 序列蛋白数据库
- [MMDB](http://www.ncbi.nlm.nih.gov/structure/) 3D结构数据库
- [Genome](http://www.ncbi.nlm.nih.gov/genome/) 基因组数据库
- [OMIM](http://omim.org/) 人类孟德尔遗传数据库 用来探索等位基因问题
- [分类数据库](http://www.ncbi.nlm.nih.gov/taxonomy) 用来界定分类
- [GEO](http://www.ncbi.nlm.nih.gov/geo/) 基因芯片的实验数据
- [SNP](http://www.ncbi.nlm.nih.gov/snp/) 基因指纹数据库
## 动态规划
- 用于序列比对
- 对角线得分 按总分评价比对结果
- 可全局 可局部
- 序列比对指标是特异性与相似性
- 特异性指精确匹配比率
- 相似性指精确匹配加化学相似性比率 结构相近则相似
- FASTA 慢准 BLAST 快
- 三种情况 匹配 不匹配 间隔
- 间隔罚分
## 得分矩阵
- 考虑突变的比对
- 蛋白的自然突变率矩阵PM1
- 矩阵自相乘得到外推矩阵 PM10 PM250 取对数为打分矩阵
- 取不同矩阵源于研究目的对多样性的判断
## E 值
- 表示序列的同源性 比对得分的稀有性
- 两个参数 数据库大小(N) 比对得分(S) E = N/S
- 数据库越大越可能随机碰到相同序列 得分越高越可能同源
- E值很小说明同源性很高 E值很大什么说明不了
- 一般阈值1e-04
## PSI-BLAST
- 先用BLAST在一定E值上建库
- 计算新库的氨基酸概率 再与全库比对得分 得到统计显著性
- 可以发现BLAST未发现的序列 建立蛋白家族
## 蛋白
- Profiles 定量描述
- Patterns 定性描述
- Signature 蛋白保守序列
- motif 少于20个氨基酸 指示二级结构
- Domains 超过40个氨基酸 蛋白的球状区
- 共同点 保守
- 正则表达式表示保守区
- E-X(2,4)-[FHM]-X(4)-{P}-L
- E后随意两个,三个,四个然后FHM其中一个,然后随意四个,然后一个不是P,最后为L
- 可以精确可以模糊
- 没有E值
## 蛋白结构预测
- 分子量 道尔顿(Da)描述质量
- 等电点 蛋白不带电的pH值
- 小于7 酸性 中性带负电
- 大于7 碱性 中性带正点
- 网站[计算](http://web.expasy.org/compute_pi/)
- 蛋白定位 分泌 胞内 核内
- MITOPRED 预测线粒体蛋白
## 细菌基因组
- 细菌是环形DNA 真核是线性染色体
- 细菌不加工mRNA
- 细菌一段mRNA上有多个顺反子 也就是多个编码DNA序列
- 操纵子在mRNA编码的上游或下游调控转录
- [GLIMMER](http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi)与[FGENESB](http://www.softberry.com/berry.phtml?topic=fgenesb&group=programs&subgroup=gfindb)用来预测一段序列的转录情况
## 病毒
- 三种 RNA DNA 逆转录病毒 突变快
- RNA病毒三种 双链 正链 负链
- 逆转录基因组简单 Gag Pol Env
- 凝集素等决定病毒亚型
## 单核苷酸多态性(SNP)
- 至少1%种群中存在的DNA单核苷酸变化
- 后果
- 编码区改变影响表型
- 不改变蛋白序列的编码区可能影响mRNA加工
- 启动子或调控区可能影响表达
- 其他区没有影响 可作为染色体标记- 类型
- 不改变氨基酸
- 改变氨基酸
- 非编码区
- 数据库
- [dbSNP](http://www.ncbi.nlm.nih.gov/SNP/)
- [SNPEffect](http://snpeffect.switchlab.org/) SNPs对蛋白的影响
- [SNPedia](http://www.snpedia.com/index.php/SNPedia) SNPs的临床效应
- [1000 基因组外显子计划](http://www.ncbi.nlm.nih.gov/pubmed/23128226) 第二代测序的发展
## 真核基因预测
- CDS是mRNA的子集
- CDS可能比mRNA外显子少
- 基因预测只能发现编码区外显子
- 有些转录变化不改变蛋白序列:UTR区与同义密码子
## DNA指纹
- 重复 突变会影响限制性片段长度
- VNTR 用来排除嫌犯
- PCR 用来扩增相关片段
- [CODIS](http://www.fbi.gov/about-us/lab/biometric-analysis/codis) 区域在美国用来鉴定身份
## Ensembl
- 外显子基因组学[数据库](ensembl.org)
- 可选择人类 鼠 斑马鱼等常见物种