-
Notifications
You must be signed in to change notification settings - Fork 0
/
index.Rmd
298 lines (181 loc) · 9.43 KB
/
index.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
---
title: "Oomikaeksperimentide kvaliteedi hindamine P väärtuste põhjal"
subtitle: "e\\. teadustegevuse jääkides sobramas"
author: "Taavi Päll"
date: "26\\. mai 2018"
output:
xaringan::moon_reader:
lib_dir: libs
nature:
highlightStyle: github
highlightLines: true
countIncrementalSlides: false
---
```{r setup, include=FALSE}
options(htmltools.dir.version = FALSE)
library(tidyverse)
```
class: inverse, middle, center
# Sissejuhatus
---
## Müra vs signaal
- Uute teadmiste hankimine sõltub tehniliselt sellest kui edukalt õnnestub andmete mürast signaal ülesse leida
- See kehtib ka oomika ekperimentide korral, kus viiakse läbi paraleelselt tuhandeid mõõtmisi ja detekteeritakse samuti kuni tuhandeid efekte
- Väike osa leitud efektidest on tõelised ja teaduslikult huvitavad. Kuidas teha vahet mis on mis -- tõelised efektid *versus* valepositiivsed?
- Hoidmaks vale positiivsete avastuste arvu kontrolli all, kasutatakse erinevaid meetodeid. Et need meetodid töötaks, on olulised teatud eeldused, näiteks nagu see et P väärtused oleks ühtlase jaotusega
---
## Top table
- Seoses teaduspublikatsioonide kallutatusega, kus teavitatakse ainult nn "edukatest" eksperimentidest, presenteeritakse ka oomika eksperimente teaduspublikatsioonides peamiselt nn. *top* tabelitena artikli lisades, kus on välja toodud mingi väike hulk enim muutunud tunnuseid/geene või geene mida teadlased on suutnud mingilgi moel interpreteerida ja oma mudelisse sobitada
- Peamiseks tulemuseks on üks-kaks geeni, mis on "edukalt" läbinud ka valideerimise ortogonaalsetes katsetes
--
- Tulemused tunduvad huvitavad..., kas tasuks replitseerida<sup>1</sup>?
- Kuidas hinnata sellise eksperimendi kvaliteeti, kus on testitud paralleelselt tuhandeid hüpoteese?
.footnote[[1] Replitseerimine -- uute andmete korjamine kontrollimaks teaduslikke väiteid. Reprodutseerimine keskendub eelkõige andmete analüüsi korratavus. Reprodutseeritavus toetab, kuid ei taga teaduslike väidete paikapidavust.]
---
## QC checklist
- Reprodutseeritavus: kas andmed on reanalüüsiks kasutatavad
- Vastavus (NIH GEO) andmebaasi deponeerimise reeglitega?
- Kui palju (GEO) andmesette sisaldab ka P väärtuste tabeleid?
- P histogrammid – kui palju katseid on hästi/halvasti disainitud või analüüsitud?
---
class: inverse, middle, center
# P väärtused
---
## P väärtused on ühtlase jaotusega
- P väärtused on disainitud olema ühtlase jaotusega, selleks et kontrollida valepositiivsete arvu ehk tüüp 1 viga
--
- Juhuslike P väärtuste jaotus tuleneb [järgmisest seosest](https://stats.stackexchange.com/questions/10613/why-are-p-values-uniformly-distributed-under-the-null-hypothesis#10617), tingimusel kui T on juhuslik muutuja kumulatiivse jaotusega $F(T) \equiv Pr(T<t)$:
$$Pr(P<p) = Pr(F(T)<p) = Pr(T<F^{-1}(p)) = F(F^{-1}(p)) = p$$
--
- Ühtlase jaotuse eeldused:
- nullhüpotees kehtib
- tegemist on pideva jaotusega
---
## Test statistik pidevast jaotusest
Jaotuse kuju ei määra mitte hüpotees vaid parameetrid ([Murdoch, 2008](https://www.tandfonline.com/doi/abs/10.1198/000313008X332421))
$$H_0: \mu \le 0 \\ H_a: \mu \gt 0$$
```{r, echo=FALSE, out.width='60%', fig.align='center'}
knitr::include_graphics("img/murdoch2008-fig2.png")
```
---
## Test statistik diskreetsest jaotusest
P väärtuste jaotus ei ole enam ühtlane ning histogrammidega pole enam midagi suurt peale hakata näiteks FDR kontrolli plaanis..
```{r, echo=FALSE, out.width='60%', fig.align='center'}
knitr::include_graphics("img/murdoch2008-fig3.png")
```
---
## P väärtuste jaotus
```{r, echo=FALSE, fig.align='center'}
h1 <- replicate(200, t.test(rnorm(3, 1, 0.3))$p.value)
ggplot(data = data_frame(h0 = runif(2000), h1 = c(h1, runif(1800)))) +
geom_histogram(aes(h1), bins = 30, center = 0.5) +
geom_histogram(aes(h0), bins = 30, center = 0.5, fill = "gray", alpha = 0.7) +
labs(x = "P väärtus",
y = "N",
caption = "Hall, kui nullhüpotees kehtib, tõelisi efekte ei ole. Must, 10% tõelisi efekte ja statistiline jõud 80%.")
```
---
background-image: url(http://varianceexplained.org/figs/2014-12-15-interpreting-pvalue-histogram/plot_melted-1.png)
class: center, bottom
.footnote[
Pilt: Tüüpilised P väärtuste histogrammid
@[Variance explained](http://varianceexplained.org/statistics/interpreting-pvalue-histogram/).
]
???
Image credit: [Variance explained](http://varianceexplained.org/statistics/interpreting-pvalue-histogram/)
---
background-image: url(img/ncbi-geo.png)
background-size: cover
class: middle, center
# Sekveneerimisandmed NIH Entrez andmebaasis
---
## HT-seq andmekogude arv NIH andmebaasis kasvab kiiresti
- Me otsisime NCBI GEO andmebaasist andmesette kasutades otsingusõna
`"expression profiling by high throughput sequencing"
- Tulemuseks leidsime 13575 andmekogu, millest esimene publitseeriti 2006-09-08
- 68% GEO andmekogudest (9194) sisaldavad inimese või hiire järjestusi
```{r, echo=FALSE, out.width='60%', fig.align='center'}
knitr::include_graphics("img/fig1.png")
```
---
## GEO andmebaasi reeglid
- GEO arhiivil on kolm kohustuslikku komponenti:
1. metaandmed,
1. protsessitud andmed
1. toorandmed
- Protsessitud andmed sisaldavad minimaalselt näiteks kas toor või normaliseeritud sekventside arvu, või ChIP-Seq eksperimentide korral nn. piigifaile (peak files)
---
## Publitseerimine ja lisafailid
- 88% inimese või hiire andmekogudest on seotud ka primaarse publikatsiooniga
- Teiste mudelorganismide puhul on see protsent mõnevõrra madalam: 78%
- Peaaegu kõik GEO andmekogud (13560/13575) sisaldavad lisafaile (supplementary files)
- Neid väheseid andmekogusid, millel puuduvad ülesse laaditud lisafailid, publitseeritakse vaatamata sellele küllalt hästi 73% publication rate (95%CI, 44.9% to 92.2%) which is similar to data sets with supplementary files.
---
## Kõige tavalisemad lisafilinimed
- 'RAW.tar' arhiiv ja sellega seotud 'filelist.txt' on kõige tavalisemad
- 'RAW.tar' sisaldab ühte faili proovi kohta ja need failid on üle failinime seotud metaandmetega
- Teised tavalisemad failinimed on annotatsioonid, 'readme.txt' ja protsessitud andmed: tavaliselt sekventsi arvud, geeniekspressiooni analüüsi tulemused (P väärtused!) ja ChIP-Seq *peak counts*id.
```{r, echo=FALSE, out.width='75%', fig.align='center'}
knitr::include_graphics("img/fig2.png")
```
---
## Missugused failid sisaldavad P väärtuseid?
Praktilistest kaalutlustest lähtuvalt ei tahtnud me kõiki oma seti 34136 GEO lisafaili alla laadida. Pidime tegema valikuid.
- Sekventsijärjestuste arvu esitatakse lisafailides kas toorandmetena (positiivsed täisarvud, diskreetne jaotus) või juba normaliseerituna (pidev jaotus)
- HT-seq andmete põhjal analüüsitakse geeniekspressiooni tavaliselt kasutades toorandmeid
- Normaliseeritud andmeid kasutatakse ainult visualiseerimiseks, kuid need ei sobi differentiaalse ekspressiooni analüüsi reprodutseerimiseks
> Sellised tablid mis sisaldavad juba eksprssioonianalüüsi tulemusi koos adjusteerimata P väärtustega võimaldavad otsest kvaliteedi kontrolli
- Me välistasime pildifailid, binaarsed failid vms. failiformaadid mille puhul võis ennustada, et see ei sisalda kindlasti P väärtusi
---
## Filter
- Failide filtreerimine nimede ja formaatide põhjal vähendas failide arvu ~60% ja GEO seeriate arvu 51%
- Alla laadidav andmesett koosnes 13526 failist 6660 GEO seeriast
```{r, echo=FALSE, fig.align='center'}
knitr::include_graphics("img/fig5.png")
```
.footnote[Arrows from left to right, (1) GEO sets with supplementary files, (2) filter out RAW.tar and filelist.txt files from supplementary file names, (3) supplementary files with flat table formats that were downloaded, (4) tables with p values. Number of p value sets is the number of sets with >4000 features.]
---
class: inverse, middle, center
# Tulemused
---
## HT-seq andmesettide suurus
- Katsetes on keskmiselt 27 proovi ja mediaan on 8. Kõige sagedamini on katses 6 proovi
- Keskmine arv detekteeritud "geene" on 41935 ja mediaan 21899
```{r, echo=FALSE, fig.align='center'}
knitr::include_graphics("img/fig6.png")
```
---
## Tõeliste null hüpoteeside hulk
```{r, echo=FALSE, fig.align='center'}
knitr::include_graphics("img/fig7.png")
```
---
## Top ajakirjad mis publitseerivad HT-seq katseid
```{r, echo=FALSE, fig.align='center'}
knitr::include_graphics("img/fig8.png")
```
---
## Kas tsiteeritavus on seotud katse õnnestumisega
```{r, echo=FALSE, fig.align='center'}
knitr::include_graphics("img/fig9.png")
```
---
## Histogram tüübid GEO HT-seq andmesettides
```{r, echo=FALSE, fig.align='center'}
knitr::include_graphics("img/table1.png")
```
---
## Ebainformatiivsete geenide filtreerimine
- [Tabel](spark.html)
---
## Kokkuvõtvalt
- HT-seq katsete andmeanalüüsi tulemused võiksid olla oluliselt paremini esitatud GEO andmebaasis
- Olemasolevate P väärtuste histogrammide põhjal on umbes 2/3 juhul puudusi katse disainis ja statistilises analüüsis
- Lihtsaim meetod analüüsi parandamiseks on ebainformatiivsete tunnuste välja filtreerimine
- P väärtuste histogrammid peaks olema kohustuslik osa oomika eksperimentide raporteerimisel ja publitseerimisel
---
## Tänud!
Ülo Maiväli ja Tanel Tenson
background-image: url(https://upload.wikimedia.org/wikipedia/commons/b/be/Sharingan_triple.svg)
???
Image credit: [Wikimedia Commons](https://commons.wikimedia.org/wiki/File:Sharingan_triple.svg)