From SNPs to Signals: Automatic Result Filtering and Novelty identification for Genome-Wide Association Studies

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2019-12-16
Department
Major/Subject
Bioinformatics
Mcode
SCI3058
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
52+8
Series
Abstract
In recent years, genome-wide association studies (GWAS) have grown both in size and scope, with sample sizes growing to hundreds of thousands of samples and the focus of the efforts shifting to the amassing of phenome-wide, population-level data resources. These studies have brought with them an unprecedented amount of associations between genomic regions and phenotypic traits. Recently, the FinnGen project was started to create a population-level, phenome-wide GWAS recource of the Finnish population. The large amount of result data created by the FinnGen project creates a need for an automatic process of extracting significant results from the result data. This thesis describes the automatic reporting tool, which was created for the needs of the FinnGen project. The tool extracts and annotates significant results from GWAS summary statistics and compares them to previously identified associations. The tool's motivation and function is described. A data analysis pipeline was created for the tool, and it was tested using a set of GWAS summary statistics. The results come in the form of identified signals per phenotype, as well as information about the novelty of the signals.The results of the experiment show the tool scales to the sizes necessary for the FinnGen project.

Viimeaikaiset edistysaskeleet geenitutkimuksessa ovat mahdollistaneet genominlaajuisten assosiaatiotutkimusten (eng. genome-wide association study, GWAS) kasvamisen niin koossa kuin laajuudessa. Tutkimusten otoskoot ovat kasvaneet satoihin tuhansiin ja tutkimusten pääpaino on siirtynyt kohti koko fenotyyppikirjon sisältäviä, populaatiokohtaisia aineistoja. Näiden aineistojen ja niistä tehtyjen tutkimusten ansiosta genomin ja fyysisten ominaisuuksien välisten assosiaatioiden määrä on räjähtänyt. Vuonna 2017 alkanut FinnGen-projekti tähtää Suomen populaation kattavaan, koko suomalaisen tautikirjon sisältävään aineistoon. Valtavan datamäärän käsittelemiseksi työkalulle, joka erottelisi merkittävät tulokset projektin tuloksista, on syntynyt tarve. Tämä diplomityö esittelee genominlaajuisten assosiaatiotutkimusten automaattisen raportointityökalun, joka luotiin FinnGen-projektin tarpeisiin. Raportointityökalu eristää merkittävät variantit GWAS-tiivistelmätilastoista, lisää niihin tunnetut geeniannotaatiot ja vertaa niitä jo löydettyihin assosiaatioihin. Diplomityössä kuvataan sekä työkalun tarkoitus että sen toiminta. Työkalun käyttämiseksi FinnGen-projektissa sille luotiin WDL-kieleen pohjautuva työnkulkuspesifikaatio, jota testattiin suorittamalla työkalun työnkulku joukolle GWAS-tiivistelmätilastoja. Työkalu tuottaa lopputuloksenaan joukon assosiaatiosignaaleja jokaiselle tiivistelmätilastolle. Näihin signaaleihin on lisätty tieto siitä, mitkä niistä on assosioitu aikaisemmin, ja mitkä ovat uusia assosiaatioita. Työkalun testauksen tulokset osoittavat, että työkalua voidaan käyttää myös FinnGen-projektin tarpeisiin.
Description
Supervisor
Marttinen, Pekka
Thesis advisor
Kurki, Mitja
Keywords
genome-wide association studies, data filtering, novelty identification, summary statistic, FinnGen
Other note
Citation