Plankton recognition from imaging flow cytometer data using convolutional neural networks
Grönberg, Osku (2018)
Diplomityö
Grönberg, Osku
2018
School of Engineering Science, Laskennallinen tekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2019052717240
https://urn.fi/URN:NBN:fi-fe2019052717240
Tiivistelmä
Research on plankton populations is bottlenecked by the ability to obtain species-level information within a required time frame. Recent technological advances in imaging hardware have made it possible to obtain large amounts of image data from plankton populations. Because of the large number of images, there is a need for an automated solution to classify plankton. This thesis focuses on plankton recognition from images captured with an imaging flow cytometer using convolutional neural networks (CNN). A CNN to classify plankton images is trained and compared to a random forest solution that utilizes handcrafted features. The plankton images are resized for the CNN because there are large disparities in the image sizes. There is also a large class imbalance in the number of samples per class. The trained CNN has an accuracy of 0.713 and the random forest implementation has an accuracy of 0.623 on the same dataset. By using data augmentation methods and larger input images, the CNN reaches a 0.827 accuracy. Planktonpopulaatioiden tutkimisen pullonkaula on kyky saada lajitason tietoa planktonpopulaatioista riittävän lyhyessä ajanjaksossa. Viimeaikaiset teknologiset edistysaskeleet kuvauslaitteissa ovat mahdollistaneet suuren kuvamäärän tuottamisen planktonpopulaatioista. Koska kuvia on paljon, on tarvetta automatisoidulle ratkaisulle planktonlajien luokitteluun. Tämä opinnäytetyö keskittyy planktonlajien tunnistamiseen kuvantavasta virtaussytometriadatasta konvolutiivisilla neuroverkoilla (CNN). Planktoneita luokitteleva CNN opetetaan ja sen toimintakykyä verrataan Random Forest-menetelmään (RF), joka käyttää käsin valittuja kuvapiirteitä. Planktonkuvien kokoa muutetaan CNN:ää varten, koska kuvien ko'oissa on suuria eroja. Näytteiden luokkakohtaisessa määrässä on myös suuria luokkien välisiä eroja. Opetetulla CNN:llä on 0.713 luokittelutarkkuus ja RF:llä on 0.623 tarkkuus samalla datasetillä. Käyttämällä datan augumentointimenetelmiä ja suurempia syötekuvia, CNN saavuttaa 0.827 tarkkuuden.