Visual category detection: an experimental perspective

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Doctoral thesis (article-based) | Defence date: 2012-05-09
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2012
Major/Subject
Mcode
Degree programme
Language
en
Pages
322
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 45/2012
Abstract
Nowadays huge volumes of digital visual data are constantly being produced and archived. Automatically distilling useful information from such information masses requires one to somehow answer the grand long-standing question of computer vision: how to make computers understand images? In this thesis the visual content analysis problem is looked at as a category detection problem. In the category detection formulation, the general image content understanding task is partitioned into a number of small binary decision tasks. In each of the sub-tasks, one decides whether an image belongs to some pre-defined category. A category could be defined, for example, to consist of images taken indoors. By defining an appropriate set of categories, the visual content of an image can be described on a desired level of granularity by determining the image's membership in each one of the categories. This thesis discusses a framework for visual category detection that consists of three major components: feature extraction, feature-wise detection and fusion of the detection results. The point of view in the discussion is empirical: the framework is validated by the good levels of performance systems implementing it have demonstrated in various benchmark tasks of visual analysis. A body of experiments is described that compare various technological alternatives for implementing the three major components of the framework. In addition to comparing implementation techniques, the experiments demonstrate that the discussed generic category detection architecture is very versatile: a set of diverse visual analysis problems can be addressed using the same visual category detection system as a backbone component by equipping the system with a task-specific front-end. From the experiments and discussion in the thesis, one can conclude that the category detection formulation is a useful way of approaching the general image content understanding problem. In category detection, performances reaching the state-of-the-art can be realised using the presented fusion-based system architecture and implementation technologies of the system components.

Nykyaika tuottaa jatkuvasti valtavia määriä visuaalista digitaalista aineistoa. Jotta näistä suurista tietoaineistoista voitaisiin automaattisesti löytää käyttökelpoista informaatiota, olisi löydettävä jonkinlainen vastaus tietokonenäön pitkäaikaiseen peruskysymykseen: kuinka saada tietokoneet ymmärtämään kuvien sisältöä? Tässä väitöskirjassa visuaalisen sisällön luonnehtimista tarkastellaan kategorioiden tunnistamisen näkökulmasta. Yleinen kuvan sisällön luonnehtimistehtävä pilkotaan lukuisiksi pieniksi kyllä-ei -päätöstehtäviksi. Kussakin yksittäisessä päätöstehtävässä vastataan kysymykseen, kuuluuko tarkasteltava kuva johonkin ennalta määrättyyn kategoriaan. Voitaisiin esimerkiksi määritellä, että sisätiloissa otetut kuvat muodostavat yhden kategorian. Kuvien sisältöä voidaan kuvailla halutulla yksityiskohtaisuustasolla määrittelemällä sopiva joukko kategorioita ja tunnistamalla kunkin kategorian kohdalla, mitkä kuvat siihen kuuluvat. Väitöskirjassa käsitellään mallia, jossa kategoriantunnistusjärjestelmä koostuu kolmesta pääosasta: piirreirrotuksesta, piirrekohtaisesta tunnistuksesta sekä näiden tunnistustulosten fuusiosta. Tekstin näkökulma on kokeellinen: tämän järjestelmäarkkitehtuurin toimivuus perustellaan hyvillä suorituskykyarvoilla, joita siihen perustuvat järjestelmät ovat saavuttaneet erilaisissa visuaalisen analyysin suorituskykyä mittaavissa tehtävissä. Väitöskirjassa kuvataan lukuisia kokeita, joissa arvioidaan eri tekniikoita järjestelmän kolmen pääkomponentin toteuttamiseksi. Toteutustekniikoiden vertailemisen lisäksi kokeet myös osoittavat, että esitetty yleiskäyttöinen kategoriantunnistusmalli on hyvin joustava: joukko erilaisia visuaalisia analyysitehtäviä on voitu ratkaista järjestelmällä, jonka ydinosan kaikissa tapauksissa muodostaa sama kategoriantunnistinkomponentti. Eri tehtäviä varten ydin on ympäröity tehtäväkohtaisilla sovitinosilla. Väitöskirjassa esitettyjen kokeiden ja analyysien perusteella voidaan päätellä, että kategorioiden tunnistaminen on käyttökelpoinen tapa lähestyä yleistä kuvien sisällön tulkitsemistehtävää. Voidaan myös todeta, että esitetyllä piirrefuusiota hyödyntävällä järjestelmäarkkitehtuurilla ja esitetyillä järjestelmän osien toteutustekniikoilla saavutetaan tämänhetkinen huipputaso kategoriantunnistuksessa.
Description
Supervising professor
Oja, Erkki, Prof.
Thesis advisor
Laaksonen, Jorma, Dr.
Keywords
computer vision, image analysis, visual category, feature fusion, local image descriptor, konenäkö, kuva-analyysi, visuaalinen kategoria, piirrefuusio, paikallinen kuvapiirre
Other note
Parts
  • [Publication 1]: Ville Viitaniemi and Jorma Laaksonen. Techniques for still image scene classification and object detection. In Proceedings of the International Conference on Artificial Neural Networks (ICANN 2006), Part II, pages 35-44, Athens, Greece, September 2006.
  • [Publication 2]: Ville Viitaniemi and Jorma Laaksonen. Techniques for image classification, object detection and object segmentation. In Proceedings of the 10th International Conference on Visual Information Systems (VISUAL 2008), pages 231-234, Salerno, Italy, September 2008.
  • [Publication 3]: Ville Viitaniemi and Jorma Laaksonen. Evaluating the performance in automatic image annotation: example case by adaptive fusion of global image features. Signal Processing: Image Communication, Volume 22, issue 6, pages 557-568, July 2007.
  • [Publication 4]: Ville Viitaniemi and Jorma Laaksonen. Improving the accuracy of global feature fusion based image categorisation. In Proceedings of the 2nd International Conference on Semantic and Digital Media Technologies (SAMT 2007), pages 1-14, Genova, Italy, December 2007.
  • [Publication 5]: Mats Sjöberg, Markus Koskela, Ville Viitaniemi and Jorma Laaksonen. Indoor location recognition using fusion of SVM-based visual classifiers. In Proceedings of the 2010 IEEE International Workshop on Machine Learning for Signal Processing, pages 343-348, Kittilä, Finland, August-September 2010.
  • [Publication 6]: Ville Viitaniemi, Mats Sjöberg, Markus Koskela and Jorma Laaksonen. Concept-based video search with the PicSOM multimedia retrieval system. Technical report TKK-ICS-R39, Aalto University, December 2010.
  • [Publication 7]: Ville Viitaniemi and Jorma Laaksonen. Experiments on selection of codebooks for local image feature histograms. In Proceedings of the 10th International Conference on Visual Information Systems (VISUAL 2008), pages 126-137, Salerno, Italy, September 2008.
  • [Publication 8]: Ville Viitaniemi and Jorma Laaksonen. Combining local feature histograms of different granularities. In Proceedings of the 16th Scandinavian Conference on Image Analysis (SCIA 2009), pages 636-645, Oslo, Norway, June 2009.
  • [Publication 9]: Ville Viitaniemi and Jorma Laaksonen. Spatial extensions to bag of visual words. In Proceedings of the ACM International Conference on Image and Video Retrieval (CIVR 2009), Fira, Greece, July 2009.
  • [Publication 10]: Ville Viitaniemi and Jorma Laaksonen. Region matching techniques for spatial bag of visual words based image category recognition. In Proceedings of the 20th International Conference on Artificial Neural Networks (ICANN 2010), Part I, pages 531-540, Thessaloniki, Greece, September 2010.
  • [Publication 11]: Ville Viitaniemi and Jorma Laaksonen. Representing images with chi2 distance based histograms of SIFT descriptors. In Proceedings of the 19th International Conference on Artificial Neural Networks (ICANN 2009), Part II, pages 694-703, Limassol, Cyprus, September 2009.
Citation