Reproducing reality: Perception and quality in immersive audiovisual environments

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2016-12-13
Date
2016
Major/Subject
Mcode
Degree programme
Language
en
Pages
96 + app. 82
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 232/2016
Abstract
The research in this thesis may be classified into two inter-related categories: understanding human perceptual information processing under natural audiovisual conditions and, based on this knowledge, evaluating the quality of experience and content perception in immersive audiovisual reproductions. The main concept guiding this work is the observation that there is no need to simulate the whole world if it cannot be perceived.  The three main findings in the first category are: 1) The most important perceptual attributes in natural scenes depicting urban environments were found to be the amount of movement, perceived noisiness, and openness of the scene. 2) Movement and openness were found to be mainly visual attributes. In some scenes, the auditory system was able to derive information about movement and openness that was comparable with audiovisual conditions already after 500 ms stimulation. Noisiness was dominantly auditory, but visual information was found to be an aiding factor. Cross-modality effects affecting global estimates of the scene attributes were found in movement and openness. 3) Task-relevant auditory cues were found to aid in orienting to and detecting a peripheral but not a central visual target. Significant improvements were found with a 1000 ms audio lead compared to synchronous onset, and with a 500 ms audio lead compared to no sound condition.  The main findings in the second category are: 1) The spatial extent of the reproduction setup affects the perception of natural scene attributes especially in movement, where discrimination accuracy decreases with larger reproduction extent, and in noisiness, where the discrimination accuracy increases. 2) With full video width the effect of the spatial width of audio on quality of experience is the strongest, but as the video width is reduced, the effect of audio width almost disappears. 3) Immersive 3D sound is able to hinder the perception of visual events in video reproduction by dispersing visual attention. 4) In 2D video combined with 3D spatial sound the perceived spatial discrepancy between the auditory and visual events may become annoying if the observer is seated close to the screen and off-axis.

Tämän väitöskirjan sisältämä tutkimus voidaan jakaa kahteen toisiinsa liittyvään kategoriaan: ihmisen aisti-informaationkäsittelyn ymmärtäminen luonnollisissa audiovisuaalisissa tilanteissa, sekä tästä saavutetun tiedon avulla sisällönhavaitsemisen ja laatukokemuksen arvioiminen uppouttavissa audiovisuaalisissa järjestelmissä. Työn kantavana ajatuksena on havainto siitä että kaikkea ympäröivästä maailmasta ei tarvitse toistaa teknisesti, jos ihminen ei kykene luonnollisesti sitä havaitsemaan.  Kolme tärkeintä tulosta ensimmäisessä kategoriassa ovat: 1) Merkittävimmät havaintomääreet luonnollisissa audiovisuaalisissa kaupunkitiloissa ovat liikkeen määrä, äänimaiseman havaittu meluisuus ja tilan avoimuus. 2) Liikkeen määrä ja avoimuus olivat enimmäkseen näköaistin perusteella havaittavia määreitä. Joissain tiloissa kuuloaisti kykeni yksin tuottamaan audiovisuaaliseen havaintoon verrattavissa olevaa tietoa tilassa tapahtuvasta liikkeestä ja sen avoimuudesta jo 500 ms ärsykkeen perusteella. Meluisuus oli vahvasti kuuloaistiin perustuva määre, mutta visuaalinen informaatio tuki meluisuusarviota muutamissa tiloissa. Aistienvälinen vuorovaikutus vaikutti määreidenmuodostukseen liikkeen määrässä, sekä tilan avoimuudessa. 3) Tehtävän kannalta olennaiset äänivihjeet auttavat tarkkaavaisuuden kohdentamista ja ääreisnäkökentässä olevien kohteiden havaitsemista. Merkittävää parannusta tapahtui, kun äänivihje edelsi visuaalista ärsykettä 1000 ms verrattuna synkronoituihin ärsykkeisiin, tai 500 ms verrattuna tilanteeseen ilman äänivihjettä.  Toisen kategorian tärkeimmät tulokset ovat: 1) Toistojärjestelmän tilallinen laajuus vaikuttaa havaintomääreiden muodostumiseen erityisesti liikkeen määrää sekä tilan meluisuutta havainnoidessa. Liikkeen määrän havaitseminen on vaikeampaa laajemmassa toistojärjestelmässä ja meluisuuden havaitseminen puolestaan helpompaa. 2) Käytettäessä täyden laajuuden videotoistoa, äänentoiston tilallisen laajuuden vaikutus kokemuksen laatuun on vahva, mutta videon laajuutta rajoitettaessa äänentoiston laajuuden merkitys lähes katoaa. 3) Uppouttava 3D äänentoisto saattaa hajaannuttaa visuaalista tarkkaavaisuutta ja vaikeuttaa visuaalisten tapahtumien havaitsemista. 4) 2D kuvan ja 3D äänen yhdistelmä saattaa tuottaa ärsyttäviä sijantieroavuuksia ääni- ja kuvatapahtumien välille, jos havaitsija istuu kuvaruudun lähellä ja poissa järjestelmän keskilinjasta.
Description
Supervising professor
Pulkki, Ville, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Thesis advisor
Mendonça, Catarina, PhD, Aalto University, Department of Signal Processing and Acoustics, Finland
Keywords
multimodal perception, quality of experience, virtual reality, spatial sound, moniaistinen havaitseminen, kokemuksen laatu, virtuaalitodellisuus, tilaääni
Other note
Parts
  • [Publication 1]: Olli Rummukainen, Jenni Radun, Toni Virtanen, and Ville Pulkki. Categorization of Natural Dynamic Audiovisual Scenes. PLoS One, 9(5): e95848, pp. 1-14, May 2014.
    DOI: 10.1371/journal.pone.0095848 View at publisher
  • [Publication 2]: Olli Rummukainen and Catarina Mendonça. Reproducing Reality: Multimodal Contributions in Natural Scene Discrimination. ACM Transactions on Applied Perception, 14(1):1, August 2016.
    DOI: 10.1145/2915917 View at publisher
  • [Publication 3]: Olli Rummukainen and Catarina Mendonça. Task-Relevant Spatialized Auditory Cues Enhance Attention Orientation and Peripheral Target Detection in Natural Scenes. Journal of Eye Movement Research, 9(1):4, 1-10, January 2016.
    DOI: 10.16910/jemr.9.1.4 View at publisher
  • [Publication 4]: Olli Rummukainen and Catarina Mendonça. Content or Reproduction: Natural Scene Perception in Immersive and Non-Immersive Reproduction Setups. Sixth International Workshop on Quality of Multimedia Experience (QoMEX), Singapore, September 2014.
    DOI: 10.1109/QoMEX.2014.6982301 View at publisher
  • [Publication 5]: Olli Rummukainen and Ville Pulkki. Audiovisual Reproduction in Surrounding Display: Effect of Spatial Width of Audio and Video. Fourth International Workshop on Quality of Multimedia Experience (QoMEX), Melbourne, Australia, July 2012.
    DOI: 10.1109/QoMEX.2012.6263861 View at publisher
  • [Publication 6]: Catarina Mendonça, Olli Rummukainen, and Ville Pulkki. 3D Sound can have a negative impact on the perception of visual content in audiovisual reproductions. International Conference on Auditory Display (ICAD), Graz, Austria, July 2015.
  • [Publication 7]: Olli Rummukainen, Javier Gómez Bolaños, and Ville Pulkki. Horizontal Localization of Auditory and Visual Events with Directional Audio Coding and 2D Video. Fifth International Workshop on Quality of Multimedia Experience (QoMEX), Klagenfurt am Wörthersee, Austria, July 2013.
    DOI: 10.1109/QoMEX.2013.6603217 View at publisher
Citation