Perceptually Motivated Time-Frequency Processing of Spatial Audio

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2014-08-25
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2014
Major/Subject
Mcode
Degree programme
Language
en
Pages
74 + app. 70
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 92/2014
Abstract
This dissertation focuses on perceptually motivated processing of audio in the time-frequency domain, and on spatial audio in particular. The topic takes into account sound physics, perception, and digital signal processing (DSP). Sound is emitted by a source in all directions with a pattern of directivity as a function of frequency, and it arrives to the listener through a direct path as well as through reverberation. The sounds from a multitude of sources superimpose at the ear canals. Due to the acoustic effect of the head, torso, and pinnae, the inter-aural, spectro-temporal characteristics of each arriving wave are specific to the direction of arrival. Ears transform the audio waveform into neural signals with frequency selectivity. Among other features, human hearing includes processes for analyzing the level and timing differences in the signals at the ears, which is necessary for obtaining information about the locations of the sound sources. In perceptually motivated audio DSP, a key technique is to decompose the sound into frequency bands. Several perceptually relevant signal properties can be directly measured and processed in the frequency bands. Typically, the practical DSP design only approximates the hearing mechanisms and resolutions, and simultaneously also other features are optimized, such as the computational efficiency and latency. Several novel techniques were proposed as part of the dissertation work. The first is an optimized and versatile framework for frequency band processing of spatial audio. The method functions based on the channel energies and the inter-channel dependencies, which are key features for controlling the spatial perception. The method performs the translation of the spatial sound characteristics while minimizing the square difference between the produced waveform and a defined preferred waveform. The method also provides a means to apply the decorrelated sound energy to the minimum necessary extent. The method was applied to perform spatial sound reproduction based on a compact set of microphones, and its benefit with respect to legacy methods was confirmed by listening tests and simulations. In another study, a frequency band reverberator was proposed that produces diffuse late reverberation with low computational complexity and high perceptual quality. Finally, a phase-adaptive, multi-channel downmixer was proposed that avoids the spectral artifacts that would otherwise occur if the input channels include non-aligned but coherent sounds. The downmixer has been selected as part of the reference model 0 (RM0) of the MPEG-H standard.

Väitöskirjan aiheena on aika-taajuusalueen havaintoperusteinen äänenkäsittely, ja erityisesti tilaäänenkäsittely. Lähde säteilee ääntä kaikkiin suuntiin eri voimakkuudella suunnan ja taajuuden funktiona. Ääniaalto saapuu kuuntelijalle suoraan lähteestä, sekä epäsuorasti huoneen kaiunnan kautta. Useiden äänilähteiden tuottamat ääniaallot yhdistyvät korvakäytävissä siten, että kukin saapuva ääniaalto on saanut saapumiskulmalle ominaiset korvienväliset aika- ja tasoerot taajuuden funktiona. Molempien puolien sisäkorvat tuottavat ääniaalloille hermostollisen vasteen, jossa taajuusinformaatio on eriteltynä. Kuulojärjestelmä analysoi näistä signaaleista muiden muassa edellä mainittuja aika- ja tasoeroja tilaäänihavainnon muodostamiseksi.  Havaintoperusteisessa digitaalisessa äänenkäsittelyssä keskeinen tekniikka on jakaa äänisignaali taajuuskaistoiksi. Tässä esitysmuodossa havainnon kannalta keskeisiä signaalin ominaisuuksia pystytään suoraan mittaamaan ja muokkaamaan. Tyypilliset käytännölliset signaalinkäsittelyjärjestelmät pyrkivät olemaan taajuuserotteluominaisuuksiltaan vain samankaltaisia suhteessa kuulojärjestelmään ja optimoivat muitakin ominaisuuksia, kuten laskennallista tehokkuutta tai järjestelmän aiheuttamaa viivettä.  Väitöskirjatyössä kehitettiin useita uusia tekniikoita. Ensimmäinen on optimoitu ja monikäyttöinen menetelmä aika-taajuusalueen tilaäänenkäsittelyyn, joka toimii perustuen kanavien energioihin sekä keskinäisiin riippuvuussuhteisiin, mitkä molemmat ovat keskeisiä ominaisuuksia tilaäänihavainnon kannalta. Menetelmä suorittaa tilaäänenmuokkauksen siten, että ero tuotetun signaalin sekä määritellyn verrokkisignaalin välillä on mahdollisimman pieni, sekä käyttää dekorreloituja eli epäyhtenäiseksi muokattuja signaaleja vain vähimmän tarvittavan määrän. Menetelmää sovellettiin tilaäänentoistoon pienestä joukosta mikrofonisignaaleja, ja etu aiempiin menetelmiin verrattuna todettiin kuuntelukokein ja simulaatioin. Toisessa tutkimuksessa kehitettiin taajuuskaistoittain toimiva jälkikaiunta-algoritmi, joka yhdistää matalan laskentatehon sekä korkean havaitun äänenlaadun. Lisäksi tutkimuksen myötä kehitettiin vaihekorjaava kanavien yhdistäjä, joka välttää äänenvärittymät, joita muuten ilmenisi kun samankaltaisia mutta erilailla viivästettyjä signaaleja yhdistetään. Menetelmä valittiin osaksi MPEG-H-standardin referenssiarkkitehtuuria.
Description
Supervising professor
Pulkki, Ville, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Thesis advisor
Pulkki, Ville, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Keywords
spatial audio, time-frequency transforms, perceptual audio signal processing, tilaääni, aika-taajuustaso, havaintopohjainen äänenkäsittely
Other note
Parts
  • [Publication 1]: Juha Vilkamo, Tom Bäckström, and Achim Kuntz. Optimized covariance domain framework for time-frequency processing of spatial audio. Journal of the Audio Engineering Society, Volume 61 Issue 6 pp. 403-411, 2013.
  • [Publication 2]: Juha Vilkamo, Tapio Lokki, and Ville Pulkki. Directional Audio Coding: Virtual microphone-based synthesis and subjective evaluation. Journal of the Audio Engineering Society, Volume 57 Issue 9 pp. 709-724, 2009.
  • [Publication 3]: Juha Vilkamo and Ville Pulkki. Minimization of decorrelator artifacts in Directional Audio Coding by covariance domain rendering. Journal of the Audio Engineering Society, Volume 61 Issue 9 pp 637-646, 2013.
  • [Publication 4]: Juha Vilkamo, Bernhard Neugebauer, and Jan Plogsties. Sparse frequencydomain reverberator. Journal of the Audio Engineering Society, Volume 59 Issue 12 pp. 936-943, 2011.
  • [Publication 5]: Juha Vilkamo, Achim Kuntz, and Simone Füg. Reduction of spectral artifacts in multi-channel downmixing with adaptive phase alignment. Journal of the Audio Engineering Society, Postprint, 2014.
Citation