Automatic neural network learning for human behavior understanding
Peng, Wei (2022-04-07)
https://urn.fi/URN:ISBN:9789526232591
Kuvaus
Tiivistelmä
Abstract
Understanding human behavior is one of the most pivotal steps toward real-world Artificial Intelligence (AI) or even Artificial general intelligence (AGI). However, this task is challenging as human social attributes make human beings unique, leading to various and complicated behaviors. Moreover, real-life behavior data are normally high-dimensional with dynamic changes or even non-Euclidean structures, involving multiple modalities. Currently, one of the first alternatives to addressing these challenges is using deep neural networks or deep learning, which has brought revolutionary changes in data computation and computer sciences. Nevertheless, expert knowledge of both neural architecture design and human behavior analysis is expected more than ever before in this interdisciplinary research field. All these issues spur the current deep learning studies towards automatic deep neural network learning, which could automatically sketch a neural architecture for a given behavior analysis task. In line with this topic, this thesis explores the automatic neural network learning approach for human behavior understanding from the most representative behaviors, including human facial expression and actions, step by step. First, manually designed computational models are proposed for human facial expression and actions with dynamic information and graph structures. Based on this, to free humans from the exhausting process, more advanced methods, i.e., automatic neural network learning, are presented. Extensive experiments on benchmark facial expression datasets and action recognition datasets are conducted and comparison results prove the effectiveness of the proposed methods.
Tiivistelmä
Ihmisten käyttäytymisen ymmärtäminen on yksi keskeisistä askeleista kohti todellista tekoälyä (AI) tai jopa yleistä tekoälyä (AGI). Tämä tehtävä on kuitenkin haastava, sillä ihmisen sosiaaliset ominaisuudet tekevät ihmisistä ainutlaatuisia, mikä johtaa erilaisiin ja monimutkaisiin käyttäytymismalleihin. Lisäksi tosielämän käyttäytymisdata on yleensä korkeaulotteinen, ja siinä on dynaamisia muutoksia tai jopa ei-euklidisia rakenteita, joihin liittyy useita modaliteetteja. Tällä hetkellä yksi ensimmäisistä vaihtoehdoista haasteisiin vastaamiseksi on syvän neuroverkon tai syväoppimisen käyttö, joka on tuonut mukanaan Vallankumoukselliset muutokset tietojen laskennassa ja tietojenkäsittelytieteissä. Asiantuntijatietoa sekä hermoarkkitehtuurin suunnittelusta että ihmisen käyttäytymisen analysoinnista odotetaan kuitenkin enemmän kuin koskaan aiemmin tällä tieteidenvälisellä tutkimusalueella. Kaikki nämä kysymykset kannustavat nykyisiä syväoppimistutkimuksia kohti automaattista syvän neuroverkon oppimista, joka voisi automaattisesti luonnostella hermoarkkitehtuurin tietylle käyttäytymisanalyysille Tämän aiheen mukaisesti opinnäytetyössä tutkitaan vaihe vaiheelta automaattista neuroverk- kooppimisen lähestymistapaa ihmisen käyttäytymisen ymmärtämiseen edustavimmista käyttäytymismalleista, mukaan lukien ihmisen ilmeet ja toiminnot. Ensin ehdotetaan manuaalisesti suunniteltuja laskennallisia malleja ihmisen ilmeille ja toiminnalle dynaamisilla tiedoilla ja graafirakenteilla, joiden pohjalta ihmisen uuvuttavasta edistymisestä vapauttamiseksi esitetään edistyneempiä menetelmiä, ie, automaattinen hermoverkkooppiminen. Kattavia kokeita benchmark ME-tietosarjoista ja toiminnantunnistustietosarjoista tehdään ja vertailutulokset osoittavat ehdotettujen menetelmien tehokkuuden.
Original papers
Original papers are not included in the electronic version of the dissertation.
Peng, W., Hong, X., Xu, Y., & Zhao, G. (2019). A boost in revealing subtle facial expressions: A consolidated eulerian framework. 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), 1–5. https://doi.org/10.1109/FG.2019.8756541
Peng, W., Hong, X., Zhao, G., & Cambria, E. (2021). Adaptive modality distillation for separable multimodal sentiment analysis. IEEE Intelligent Systems, 36(3), 82–89. https://doi.org/10.1109/MIS.2021.3057757
Xia, Z., Peng, W., Khor, H.-Q., Feng, X., & Zhao, G. (2020). Revealing the invisible with model and data shrinking for composite-database micro-expression recognition. IEEE Transactions on Image Processing, 29, 8590–8605. https://doi.org/10.1109/TIP.2020.3018222
Peng, W., Hong, X., & Zhao, G. (2019). Video action recognition via neural architecture searching. 2019 IEEE International Conference on Image Processing (ICIP), 11–15. https://doi.org/10.1109/ICIP.2019.8802919
Peng, W., Shi, J., & Zhao, G. (2021). Spatial temporal graph deconvolutional network for skeleton-based human action recognition. IEEE Signal Processing Letters, 28, 244–248. https://doi.org/10.1109/LSP.2021.3049691
Peng, W., Hong, X., & Zhao, G. (2021). Tripool: Graph triplet pooling for 3D skeleton-based action recognition. Pattern Recognition, 115, 107921. https://doi.org/10.1016/j.patcog.2021.107921
Peng, W., Shi, J., Varanka, T., & Zhao, G. (2021). Rethinking the ST-GCNs for 3D skeleton-based human action recognition. Neurocomputing, 454, 45–53. https://doi.org/10.1016/j.neucom.2021.05.004
Peng, W., Varanka, T., Mostafa, A., Shi, H., & Zhao, G. (2021). Hyperbolic deep neural networks: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1–1. https://doi.org/10.1109/TPAMI.2021.3136921
Peng, W., Hong, X., Chen, H., & Zhao, G. (2020). Learning graph convolutional network for skeleton-based human action recognition by neural searching. Proceedings of the AAAI Conference on Artificial Intelligence, 34(03), 2669–2676. https://doi.org/10.1609/aaai.v34i03.5652
Peng, W., Shi, J., Xia, Z., & Zhao, G. (2020). Mix dimension in poincaré geometry for 3d skeleton-based action recognition. Proceedings of the 28th ACM International Conference on Multimedia, 1432–1440. https://doi.org/10.1145/3394171.3413910
Osajulkaisut
Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon.
Peng, W., Hong, X., Xu, Y., & Zhao, G. (2019). A boost in revealing subtle facial expressions: A consolidated eulerian framework. 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), 1–5. https://doi.org/10.1109/FG.2019.8756541
Peng, W., Hong, X., Zhao, G., & Cambria, E. (2021). Adaptive modality distillation for separable multimodal sentiment analysis. IEEE Intelligent Systems, 36(3), 82–89. https://doi.org/10.1109/MIS.2021.3057757
Xia, Z., Peng, W., Khor, H.-Q., Feng, X., & Zhao, G. (2020). Revealing the invisible with model and data shrinking for composite-database micro-expression recognition. IEEE Transactions on Image Processing, 29, 8590–8605. https://doi.org/10.1109/TIP.2020.3018222
Peng, W., Hong, X., & Zhao, G. (2019). Video action recognition via neural architecture searching. 2019 IEEE International Conference on Image Processing (ICIP), 11–15. https://doi.org/10.1109/ICIP.2019.8802919
Peng, W., Shi, J., & Zhao, G. (2021). Spatial temporal graph deconvolutional network for skeleton-based human action recognition. IEEE Signal Processing Letters, 28, 244–248. https://doi.org/10.1109/LSP.2021.3049691
Peng, W., Hong, X., & Zhao, G. (2021). Tripool: Graph triplet pooling for 3D skeleton-based action recognition. Pattern Recognition, 115, 107921. https://doi.org/10.1016/j.patcog.2021.107921
Peng, W., Shi, J., Varanka, T., & Zhao, G. (2021). Rethinking the ST-GCNs for 3D skeleton-based human action recognition. Neurocomputing, 454, 45–53. https://doi.org/10.1016/j.neucom.2021.05.004
Peng, W., Varanka, T., Mostafa, A., Shi, H., & Zhao, G. (2021). Hyperbolic deep neural networks: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1–1. https://doi.org/10.1109/TPAMI.2021.3136921
Peng, W., Hong, X., Chen, H., & Zhao, G. (2020). Learning graph convolutional network for skeleton-based human action recognition by neural searching. Proceedings of the AAAI Conference on Artificial Intelligence, 34(03), 2669–2676. https://doi.org/10.1609/aaai.v34i03.5652
Peng, W., Shi, J., Xia, Z., & Zhao, G. (2020). Mix dimension in poincaré geometry for 3d skeleton-based action recognition. Proceedings of the 28th ACM International Conference on Multimedia, 1432–1440. https://doi.org/10.1145/3394171.3413910
Kokoelmat
- Avoin saatavuus [31657]