Machine learning techniques applied to energy behavior profiling
Pekkola, Teijo (2022)
Diplomityö
Pekkola, Teijo
2022
School of Engineering Science, Laskennallinen tekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022062148165
https://urn.fi/URN:NBN:fi-fe2022062148165
Tiivistelmä
The European Union has set a goal to reduce greenhouse gas emissions from the year 1990 by at least 55% by 2030. To achieve the goal, sustainable use of energy resources needs to be utilized. This study consists of conducting a local survey about energy use habits and attitudes, and using a clustering algorithm to find groups in the survey responses. The main objective is to study the use of clustering algorithms on survey results containing mixed-type data with numerical and categorical values. To label the groups, significant variables affecting the clustering results are studied. The selected clustering algorithm was Clustering mixed-type data including concept trees (ClicoT), which can use mixed-type data and hierarchical data structures. Hierarchical data consists of higher-level abstractions, which introduce relationships between categorical variables. The ClicoT found mainly two clusters from the survey responses. Different data presentations and various subsets of the survey questions were tested. The algorithm results were usually consistent between executions of the same datasets. The results were compared with the k-means mixed algorithm, which produced similar results to ClicoT. The two clusters were difficult to label based on significant variables, as the questions regarding energy behavior did not significantly affect the clustering results. This may be because the survey was distributed only to a small population, probably containing similar values and habits. The most significant variables included age, ownership of a car, and the use of a dishwasher. Euroopan unioni on asettanut tavoitteeksi vähentää vuoden 1990 kasvihuonekaasupäästöjen määrää vähintään 55% vuoteen 2030 mennessä. Tavoitteen saavuttamiseksi energiaresurssien kestävää käyttöä on hyödynnettävä. Tässä työssä keskitytään paikallisen kyselytutkimuksen toteuttamiseen liittyen energiankäyttötottumuksiin ja -asenteisiin, sekä suoritetaan kyselyvastausten ryhmittely klusterointialgoritmin avulla. Työn tavoitteena on tutkia ohjaamattoman koneoppimisen käyttöä ryhmitellessä kyselytuloksia, jotka sisältävät sekatyyppistä dataa numeerisilla ja kategorisilla arvoilla. Ryhmien nimeämistä varten tutkitaan klusteroinnin kannalta merkityksellisiä muuttujia. Algoritmiksi valittiin ClicoT, joka voi hyödyntää sekatyyppistä ja hierarkkista dataa. Hierarkkinen data koostuu korkeamman tason abstraktioista, jotka luovat yhteyksiä muuttujien välille. ClicoT löysi kyselyvastauksista pääasiassa kaksi ryhmää. Algoritmin käyttöä testattiin erilaisilla datan esitystavoilla ja kyselykysymysten osajoukoilla. Tulokset olivat yleisesti yhdenmukaisia toistojen välillä. Tuloksia verrattiin k-means mixed algoritmiin, joka tuotti yhdenmukaisia tuloksia ClicoT:in kanssa. Löydettyjä ryhmiä oli vaikea nimetä merkittävien muuttujien perusteella, koska energiakäyttäytymistä koskevat kysymykset eivät vaikuttaneet merkittävästi tuloksiin. Tämä voi johtua kyselyn jakamisesta vain pienellehkölle vastaajajoukolle, joka todennäköisesti omaa samanlaisia arvoja. Merkittävimpiä muuttujia olivat ikä, tiskikoneen käyttö ja auton omistaminen.