Kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä?
Tekijät
Päivämäärä
2024Tekijänoikeudet
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Tekoälyn ja koneoppimisen, erityisesti transformer-pohjaisten kielimallien, kehitys on mullistanut kieltenkäsittelyn. Tässä tutkielmassa tarkastelemme näiden mallien kykyä tuottaa ja ymmärtää kieltä, keskittyen niiden oppimisprosesseihin ja kielen rakenteiden sisäistämiseen. Tutkimme kuinka transformer-mallien 'self-attention-mekanismi' edistää tekstin syvällistä ymmärrystä ja kuinka nämä mallit kehittävät kykyä ennustaa tulevia sanoja ja lauseita, mikä auttaa hahmottamaan kieliopillisia ja semanttisia rakenteita paremmin.
Tutkielmassa käsitellään myös, missä määrin näiden mallien kielen ymmärtäminen on aitoa ja missä määrin se perustuu vaikutelman luomiseen. Vaikka mallit ovat kehittyneitä, niiden kyky ymmärtää kieltä ei ole yhtä syvällinen kuin ihmisen kyky ymmärtää kieltä. Tutkielmassa korostetaan, että näiden mallien todellinen ymmärryskyky jää rajoitetuksi, vaikka ne ovatkin kehittyneet tuottamaan tekstiä, joka vaikuttaa ymmärtävän kieltä. The development of artificial intelligence and machine learning, especially transformer-based language models, has revolutionized language processing. In this study, we examine the ability of these models to generate and understand language, focusing on their learning processes and the internalization of language structures. We explore how the 'self-attention mechanism' of transformer models contributes to a deep understanding of text and how these models develop the ability to predict future words and sentences, which helps in grasping grammatical and semantic structures better.
The study also addresses the extent to which the language understanding of these models is genuine and the extent to which it is based on creating an impression. Although the models are advanced, their ability to understand language is not as profound as the human ability to understand language. The study emphasizes that the real comprehension capability of these models remains limited, even though they have developed to produce text that appears to understand language.
...
Metadata
Näytä kaikki kuvailutiedotKokoelmat
- Kandidaatintutkielmat [5028]
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
Anonymization as homeomorphic data space transformation for privacy-preserving deep learning
Girka, Anastasiia; Terziyan, Vagan; Gavriushenko, Mariia; Gontarenko, Andrii (Elsevier, 2021)Industry 4.0 is largely data-driven nowadays. Owners of the data, on the one hand, want to get added value from the data by using remote artificial intelligence tools as services, on the other hand, they concern on privacy ... -
Tekoälyn vaikutus työtehtävien muutokseen
Karkulahti, Eemil (2018)Tässä kirjallisuuskatsauksessa tarkastellaan tekoälyn vaikutusta työtehtävien muutokseen. Tekoälyä voidaan hyödyntää jo nyt monin tavoin etenkin rutiininomaisissa ja paljon toistoa sisältävissä työtehtävissä. Samalla ... -
Konvolutionaalisten neuroverkkojen hyödyntäminen automatisoitujen ajoneuvojen kehittämisessä
Hiekkavirta, Jenna (2021)Tekoäly on tällä hetkellä ja tulevaisuudessa merkittävä teknologia, jota pystytään hyödyntämään autonomisessa ajamisessa eri teknologioiden avulla. Tässä kandidaatin tutkielmassa selvitetään sitä, miten konvolutionaalisia ... -
Tekoäly liiketoiminnan ennakoinnissa
Ojansuu, Ilari (2018)Erilaiset liiketoiminnan dataa jalostavat järjestelmät ovat herättäneet mielenkiintoa organisaatioissa. Laaja datan keruu ja mallintaminen mahdollistavat organisaatioiden päätöksenteon siirtymisen entistä enemmän intuitiivisesta ... -
Tekoälyn hyödyntäminen liikenteen hallinnassa ja ennakoinnissa
Huntus, Perttu (2020)Tässä tutkimuksessa tutkitaan tekoälyn hyödyntämistä liikenteen hallinnassa ja ennakoinnissa. Tekoäly on käsitteenä vanha, mutta sen tekniikat ovat kehittyneet valtavasti viime vuosina ja sitä käytetään yhä useammilla ...
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.