DDP - Zverejnená diplomová práca

Anotácia a rozpoznávanie pomenovaných entít v slovenskom jazyku.

Autor
Maruniak, Jakub
Školiteľ
Hládek, Daniel
Oponent
Staš, Ján
Škola
Technická univerzita v Košiciach 1040 104005
Rok odovzdania
2021
Počet strán
68s.
Trvalý odkaz - CRZP
https://opac.crzp.sk/?fn=detailBiblioForm&sid=ECC3D3F0B3159C4F3217EC027BE4
Primárny jazyk
slovenčina

Typ práce
Diplomová práca

Študijný odbor
2508 | *informatika

Dátum zaslania práce do CRZP
26.04.2021

Dátum vytvorenia protokolu
26.04.2021

Dátum doručenia informácií o licenčnej zmluve
09.06.2021

Práca je zverejniteľná od
26.04.2021

Elektronická verzia
 Prehliadať
Táto diplomová práca je zameraná na riešenie problematiky týkajúcej sa spracovania prirodzeného jazyka, konkrétne úlohy rozpoznávania pomenovaných entít v slovenskom jazyku. V práci je popísaný základný princíp a metódy opisujúce túto problematiku taktiež problematiku anotácie textových dát. V rámci praktickej časti sú vytvorené dve dátové sady v slovenskom jazyku, pre ktoré sú zdrojom dát články zo slovenskej Wikipedie. Zároveň je pripravená anotačná schéma a vykonané anotácie textových dát s využitím systému Prodigy, za účelom ich ďalšieho použitia pre trénovanie modelu. Hlavným cieľom bolo natrénovať štatistický model pre rozpoznávanie pomenovaných entít v slovenskom jazyku, čo je realizované rôznymi metódami s využitím knižnice spaCy. Výsledkom série trénovacích experimentov je model schopný rozpoznávať slovenské pomenované entity v štyroch preddefinovaných kategóriách s celkovým skóre nad 72%. V rámci vyhodnotenia trénovania modelu je porovnaná presnosť pri rôznych metódach trénovania a taktiež je sledovaný vplyv veľkosti trénovacej množiny v jednotlivých experimentoch na celkovú presnosť klasifikátora. Zároveň sú analyzované a navrhnuté potenciálne možnosti pre zlepšenie presnosti natrénovaného modelu.
This diploma thesis is focused on solving the issue of natural language processing, specifically task of named entity recognition in Slovak language. The thesis describes the basic principles and methods used to solve problems of named entity recognition and annotation of text data. Within the practical part of the work, two text datasets are created in the Slovak language. Source for these datasets are articles from the Slovak Wikipedia. An annotation scheme is prepared, and annotations of text data are performed using the Prodigy system in order to further use them for training of the model. The main goal was to train a statistical model for named entity recognition in Slovak language, which is realized by various methods using the spaCy library. The result of a series of training experiments is a model capable to recognize Slovak named entities in four predefined categories with a total score above 72%. The accuracy of different training methods is compared during the evaluation part. Also, the influence of the size of the training set on the overall accuracy of the classifier is monitored and potential possibilities for improving the accuracy of the trained model are defined and analyzed.

Verzia systému: 6.2.61.5 z 31.03.2023 (od SVOP)