CRZP - detail kniha

DDP - Zverejnená diplomová práca

Anotácia a rozpoznávanie pomenovaných entít v slovenskom jazyku.

Autor: Maruniak, Jakub
Školiteľ: Hládek, Daniel
Oponent: Staš, Ján
Škola: Technická univerzita v Košiciach 1040 104005
Rok odovzdania: 2021
Počet strán: 68s.
Trvalý odkaz - CRZP: https://opac.crzp.sk/?fn=detailBiblioForm&sid=ECC3D3F0B3159C4F3217EC027BE4

Primárny jazyk: slovenčina

Typ práce: Diplomová práca

Študijný odbor: 2508 | *informatika

Dátum zaslania práce do CRZP: 26.04.2021

Dátum vytvorenia protokolu: 26.04.2021

Dátum doručenia informácií o licenčnej zmluve: 09.06.2021

Práca je zverejniteľná od: 26.04.2021

Elektronická verzia
: Prehliadať

Kľúčové slová (ostatné):

spracovanie prirodzeného jazyka nlp rozpoznávanie pomenovaných entít ner anotácia textových dát spacy prodigy

Abstrakt v primárnom jazyku

Táto diplomová práca je zameraná na riešenie problematiky týkajúcej sa spracovania prirodzeného jazyka, konkrétne úlohy rozpoznávania pomenovaných entít v slovenskom jazyku. V práci je popísaný základný princíp a metódy opisujúce túto problematiku taktiež problematiku anotácie textových dát. V rámci praktickej časti sú vytvorené dve dátové sady v slovenskom jazyku, pre ktoré sú zdrojom dát články zo slovenskej Wikipedie. Zároveň je pripravená anotačná schéma a vykonané anotácie textových dát s využitím systému Prodigy, za účelom ich ďalšieho použitia pre trénovanie modelu. Hlavným cieľom bolo natrénovať štatistický model pre rozpoznávanie pomenovaných entít v slovenskom jazyku, čo je realizované rôznymi metódami s využitím knižnice spaCy. Výsledkom série trénovacích experimentov je model schopný rozpoznávať slovenské pomenované entity v štyroch preddefinovaných kategóriách s celkovým skóre nad 72%. V rámci vyhodnotenia trénovania modelu je porovnaná presnosť pri rôznych metódach trénovania a taktiež je sledovaný vplyv veľkosti trénovacej množiny v jednotlivých experimentoch na celkovú presnosť klasifikátora. Zároveň sú analyzované a navrhnuté potenciálne možnosti pre zlepšenie presnosti natrénovaného modelu.

Abstrakt v sekundárnom jazyku

This diploma thesis is focused on solving the issue of natural language processing, specifically task of named entity recognition in Slovak language. The thesis describes the basic principles and methods used to solve problems of named entity recognition and annotation of text data. Within the practical part of the work, two text datasets are created in the Slovak language. Source for these datasets are articles from the Slovak Wikipedia. An annotation scheme is prepared, and annotations of text data are performed using the Prodigy system in order to further use them for training of the model. The main goal was to train a statistical model for named entity recognition in Slovak language, which is realized by various methods using the spaCy library. The result of a series of training experiments is a model capable to recognize Slovak named entities in four predefined categories with a total score above 72%. The accuracy of different training methods is compared during the evaluation part. Also, the influence of the size of the training set on the overall accuracy of the classifier is monitored and potential possibilities for improving the accuracy of the trained model are defined and analyzed.