CRZP - detail kniha

DDP - Zverejnená diplomová práca

Morfologická anotácia slovenského jazyka v knižnici Spacy s pomocou predtrénovania

Autor: Harahus, Maroš
Školiteľ: Hládek, Daniel
Oponent: Pleva, Matúš
Škola: Technická univerzita v Košiciach 1040 104005
Rok odovzdania: 2021
Počet strán: 59s.
Trvalý odkaz - CRZP: https://opac.crzp.sk/?fn=detailBiblioForm&sid=ECC3D3F0B3159C4F3216E2027BE4

Primárny jazyk: slovenčina

Typ práce: Diplomová práca

Študijný odbor: 2508 | *informatika

Dátum zaslania práce do CRZP: 26.04.2021

Dátum vytvorenia protokolu: 26.04.2021

Dátum doručenia informácií o licenčnej zmluve: 09.06.2021

Práca je zverejniteľná od: 26.04.2021

Elektronická verzia
: Prehliadať

Kľúčové slová (ostatné):

spracovanie prirodzeného jazyka korpus slovenská národná knižnica morfologická anotácia fasttext spacy slovak dependency treebank

Abstrakt v primárnom jazyku

Manuálne spracovanie textu je už aj pri malých korpusoch velmi pracné a casovo nárocné. Práca sa zaoberá morfologickou anotáciou textu a vplyvom predtrénovania modelu na výsledný model. V úvode práce sú popísane spôsoby morfologickej anotácie v slovenskom jazyku. Dalšia cast práce opisuje spracovanie prirodzeného jazyka, jeho výhody a umiestnenie v rámci toho, kde všade sa v dnešnej dobe nachádza. Po spracovaní prirodzeného jazyka nasledujú informácie o korpusoch Fasttextu a Slovak Dependency Treebank, ktoré boli použité v tejto práci. Cielom práce bolo zistit, ci z predtrénovania modelu získame lepšiu úspešnost a presnost ako bez predtrénovania modelu. Na záver sú popísane výsledky experimentov a dosiahnutých výsledkov.

Abstrakt v sekundárnom jazyku

Manual word processing is already very laborious and timeconsuming even with small corpora. The work deals with the morphological annotation of the text and the influence of model pre-training on the resulting model. The introduction describes the methods of morphological annotation in the Slovak language. The next part of the work describes the processing of natural language, its advantages and where it is everywhere today. Natural language processing is followed by information about Fasttext and Slovak Dependency Treebank corpora, which were used in this work. The aim of the work was to find out whether with pre-training of the model we get better success and accuracy than without pre-training of the model. Finally, the results of experiments and achieved results are described.