CRZP - detail kniha

DZB - Zverejnená bakalárska práca

Characterizing malware samples in the SOREL-20M dataset by concept learning

Autor: Bisták, Tomáš
Školiteľ: Homola, Martin
Oponent: Guller, Dušan
Škola: Univerzita Komenského v Bratislave FMFI FMFI.KAI
Rok odovzdania: 2023
Počet strán: 87s.
Trvalý odkaz - CRZP: https://opac.crzp.sk/?fn=detailBiblioForm&sid=08878EB2E7E37CD09B9076C0752B

Primárny jazyk: angličtina

Typ práce: Bakalárska práca

Študijný odbor: 2508 | *informatika

Dátum zaslania práce do CRZP: 03.06.2023

Dátum vytvorenia protokolu: 03.06.2023

Dátum doručenia informácií o licenčnej zmluve: 01.07.2023

Práca je zverejniteľná od: 01.07.2023

Elektronická verzia
: Prehliadať

Abstrakt v primárnom jazyku

Standard machine learning methods, which naturally lend themselves to the automation of malware characterization, often lack explainability. Hence, an approach based on learning in description logics has been recently proposed, where well-comprehensible characterizations of malicious software are learned algorithmically. This approach, however, still requires validation and more thorough investigation because the previous work used just a single source of software data and studied only two algorithms for learning in description logics without extensive optimization of their configuration. Besides that, the representation of software properties in description logics has been enhanced since then. We fulfill the need for validation by carrying out experiments on new data utilizing the enriched software representation. We also examine two other learning algorithms in addition to the previously tested ones and try to optimize the performance of all four by tuning their configuration. In order to improve the learning process, we detect and repair numerous defects in these algorithms as well. Last but not least, we contribute to the research in this area by providing a deeper insight into how the algorithms behave when tasked with characterizing malware solely among executable files or shared libraries. Our findings show that learning in description logics is a valid approach to malware characterization and detection. Moreover, the optimization and the act of focusing on files of different types separately prove to have a quite significant impact on the overall performance of the algorithms.

Abstrakt v sekundárnom jazyku

Štandardným metódam strojového učenia, ktoré sú prirodzenou voľbou pri automatizácii charakterizácie malvéru, často chýba vysvetliteľnosť. Nedávno bol preto predstavený prístup založený na učení sa v deskripčných logikách, pri ktorom sa zrozumiteľné popisy malvéru získavajú algoritmicky. Tento prístup si však stále vyžaduje validáciu a dôkladnejšiu štúdiu, pretože predošlá práca využívala len jeden zdroj údajov o softvéri a iba dva algoritmy učenia sa bez rozsiahlejšej optimalizácie ich konfigurácie. Reprezentácia vlastností softvéru v deskripčných logikách bola navyše tiež medzičasom vylepšená. Potrebu validácie riešime v našej práci vykonávaním experimentov nad novými dátami a s obohatenou reprezentáciou softvéru. Zároveň sa zaoberáme okrem dvoch už testovaných algoritmov aj dvoma doposiaľ neskúmanými a snažíme sa optimalizovať ich efektivitu nájdením vhodnej konfigurácie. Za účelom skvalitnenia procesu učenia sa takisto odhaľujeme a opravujeme niekoľko nedostatkov v samotných algoritmoch. V neposlednom rade je naším prínosom aj poskytnutie hlbšieho pohľadu na to, ako sa algoritmy správajú v prípadoch, keď je ich úlohou charakterizovať malvér výlučne medzi vzorkami spustiteľných súborov alebo zdieľaných knižníc. Naše zistenia potvrdzujú, že učenie sa v deskripčných logikách môžeme považovať za validný prístup k charakterizácii a detekcii malvéru. Ukazuje sa i to, že optimalizácia a zameranie sa na rôzne typy súborov zvlášť má relatívne citeľný vplyv na celkový výkon algoritmov.