DZB - Zverejnená bakalárska práca

Analýza položkových dát

Autor
Árvai, Michal
Školiteľ
Harman, Radoslav
Oponent
Kováč, Jozef
Škola
Univerzita Komenského v Bratislave FMFI FMFI.KAMŠ
Rok odovzdania
2016
Počet strán
43s.
Trvalý odkaz - CRZP
https://opac.crzp.sk/?fn=detailBiblioForm&sid=1F2DA89437FD00828F44ADDF5675
Primárny jazyk
slovenčina

Typ práce
Bakalárska práca

Študijný odbor
6211 | štatistika

Dátum zaslania práce do CRZP
16.05.2016

Dátum vytvorenia protokolu
24.05.2016

Dátum doručenia informácií o licenčnej zmluve
12.08.2020

Práca je zverejniteľná od
01.09.2016

Elektronická verzia
 Stiahnuť prácu (pdf)
 Prehliadať
Analýza položkových dát je jedným z mnohých nástrojov hĺbkovej analýzy dát, ktorý slúži na objavenie asociačných pravidiel v dátových súboroch. Prototypickým problémom analýzy polžkových dát je tzv. problém nákupných košov, ktorý sa zaoberá hľadaním kombinácií položiek, ktoré boli často zakúpené spoločne, t.j. boli často súčasťou transakcií. V tejto práci je predstavený jeden z najznámejších algoritmov na analýzu častých položkových množín, ktorý sa nazýva algoritmus Apriori, a následne algoritmus na generovanie asociačných pravidiel. Táto práca obsahuje aj známy pravdepodobnostný model na simulovanie transakcií, ktorý je založený na nezávislých Bernoulliho pokusoch. Podľa tohto modelu je uvedená alternatívna metóda simulovania transakcií pomocou Markovových reťazcov. Funkcionalita uvedených algoritmov na analýzu položkových dát je ilustrovaná na simulovaných dátach, ktoré sú analyzované v štatistickom softvéri R.
The presented Thesis discusses the problem of itemset mining which is one of the main data mining tasks of our time. The framework of the so-called market-basket problem is introduced which is the prototypical application of itemset mining. It aims to discover interesting association rules in transaction data to provide insights into customer behaviour. One of the best known algorithms, algorithm Apriori, is discussed with particular focus on frequent itemset mining. Moreover, another algorithm is included which enables the user to extract association rules from a given frequent itemset. The properties of the chosen algorithms are investigated in detail and a known probabilistic framework is presented which enables transaction data simulation based on independent Bernoulli trials. Building on this framework, a new, Markov chains based, simulation is proposed. The work concludes with an analysis of simulated transactions in the statistical software R.

Verzia systému: 6.2.61.5 z 31.03.2023 (od SVOP)