Pārlekt uz galveno saturu

Mašīnmācīšanās un lieldatu analīze

Studiju kursa apraksts

Kursa apraksta statuss:Apstiprināts
Kursa apraksta versija:4.00
Kursa apraksta apstiprināšanas datums:14.03.2024 11:41:03
Par studiju kursu
Kursa kods:SL_120LKI līmenis:7. līmenis
Kredītpunkti:2.00ECTS:3.00
Zinātnes nozare:Matemātika; Varbūtību teorija un matemātiskā statistikaMērķauditorija:Dzīvās dabas zinātnes
Studiju kursa vadītājs
Kursa vadītājs:Andrejs Ivanovs
Studiju kursa īstenotājs
Struktūrvienība:Statistikas mācību laboratorija
Struktūrvienības vadītājs:
Kontaktinformācija:Kapseļu iela 23, 2.stāvs, Rīga, statistikaatrsu[pnkts]lv, +371 67060897
Studiju kursa plānojums
Pilns laiks - 1. semestris
Lekcijas (skaits)6Lekciju ilgums (akadēmiskās stundas)2Kopā lekciju kontaktstundas12
Nodarbības (skaits)6Nodarbību ilgums (akadēmiskās stundas)2Kopā nodarbību kontaktstundas12
Kopā kontaktstundas24
Nepilns laiks - 1. semestris
Lekcijas (skaits)6Lekciju ilgums (akadēmiskās stundas)1Kopā lekciju kontaktstundas6
Nodarbības (skaits)6Nodarbību ilgums (akadēmiskās stundas)2Kopā nodarbību kontaktstundas12
Kopā kontaktstundas18
Studiju kursa apraksts
Priekšzināšanas:
Augstākā matemātika, varbūtība, statistika, pamatzināšanas par „R” programmēšanu.
Mērķis:
Mašīnmācīšanās (ML) ir saistīta ar tādu algoritmu izpēti, kuri automātiski var iegūt informāciju un no datiem radīt jaunas zināšanas. ML uzdevumi bieži ir saistīti ar lielām datu kopām, kas rada problēmas datu glabāšanas, organizēšanas un apstrādes jomās. Šo problēmu risināšanai pievēršas lielo datu analītikas nozare. Kursa mērķis ir iepazīstināt studentus ar svarīgākajām mašīnmācīšanās metodēm: regresijas un klasifikācijas algoritmu variācijām, kā arī iepazīstināt ar mašīnu dziļās mācīšanās un lielo datu analītikas jēdzieniem. Metodes tiks pētītas gadījumu izpētē, kas īstenota „R” programmā.
Tēmu saraksts (pilna laika studijas)
Nr.TēmaĪstenošanas formaSkaitsNorises vieta
1Ievads mašīnmācīšanās procesā. Modeļa precizitātes novērtēšana, bias-variance trade-off, atlases atkārtošanas veidošanas metodes (validācijas kopas pieeja, savstarpēja validācija un butstrapa metode).Lekcijas1.00datorklase
2„R” gadījuma izpēte: bias-variance trade-off novērtēšana lineārajiem modeļiem. Modeļu izveide ar „R” caret bibliotēku.Nodarbības1.00datorklase
3Lineārā modeļa izvēle: apakškopu atlase un shrinkage metodes (Ridge, Lasso). Galveno komponentu regresija.Lekcijas1.00datorklase
4Regresijas metožu īstenošana „R”. Dažādu regresijas modeļu darbības rezultātu salīdzināšana.Nodarbības1.00datorklase
5Klasifikācijas metodes I: KNN, klasifikācijas koka metode, gadījuma meži.Lekcijas1.00datorklase
6Vienkāršu klasifikācijas modeļu īstenošana „R”. Dažādu modeļu darbības rezultātu salīdzināšana.Nodarbības1.00datorklase
7Klasifikācijas metodes II: Apvienošanas metodes klasifikācijas kokiem („bagging”, „boosting”, „Xgboost”), atbalsta vektoru mašīnas (SVM).Lekcijas1.00datorklase
8Klasifikācijas modeļu īstenošana ar apvienošanas metodēm un SVM „R”. Dažādu modeļu darbības rezultātu salīdzināšana.Nodarbības1.00datorklase
9Neironu tīklu un mašīnu dziļās mācīšanās principi. Datu attēlojums, izmantojot tenzorus, tenzora operācijas un gradientu. Slāņi, zaudējuma funkcijas un optimizētāji.Lekcijas1.00datorklase
10Keras darbstacijas sagatavošana. Mašīnu dziļās mācīšanās pielietojums regresijas, teksta un attēlu klasifikācijai, izmantojot „R” keras bibliotēku.Nodarbības1.00datorklase
11Lielo datu jēdziens un vēsture. „R” ierobežojumi un iespējamie risinājumi: paralēlā skaitļošana, data.table bibliotēka, „Spark” programmatūrai „R”.Lekcijas1.00datorklase
12„Spark” iestatīšana „R”. Lielas datu kopas apstrādes analīze ar „R”: lietošanas vienkāršības un skaitļošanas laiku salīdzināšana starp bāzes, data.table, paralēlo un „Spark” pieeju.Nodarbības1.00datorklase
Tēmu saraksts (nepilna laika studijas)
Nr.TēmaĪstenošanas formaSkaitsNorises vieta
1Ievads mašīnmācīšanās procesā. Modeļa precizitātes novērtēšana, bias-variance trade-off, atlases atkārtošanas veidošanas metodes (validācijas kopas pieeja, savstarpēja validācija un butstrapa metode).Lekcijas1.00datorklase
2„R” gadījuma izpēte: bias-variance trade-off novērtēšana lineārajiem modeļiem. Modeļu izveide ar „R” caret bibliotēku.Nodarbības1.00datorklase
3Lineārā modeļa izvēle: apakškopu atlase un shrinkage metodes (Ridge, Lasso). Galveno komponentu regresija.Lekcijas1.00datorklase
4Regresijas metožu īstenošana „R”. Dažādu regresijas modeļu darbības rezultātu salīdzināšana.Nodarbības1.00datorklase
5Klasifikācijas metodes I: KNN, klasifikācijas koka metode, gadījuma meži.Lekcijas1.00datorklase
6Vienkāršu klasifikācijas modeļu īstenošana „R”. Dažādu modeļu darbības rezultātu salīdzināšana.Nodarbības1.00datorklase
7Klasifikācijas metodes II: Apvienošanas metodes klasifikācijas kokiem („bagging”, „boosting”, „Xgboost”), atbalsta vektoru mašīnas (SVM).Lekcijas1.00datorklase
8Klasifikācijas modeļu īstenošana ar apvienošanas metodēm un SVM „R”. Dažādu modeļu darbības rezultātu salīdzināšana.Nodarbības1.00datorklase
9Neironu tīklu un mašīnu dziļās mācīšanās principi. Datu attēlojums, izmantojot tenzorus, tenzora operācijas un gradientu. Slāņi, zaudējuma funkcijas un optimizētāji.Lekcijas1.00datorklase
10Keras darbstacijas sagatavošana. Mašīnu dziļās mācīšanās pielietojums regresijas, teksta un attēlu klasifikācijai, izmantojot „R” keras bibliotēku.Nodarbības1.00datorklase
11Lielo datu jēdziens un vēsture. „R” ierobežojumi un iespējamie risinājumi: paralēlā skaitļošana, data.table bibliotēka, „Spark” programmatūrai „R”.Lekcijas1.00datorklase
12„Spark” iestatīšana „R”. Lielas datu kopas apstrādes analīze ar „R”: lietošanas vienkāršības un skaitļošanas laiku salīdzināšana starp bāzes, data.table, paralēlo un „Spark” pieeju.Nodarbības1.00datorklase
Vērtēšana
Patstāvīgais darbs:
1. Obligātās un papildliteratūras izpēte, lekcijās un nodarbībās apgūto zināšanu paplašināšanai un nostiprināšanai. 2. Studentiem jānodod 4 programmā „R” balstīti veicami uzdevumi, kas saistīti ar kursa tēmām.
Vērtēšanas kritēriji:
Novērtējums 10 ballu skalā saskaņā ar RSU Studiju reglamentu: • 4 iesniedzamie veicamie uzdevumi – 70%. • Gala eksāmens – 30%.
Gala pārbaudījums (pilna laika studijas):Eksāmens (Rakstisks)
Gala pārbaudījums (nepilna laika studijas):Eksāmens (Rakstisks)
Studiju rezultāti
Zināšanas:• Izvēlas atlases atkārtošanas veidošanas metodes un modeļa precizitātes novērtēšanas kritērijus. • Izskaidro svarīgākos regresijas un klasifikācijas algoritmus. • Identificē lielo datu jēdzienu.
Prasmes:• Prot patstāvīgi ieviest regresijas un klasifikācijas mašīnmācīšanās algoritmus „R”. • Analītiski izvērtē „R” skaitļošanas ierobežojumus un izvēlas stratēģijas to pārvarēšanai.
Kompetences:• Spēj kritiski salīdzināt dažādas mašīnmācīšanās stratēģijas un izvēlēties konkrētai problēmai atbilstošu algoritmu.
Bibliogrāfija
Nr.Atsauce
Obligātā literatūra
1Chollet, F., Allaire, J.J. (2018) Deep learning with R, Manning Publications, Shelter Island. Parts I, II and III.
2Luraschi, J., Kuo, K., Ruiz E. (2019) Mastering Spark with R. O’Reilly. Chapters 1 – 4.
Papildu literatūra
1James, G., Witten, D., Hastie, T. and Tibshirani (2013). An Introduction to Statistical Learning with Applications in R., R., Springer-Verlag
2Hastie, T., Tibshirani, R. and Friedman, J. (2009) The Elements of Statistical Learning., Springer-Verlag
3Simon Walkowiak (2016). Big data analytics with R. Utilize R to uncover hidden patterns in your Big Data. Packt Publishing, Birmingham, Chapters 3 - 7.
4Torgo, J. (2017) Data mining with R: learning with Case Studies, Chapman & Hall/CRC