.
Mašīnmācīšanās un lieldatu analīze
Studiju kursa apraksts
Kursa apraksta statuss:Apstiprināts
Kursa apraksta versija:4.00
Kursa apraksta apstiprināšanas datums:14.03.2024 11:41:03
Par studiju kursu | |||||||||
Kursa kods: | SL_120 | LKI līmenis: | 7. līmenis | ||||||
Kredītpunkti: | 2.00 | ECTS: | 3.00 | ||||||
Zinātnes nozare: | Matemātika; Varbūtību teorija un matemātiskā statistika | Mērķauditorija: | Dzīvās dabas zinātnes | ||||||
Studiju kursa vadītājs | |||||||||
Kursa vadītājs: | Andrejs Ivanovs | ||||||||
Studiju kursa īstenotājs | |||||||||
Struktūrvienība: | Statistikas mācību laboratorija | ||||||||
Struktūrvienības vadītājs: | |||||||||
Kontaktinformācija: | Kapseļu iela 23, 2.stāvs, Rīga, statistikarsu[pnkts]lv, +371 67060897 | ||||||||
Studiju kursa plānojums | |||||||||
Pilns laiks - 1. semestris | |||||||||
Lekcijas (skaits) | 6 | Lekciju ilgums (akadēmiskās stundas) | 2 | Kopā lekciju kontaktstundas | 12 | ||||
Nodarbības (skaits) | 6 | Nodarbību ilgums (akadēmiskās stundas) | 2 | Kopā nodarbību kontaktstundas | 12 | ||||
Kopā kontaktstundas | 24 | ||||||||
Nepilns laiks - 1. semestris | |||||||||
Lekcijas (skaits) | 6 | Lekciju ilgums (akadēmiskās stundas) | 1 | Kopā lekciju kontaktstundas | 6 | ||||
Nodarbības (skaits) | 6 | Nodarbību ilgums (akadēmiskās stundas) | 2 | Kopā nodarbību kontaktstundas | 12 | ||||
Kopā kontaktstundas | 18 | ||||||||
Studiju kursa apraksts | |||||||||
Priekšzināšanas: | Augstākā matemātika, varbūtība, statistika, pamatzināšanas par „R” programmēšanu. | ||||||||
Mērķis: | Mašīnmācīšanās (ML) ir saistīta ar tādu algoritmu izpēti, kuri automātiski var iegūt informāciju un no datiem radīt jaunas zināšanas. ML uzdevumi bieži ir saistīti ar lielām datu kopām, kas rada problēmas datu glabāšanas, organizēšanas un apstrādes jomās. Šo problēmu risināšanai pievēršas lielo datu analītikas nozare. Kursa mērķis ir iepazīstināt studentus ar svarīgākajām mašīnmācīšanās metodēm: regresijas un klasifikācijas algoritmu variācijām, kā arī iepazīstināt ar mašīnu dziļās mācīšanās un lielo datu analītikas jēdzieniem. Metodes tiks pētītas gadījumu izpētē, kas īstenota „R” programmā. | ||||||||
Tēmu saraksts (pilna laika studijas) | |||||||||
Nr. | Tēma | Īstenošanas forma | Skaits | Norises vieta | |||||
1 | Ievads mašīnmācīšanās procesā. Modeļa precizitātes novērtēšana, bias-variance trade-off, atlases atkārtošanas veidošanas metodes (validācijas kopas pieeja, savstarpēja validācija un butstrapa metode). | Lekcijas | 1.00 | datorklase | |||||
2 | „R” gadījuma izpēte: bias-variance trade-off novērtēšana lineārajiem modeļiem. Modeļu izveide ar „R” caret bibliotēku. | Nodarbības | 1.00 | datorklase | |||||
3 | Lineārā modeļa izvēle: apakškopu atlase un shrinkage metodes (Ridge, Lasso). Galveno komponentu regresija. | Lekcijas | 1.00 | datorklase | |||||
4 | Regresijas metožu īstenošana „R”. Dažādu regresijas modeļu darbības rezultātu salīdzināšana. | Nodarbības | 1.00 | datorklase | |||||
5 | Klasifikācijas metodes I: KNN, klasifikācijas koka metode, gadījuma meži. | Lekcijas | 1.00 | datorklase | |||||
6 | Vienkāršu klasifikācijas modeļu īstenošana „R”. Dažādu modeļu darbības rezultātu salīdzināšana. | Nodarbības | 1.00 | datorklase | |||||
7 | Klasifikācijas metodes II: Apvienošanas metodes klasifikācijas kokiem („bagging”, „boosting”, „Xgboost”), atbalsta vektoru mašīnas (SVM). | Lekcijas | 1.00 | datorklase | |||||
8 | Klasifikācijas modeļu īstenošana ar apvienošanas metodēm un SVM „R”. Dažādu modeļu darbības rezultātu salīdzināšana. | Nodarbības | 1.00 | datorklase | |||||
9 | Neironu tīklu un mašīnu dziļās mācīšanās principi. Datu attēlojums, izmantojot tenzorus, tenzora operācijas un gradientu. Slāņi, zaudējuma funkcijas un optimizētāji. | Lekcijas | 1.00 | datorklase | |||||
10 | Keras darbstacijas sagatavošana. Mašīnu dziļās mācīšanās pielietojums regresijas, teksta un attēlu klasifikācijai, izmantojot „R” keras bibliotēku. | Nodarbības | 1.00 | datorklase | |||||
11 | Lielo datu jēdziens un vēsture. „R” ierobežojumi un iespējamie risinājumi: paralēlā skaitļošana, data.table bibliotēka, „Spark” programmatūrai „R”. | Lekcijas | 1.00 | datorklase | |||||
12 | „Spark” iestatīšana „R”. Lielas datu kopas apstrādes analīze ar „R”: lietošanas vienkāršības un skaitļošanas laiku salīdzināšana starp bāzes, data.table, paralēlo un „Spark” pieeju. | Nodarbības | 1.00 | datorklase | |||||
Tēmu saraksts (nepilna laika studijas) | |||||||||
Nr. | Tēma | Īstenošanas forma | Skaits | Norises vieta | |||||
1 | Ievads mašīnmācīšanās procesā. Modeļa precizitātes novērtēšana, bias-variance trade-off, atlases atkārtošanas veidošanas metodes (validācijas kopas pieeja, savstarpēja validācija un butstrapa metode). | Lekcijas | 1.00 | datorklase | |||||
2 | „R” gadījuma izpēte: bias-variance trade-off novērtēšana lineārajiem modeļiem. Modeļu izveide ar „R” caret bibliotēku. | Nodarbības | 1.00 | datorklase | |||||
3 | Lineārā modeļa izvēle: apakškopu atlase un shrinkage metodes (Ridge, Lasso). Galveno komponentu regresija. | Lekcijas | 1.00 | datorklase | |||||
4 | Regresijas metožu īstenošana „R”. Dažādu regresijas modeļu darbības rezultātu salīdzināšana. | Nodarbības | 1.00 | datorklase | |||||
5 | Klasifikācijas metodes I: KNN, klasifikācijas koka metode, gadījuma meži. | Lekcijas | 1.00 | datorklase | |||||
6 | Vienkāršu klasifikācijas modeļu īstenošana „R”. Dažādu modeļu darbības rezultātu salīdzināšana. | Nodarbības | 1.00 | datorklase | |||||
7 | Klasifikācijas metodes II: Apvienošanas metodes klasifikācijas kokiem („bagging”, „boosting”, „Xgboost”), atbalsta vektoru mašīnas (SVM). | Lekcijas | 1.00 | datorklase | |||||
8 | Klasifikācijas modeļu īstenošana ar apvienošanas metodēm un SVM „R”. Dažādu modeļu darbības rezultātu salīdzināšana. | Nodarbības | 1.00 | datorklase | |||||
9 | Neironu tīklu un mašīnu dziļās mācīšanās principi. Datu attēlojums, izmantojot tenzorus, tenzora operācijas un gradientu. Slāņi, zaudējuma funkcijas un optimizētāji. | Lekcijas | 1.00 | datorklase | |||||
10 | Keras darbstacijas sagatavošana. Mašīnu dziļās mācīšanās pielietojums regresijas, teksta un attēlu klasifikācijai, izmantojot „R” keras bibliotēku. | Nodarbības | 1.00 | datorklase | |||||
11 | Lielo datu jēdziens un vēsture. „R” ierobežojumi un iespējamie risinājumi: paralēlā skaitļošana, data.table bibliotēka, „Spark” programmatūrai „R”. | Lekcijas | 1.00 | datorklase | |||||
12 | „Spark” iestatīšana „R”. Lielas datu kopas apstrādes analīze ar „R”: lietošanas vienkāršības un skaitļošanas laiku salīdzināšana starp bāzes, data.table, paralēlo un „Spark” pieeju. | Nodarbības | 1.00 | datorklase | |||||
Vērtēšana | |||||||||
Patstāvīgais darbs: | 1. Obligātās un papildliteratūras izpēte, lekcijās un nodarbībās apgūto zināšanu paplašināšanai un nostiprināšanai. 2. Studentiem jānodod 4 programmā „R” balstīti veicami uzdevumi, kas saistīti ar kursa tēmām. | ||||||||
Vērtēšanas kritēriji: | Novērtējums 10 ballu skalā saskaņā ar RSU Studiju reglamentu: • 4 iesniedzamie veicamie uzdevumi – 70%. • Gala eksāmens – 30%. | ||||||||
Gala pārbaudījums (pilna laika studijas): | Eksāmens (Rakstisks) | ||||||||
Gala pārbaudījums (nepilna laika studijas): | Eksāmens (Rakstisks) | ||||||||
Studiju rezultāti | |||||||||
Zināšanas: | • Izvēlas atlases atkārtošanas veidošanas metodes un modeļa precizitātes novērtēšanas kritērijus. • Izskaidro svarīgākos regresijas un klasifikācijas algoritmus. • Identificē lielo datu jēdzienu. | ||||||||
Prasmes: | • Prot patstāvīgi ieviest regresijas un klasifikācijas mašīnmācīšanās algoritmus „R”. • Analītiski izvērtē „R” skaitļošanas ierobežojumus un izvēlas stratēģijas to pārvarēšanai. | ||||||||
Kompetences: | • Spēj kritiski salīdzināt dažādas mašīnmācīšanās stratēģijas un izvēlēties konkrētai problēmai atbilstošu algoritmu. | ||||||||
Bibliogrāfija | |||||||||
Nr. | Atsauce | ||||||||
Obligātā literatūra | |||||||||
1 | Chollet, F., Allaire, J.J. (2018) Deep learning with R, Manning Publications, Shelter Island. Parts I, II and III. | ||||||||
2 | Luraschi, J., Kuo, K., Ruiz E. (2019) Mastering Spark with R. O’Reilly. Chapters 1 – 4. | ||||||||
Papildu literatūra | |||||||||
1 | James, G., Witten, D., Hastie, T. and Tibshirani (2013). An Introduction to Statistical Learning with Applications in R., R., Springer-Verlag | ||||||||
2 | Hastie, T., Tibshirani, R. and Friedman, J. (2009) The Elements of Statistical Learning., Springer-Verlag | ||||||||
3 | Simon Walkowiak (2016). Big data analytics with R. Utilize R to uncover hidden patterns in your Big Data. Packt Publishing, Birmingham, Chapters 3 - 7. | ||||||||
4 | Torgo, J. (2017) Data mining with R: learning with Case Studies, Chapman & Hall/CRC |