Gli ultimi anni hanno visto una disponibilità senza precedenti di informazioni su fenomeni sociali, economici e relativi alla salute. Ricercatori, professionisti e responsabili delle politiche hanno oggi accesso a enormi database (i cosiddetti “Big Data”) su persone, aziende, istituzioni, dispositivi cellulari, web, satelliti, ecc., con sempre maggiore dettaglio.
Il “machine learning” (o “apprendimento automatico”) è un approccio relativamente nuovo all’analisi dei dati, che si colloca nell’intersezione tra statistica, informatica ed intelligenza artificiale. Il suo obiettivo principale è quello di trasformare le informazioni in conoscenza e valore, “lasciando che i dati parlino da soli”.
A tal fine, il machine learning limita le ipotesi preliminari sulla struttura dei dati e fa affidamento su una filosofia che supporta lo sviluppo di algoritmi, di procedure computazionali e d’ispezione grafica dei risultati più che su assunzioni analitiche e soluzioni algebriche.
Il corso offre una introduzione ad alcune popolari tecniche di machine learning utilizzando il software Stata. Stata possiede oggi vari pacchetti per eseguire il machine learning che sono tuttavia poco conosciuti da molti suoi utenti. il programma è stato sviluppato per colmare questa lacuna rendendo i partecipanti più familiari (e meglio informati) sul potenziale di Stata per trarre conoscenza e valore dai dati, possibilmente di grandi dimensioni e “rumorosi”. Più specificamente verranno trattati i seguenti temi e metodi: 1) le basi concettuali del machine learning, 2) i metodi di ricampionamento e di validazione di un modello, 3) le tecniche di feature-selection e specificazione del modello attraverso regressione regolarizzata, 4) le tecniche di feature-selection e specificazione del modello attraverso approcci esaustivi e quasi esaustivi, 5) la classificazione con analisi discriminante e con il metodo nearest-neighbor.
L’approccio all’insegnamento sarà principalmente basato sul linguaggio grafico e sull’intuizione più che sull’algebra. Le lezioni si avvarranno di esempi sia simulati che reali, e permetterà di bilanciare equamente sessioni teoriche e sessioni pratiche.
Dopo il corso, i partecipanti avranno una migliore comprensione del potenziale di Stata per eseguire il machine learning, diventando così in grado di padroneggiare compiti di ricerca che includono, tra gli altri: (i) rilevamento d’importanza dei fattori, (ii) estrazione segnale-rumore, (iii) corretta specificazione del modello, (iv) classificazione, sia da un punto di vista di data mining che di approccio causale.
Il corso è di interesse per ricercatori e analisti in economia, medicina, marketing e scienze sociali che desiderano acquisire gli strumenti fondamentali per implementare l’approccio di machine learning sui così detti Big Data.
Buona conoscenza della statistica ed econometria di base ed in particolare del modello di regressione lineare, delle regressioni logit/probit e dell’inferenza classica. E’ consigliata la conoscenza del Software Stata.
SESSIONE I: LE BASI DEL MACHINE LEARNING
- Machine Learning: definizione, logica, utilità
- Apprendimento supervisionato e non supervisionato
- Problemi di regressione e di classificazione
- Inferenza e previsione
- Errore di campionamento ed errore di specificazione
- La fondamentale non-identificabilità di E(y|x)
- Modelli parametrici e non parametrici
- Il trade-off tra accuratezza della previsione e interpretabilità del modello
- Misure di bontà di adattamento
- Capacità predittiva “in-sample” e “out-sample”
- Il trade-off tra distorsione e variance
- La minimizzazione dell’errore quadratico medio
- Training-error vs. test-error
- I criteri di informazione
- La relazione tra Machine Learning ed intelligenza artificiale
- Super-learning e apprendimento dinamico
SESSIONE II: METODI DI RICAMPIONAMENTO E DI VALIDAZIONE
- Stima del test-error
- Metodi di validazione
- Approccio con “insieme di validazione”
- K-fold cross-validation
- Approccio “leave-one-out”
- Metodo bootstrap
- L’algoritmo di bootstrap
- Bootstrap vs. cross-validation ai fini della valutazione
- Implementazione in Stata
SESSIONE III: SELEZIONE DEL MODELLO ATTRAVERSO REGRESSIONE REGOLARIZZATA
- Selezione del modello e corretta specificazione
- Metodi di regressione “shrinkage”
- Regressione Lasso, Ridge ed elastica
- Criteri di informazione e cross-validation per il Lasso
- Lasso e inferenza causale
- Implementazione in Stata
SESSIONE IV: SELEZIONE DEL MODELLO ATTRAVERSO APPROCCI ESAUSTIVI E QUASI ESAUSTIVI
- Approccio esaustivo e quasi-esaustivo con criteri di informazione
- Best subset selection
- Backward stepwise selection
- Forward stepwise Selection
- Implementazione in Stata
SESSIONE V: ANALISI DISCRIMINANTE E CLASSIFICATORE NEAREST- NEIGHBOR
- Classificatore con analisi discriminante e metodo nearest-neighbor
- Classificatore ottimale Bayesiano e frontiera decisionale
- Tasso di errore di classificazione
- Analisi discriminante
- Analisi discriminante lineare e quadratica
- Il classificatore Naive-Bayes
- Il classificatore k-nearest-neighbor
- Implementazione in Stata
LETTURE CONSIGLIATE
- Cameron, A. C. & Trivedi, P. K. (2022). Microeconometrics Using Stata, Volume I: Cross-Sectional and Panel Regression Methods. Second Edition. Stata Press Publication.
- Cameron, A. C. & Trivedi, P. K. (2022). Microeconometrics Using Stata, Volume II: Nonlinear Models and Casual Inference Methods. Second Edition. Stata Press Publication.
- Hastie, T., Tibshirani, R. & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition. Springer.
- Gareth, J., Witten, D., Hastie, T., Tibshirani, R. & Taylor, J. (2023). An Introduction to Statistical Learning. Springer.
- Cerulli, G. (2020). A Super-Learning machine for predicting economic outcomes. MPRA Paper 99111, University Library of Munich, Germany.
- Cerulli, G. (2023). Fundamentals of Supervised Machine Learning. Springer
L’edizione 2024 di questo corso di formazione verrà offerta ONLINE. Il programma del corso si articola su 2 moduli della durata di 4 ore ciascuno, per complessive 8 ore di lezione oltre 30 minuti di pausa. Le lezioni si svolgeranno nelle mattine del 22-23 Ottobre dalle ore 9.00 alle ore 13.30.
La partecipazione al corso è soggetta al pagamento della seguente quota di iscrizione:
Studenti*: € 520.00
Dottorandi: € 670.00
Università: € 765.00
Commerciale: € 1025.00
*La nostra politica standard è quella di fornire l’accesso alla tariffa “studenti a tempo pieno”, a studenti di laurea o master. E’ necessario pertanto presentare copia del libretto universitario o un certificato di iscrizione (in carta semplice) all’Università che ne attesti lo status. Studenti di master e dottorandi part-time, occupati, dovranno considerare la tariffa riservata alle Università.
I prezzi si intendono IVA 22% esclusa. L’aliquota IVA non sarà applicata per Enti Pubblici soggetti ad esenzione a norma dell’art. 14 c. 10 della L. 537/93 per la partecipazione a corsi di formazione dei propri dipendenti.
La quota di iscrizione include il materiale didattico e una licenza temporanea del software Stata. Dà inoltre diritto ad uno sconto sull’acquisto di una nuova licenza per singolo utente del Software Stata (ad esclusione della versione per Studenti e Prof+ Plan).
L’iscrizione al corso dovrà avvenire tramite lo specifico modulo di registrazione e pervenire a TStat S.r.l. entro il 12 Ottobre 2024. Lo svolgimento è condizionato dal raggiungimento di un numero minimo di 5 partecipanti ed un numero massimo di 8.
CORSO ONLINE
Il corso offre una introduzione ad alcune popolari tecniche di machine learning utilizzando il software Stata. Stata possiede oggi vari pacchetti per eseguire il machine learning che sono tuttavia poco conosciuti da molti suoi utenti.
Le lezioni si svolgeranno nelle mattine del 22-23 Ottobre dalle ore 9.00 alle ore 13.30.