OBIETTIVO DEL CORSO

 

Il “machine learning” (o “apprendimento automatico”) è un approccio relativamente nuovo all’analisi dei dati, che si colloca nell’intersezione tra statistica, informatica ed intelligenza artificiale. Il suo obiettivo principale è quello di trasformare le informazioni in conoscenza e valore, “lasciando che i dati parlino da soli”.

 

A tal fine, il machine learning limita le ipotesi preliminari sulla struttura dei dati e fa affidamento su una filosofia che supporta lo sviluppo di algoritmi, di procedure computazionali e d’ispezione grafica dei risultati più che su assunzioni analitiche e soluzioni algebriche.

 

Il corso offre, nel primo modulo, una introduzione ad alcune popolari tecniche di machine learning utilizzando il software Stata. Stata possiede oggi vari pacchetti per eseguire il machine learning che sono tuttavia poco conosciuti da molti suoi utenti. Il programma è stato sviluppato per colmare questa lacuna rendendo i partecipanti più familiari (e meglio informati) sul potenziale di Stata per trarre conoscenza e valore dai dati, possibilmente di grandi dimensioni e “rumorosi”. Nel seconda modulo, invece, copre i seguenti temi e metodi: 1) Ricapitolazione delle basi concettuali del machine learning; 2) Modelli “locali” di analisi non-parametrica; 3) Modelli “semi-globali” e “globali” di analisi non-parametrica; 4) Alberi decisionali e metodi di analisi “ensemble”; 5) Reti neurali.

 

L’approccio all’insegnamento sarà principalmente basato sul linguaggio grafico e sull’intuizione più che sull’algebra. Le lezioni si avvarranno di esempi sia simulati che reali, e permetterà di bilanciare equamente sessioni teoriche e sessioni pratiche.

 

Dopo il corso, i partecipanti saranno in grado di utilizzare le tecniche di machine learning apprese per varie finalità, in particolare: (i) per studiare relazioni fortemente non-lineari tra input ed output, identificando la distribuzione degli effetti in un modello libero dalle tradizionali assunzioni della regressione lineare, (ii) sviluppare “regressioni ad albero”, anche a complemento dell’approccio di regressione classico, avvalendosi di utili rappresentazioni grafiche esplicative degli effetti anche in presenza di più fattori predittivi, (iii) sviluppare classificazioni ad alta capacità predittiva utilizzando le reti neurali.

 

DESTINATARI

 

Il corso è di interesse per ricercatori e analisti in economia, medicina, marketing e scienze sociali che desiderano acquisire gli strumenti fondamentali per implementare l’approccio di machine learning sui così detti Big Data.

 

REQUISITI RICHIESTI

 

Buona conoscenza della statistica ed econometria di base ed in particolare del modello di regressione lineare, delle regressioni logit/probit e dell’inferenza classica. E’ consigliata la conoscenza del Software Stata.

 

Per la partecipazione a questo corso, l’aver seguito il corso precedente (modulo 1) è consigliato ma non strettamente necessario, in quanto nella prima parte verranno ricapitolati i concetti necessari alla comprensione dei metodi ivi trattati.


PROGRAMMA 

 

SESSIONE I: LE BASI DEL MACHINE LEARNING, RICAPITOLAZIONE

 

Machine Learning: definizione, logica, utilità
La fondamentale non-identificabilità di E(y|x)
Misure di bontà di adattamento: training versus test error
Metodi di ricampionamento e validazione

 

SESSIONE II:  MODELLI “LOCALI” DI ANALISI NON-PARAMETRICA

 

Oltre i modelli parametrici: una panoramica
Approccio locale: logica
Metodi locali:

 

Regressione Kernel
Regressione nearest-neigbor
Implementazione in Stata

 

SESSIONE III: MODELLI “SEMI-GLOBALI E “GLOBALI” DI ANALISI NONPARAMETRICA

 

Oltre i modelli parametrici: una panoramica
Approccio semi-globale e globale: logica
Metodi semi-globali

 

Step function
Piecewise polynomials
Regressione spline

 

Metodi globali

 

Stimatori polinomiali e seriali
Modelli parzialmente lineari
Modelli additivi generalizzati

 

Implementazione in Stata

 

 

 

 

SESSIONE IV: ALBERI DECISIONALI E METODI DI REGRESSIONE “ENSEMBLE”

 

Alberi di regressione e di classificazione
Costruire un albero decisionale tramite la “divisione binaria ricorsiva”
Potatura ottimale di un albero tramite cross-validation
Metodi di stima “ensemble” basati su alberi decisionali

 

Bagging, Random Forests e Boosting

 

Implementazione in Stata

 

SESSIONE V: RETI NEURALI

 

Il modello a “rete neurale”: una introduzione
Neuroni, strati nascosti e multi-outcome
Stima di reti neurali

 

Back-propagation tramite l’algoritmo “gradient descent
Adattamento con dati high-dimensional

 

Validazione dei parametri di una rete neurale
Implementazione in Stata

 

 

LETTURE CONSIGLIATE

 

Microeconometrics Using Stata, Cameron e Trivedi, Revised Edition, StataPress (2010)

 

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Hastie, T., Tibshirani, R., Friedman, J., Springer (2009)

 

An Introduction to Statistical Learning, Gareth, J., Witten, D., Hastie, T., Tibshirani, R., Springer (2013)

 

A Super-Learning machine for predicting economic outcomes”, MPRA Paper 99111, University Library of Munich, Germany (2020)