Probabilité et Statistique pour les Sciences de la Santé: Apprentissage au Moyen du Logiciel Stata, par Patrick Taffé, se veut un livre différent de nombreux ouvrages théoriques traitant des probabilités et de la statistique. Cet ouvrage (en français) non seulement présente, de façon rigoureuse, les concepts et méthodes statistiques, mais aussi utilise des exemples concrets pour illustrer chaque concept théorique nouvellement introduit. Le lecteur va apprendre à réaliser des analyses au moyen de Stata, basé sur des vraies données. De nombreuses illustrations et nombreux exemples d’applications sont donnés pour apprendre au lecteur à mettre en pratique les techniques d’analyse. Enfin, des exercices à réaliser avec Stata et impliquant le plus souvent un petit jeu de données, sont proposés à la fin de chaque section afin de mettre en oeuvre les connaissances nouvellement acquises.
L’ouvrage s’adresse en premier lieu au chercheur dans le domaine des sciences de la santé (médecin, infirmière et infirmier, épidémiologue, biologiste, biostatisticien, etc.), qu’il soit débutant ou qu’il maitrise déjà les concepts de base de la statistique, mais aussi aux chercheurs d’autres domaines (économie, psychologie, démographie, géographie, etc.) qui désirent acquérir les fondements de la statistique.
Ce livre présente de façon méticuleuse les notions fondamentales de la théorie des probabilités et de la statistique: bref rappel de l’histoire de la statistique, la statistique descriptive, les distributions discrètes et continues, estimation, tests d’hypothèses, l’analyse de corrélation, l’analyse de régression linéaire simple et multiple, et le modèle d’analyse de variance. Au moyen des exemples et exercices, le lecteur est guidé tout au long de la réalisation du problème. En même temps, l’apprentissage de l’utilisation de Stata se fait progressivement au fil des chapitres. La dernière partie de l’ouvrage propose une introduction à l’utilisation de St ata. Les corrections des exercices figurent à la fin de l’ouvrage, permettant au lecteur de vérifier le niveau de compréhension atteint après chaque étape.
Ce livre ne se limite pas à une présentation de la théorie que l’on trouve dans des ouvrages d’introduction de la statistique. En tant que biostatisticien, Patrick Taffé a plusieurs années d’expérience dans l’application de la statistique à la recherche clinique. Dans ce livre, l’auteur partage son expérience et montre comment utiliser la théorie statistique sur des vraies données, au moyen d’un logiciel statistique. Le lecteur apprendra à choisir la méthode statistique la plus simple et adéquate, et à apprécier si les hypothèses sur lesquelles reposent ces méthodes sont validées dans un contexte donné, afin de justifier leur utilisation. Ce livre propose, donc, une méthode pédagogique originale d’enseignement dont l’objectif est de faciliter le passage de la théorie à la pratique.
Table des matiéres
1. INTRODUCTION
Définitions du mot « statistique »
Origine
Bref historique de la statistique
De 3000 av. J.-C. á aujourd’hui
La moyenne
Florence Nightingale (1820-1910)
Les grands développments de la méthodologie statistique
La statistique descriptive
La statistique mathématique
La statistique inférentielle
L’analyse des données
2. LA STATISTIQUE DESCRIPTIVE
Variables
Définition des concepts de base
Les différents types de variables
La distribution d’une variable
Analyse univariée, bivariée, multivariée et mutlivariables
Exercices (Variables)
Résumés quantitatifs des données
Mesures de tendance centrale
Le mode
La moyenne arithmétique
La médiane
Positions relatives des trois mesures de tendance centrale
Distribution unimodale et symétrique
Distribution asymétrique
Qualité comparée des trois mesures de tendance centrale
Exercices (Mesures de tendance centrale)
Mesures de dispersion
L’étendue
L’étendue interquartile
L’écart absolu moyen
Variance et écart-type
Exercices (mesures de dispersion)
Mesures de position
Exercices (Mesures de position)
Mesures de forme
Exercices (Mesures de forme)
Mesures de dépendance
Exercices (Mesures de dépendance)
Récapitulatif des différents résumés quantitatifs
Représentations graphiques des données
Le diagramme à points (dotplot)
Le diagramme à bâtons (bar chart)
L’histogramme
Le diagramme à tige et feuilles (stem-and-leaf plot)
Le diagramme en secteurs (pie chart)
Le diagramme boîte à moustaches (boxplot)
Le diagramme des fréquences cumulées
Le diagramme nuage de points (scatterplot)
La comparaison des distributions
Excercices (Représentations graphiques des données)
Représentations tabulaires des données
Tableau à une entrée
Tableau à deux entrées
Exercices (Représentations tabulaires des données)
3. PROBABILITE’
Bases du calcul des probabilités
Ensembles et sous-ensembles
Exercices (Ensembles et sous-ensembles)
Expérience aléatoire et événements
Exercices (Expérience aléatoire et événements)
Dénombrements
Exercices (Dénombrements)
Lois de probabilités
Evénements et probabilités
Probabilité d’un événement élémentaire
Probabilité d’un événement (composé)
Exercices (Evénements et probabilités)
Interprétations fréquentiste et Bayésienne de la probabilité, loi des grands nombres
Interprétation fréquentiste de la probabilité
La loi des grands nombres (énoncé empirique)
Interprétation Bayésienne de la probabilité
Règles des probabilités
Règle de soustraction
Règle de multiplication
R&eagrave;gle d’additivité
Exercices (Règle des probabilités)
Probabilité conditionnelle et indépendance
Exercices (Probabilité conditionnelle et indépendance)
Sensibilité, spécificité, valeurs prédictives positive et négative, rapports de vraisemblance
Exercices (Sensibilité, spécificité, valeurs prédictives positive et négative, rapports de vraisemblance)
Règle de Bayes
Exercices (Règle de Bayes)
Variables aléatoires
Variables aléatoires discrètes
Distribution de probabilité d’une VA discrète
Fonction cumulative ou de répartition d’une VA discrète
Exercices (Variables aléatoires discrètes)
Variables aléatoires continues
Distribution de probabilité d’une VA continue
La loi Normale
Fonction cumulative ou de répartition d’une VA continue
Exercices (Variables aléatoires continues)
Espérance, variance et covariance
L’espérance mathématique
Le cas d’une variable aléatoire discrète (quantitative)
Le cas d’une variable aléatoire continue
La variance
Moments d’ordre 1 et 2
Le cas d’une variable aléatoire discrète (quantitative)
Le cas d’une variable aléatoire continue
La covariance et le coefficient de corrélation linéaire
Le cas de variables aléatoire discrètes (quantitatives) (*)
Le cas de variables aléatoire continues
Exercices (Espérance, variance et covariance)
Combinaisons de variables aléatoires
Exercices (Combinaisons de variables aléatoires)
Transformations linéaires et affines de variables aléatoires
Propriétés de l’espérance, de la variance et de la covariance
Standardisation
Exercices (Transformations linéaires et affines de variables aléatoires)
Variables indépendantes et identiquement distribuées (iid), échantillon aléatoire simple
Variables aléatoires iid
L’échantillon aléatoire simple
Moyenne X? de variables alétoires
Interprétation intuitive de l’espérance mathématique d’une moyenne X? de variables aléatoires
Exercices (Variables indépendantes et identiquement distribuées (iid), concept d’échantillon aléatoires)
Loi faible des grands nombres (énoncé mathématique)(*)
L’inégalité de Bienaymé-Tchebychev
La loi faible des grands nombres ou théorème de Khintchine
Limitations à la loi faible des grands nombres
Le théorème central limite
Théorème central limite
Convergence de la distribution de la moyenne de n variables aléatoires discrètes vers une loi Normale
Convergence de la distribution de la moyenne de n variables aléatoires continues vers une loi Normale
Le cas d’une distribution très asymétrique
Le problème de la loi de Cauchy
Lien entre théorème central limite et loi des grands nombres
Exercices (Le théorème central limite)
Théorie de l’échantillonnage
Population versus échantillon: notion de « paramètre », « statistique » et « modéle »
La notion de « paramètre »
La notion de « statistique »
La notion de « modèle »
Exercices (Population versus échantillon, notion de « paramètre », « statistique » et « modèle »)
Le tirage aléatoire simple
Exercices (Le tirage aléatoire simple)
Mesures de tendance centrale
Exercices (Mesures de tendance centrale)
Mesures de dispersion
Exercices (Mesures de dispersion)
Mesures de dépendance
Exercices (Mesures de dépendance)
Mesures de forme
Exercices (Mesures de forme)
Distribution d’échantillonnage
Distribution d’échantillonnage d’une moyenne
Distribution d’échantillonnage d’une proportion
Distribution d’échantillonnage d’une variance
Exercices (Distribution d’échantillonnage)
La différence de deux moyennes
Excercices (La différence de deux moyennes)
La différence de deux proportions
Exercices (La différence de deux proportions)
Le bootstrap
Exercices (Le bootstrap)
4. DISTRIBUTIONS
Distributions discrètes
Distribution de probabilité uniforme
Distribution de Bernoulli et distribution Binomiale
Distribution Binomiale Négative et distribution Géométrique
Distribution Hypergéométrique
Distribuition Multinomiale
Distribuition de Poisson
Exercices (Distributions discrètes)
Distributions continues
Distribution uniforme
Distribution Normale
Distribution Normale Standardisée
Distribution du Chi2
Distribution de Student
Distribution de Fisher
Distribution Gamma
Exercices (Distributions continues)
5. ESTIMATION
Théorie de l’estimation
Problématique de l’estimation
Statistique, estimateur et estimation
Principes de l’estimation ponctuelle et par intervalle
Méthodes de construction d’un estimateur (*)
La méthode du maximum de vraisemblance
La méthode des moments
Propriétés d’un estimateur: biais, erreur quadratique moyenne, convergence, efficacité
Calcul d’un intervalle de confiance
Exercices (Théoire de l’estimation)
Les moyennes
Intervalle de confiance d’une moyenne
Grands échantillons
Petits échantillons
Illustration de la robustesse á l’hypothése de Normalité
Illustration de l’impaact des outliers
Exercices (Intervalle de confiance d’une moyenne)
Intervalle de confiance de la différence de deux moyennes
Echantillons indépendants
Echantillons appariés
Comparaison des plans d’études: échantillons appariés versus indépendants
Exercices (Intervalle de confiance de la différence de deux moyennes)
Les proportions
Intervalle de confiance d’une proportion
Grands échantillons
Petits échantillons
Exercices (Intervalle de confiance d’une proportion)
Intervalle de confiance de la différence de deux proportions (RD)
Echantillons indépendants
Echantillons appariés
Exercices (Intervalle de confiance de la différence de deux proportions)
Intervalle de confiance du ratio de deux proportions (RR)
Echantillons indépendants
Echantillons appariés
Exercices (Intervalle de confiance du ratio de deux proportions)
Intervalle de confiance d’un Odds Ratio (OR)
Echantillons indépendants
Echantillons appariés
Exercices (Intervalle de confiance d’un Odds Ratio)
6. TESTS D’HYPOTHESES
Fondements de la théorie des tests d’hypoèses
Principe des tests statistiques
Procédure de test
Première étape: Spécification des hypothèses nulle et alternative
Deuxième étape: Distribution de la statistique de test sous H0
Troisième étape: Définition de la région critique
Quatrième étape: Confronter les observations aux valeurs attendues
Test unilatéral ou test bilatéral
Calcul de la p-valeur
Lien entre procédure de test et intervalle de confiance
Exercices (Fondements de la théorie des tests d’hypothèses)
Procédures de test
Test d’une moyenne
Exercices (Test d’une moyenne)
Test de la différence de deux moyennes
Echantillons indépendants
Exercices (Test de la différence de deux moyennes: échantillons indépendants)
Echantillons appariés
Exercices (Test de la différence de deux moyennes: échantillons appariés)
Test d’une proportion
Exercices (Test d’un proportion)
Test de la différence de deux proportions
Echantillons indépendants
Exercices (Test de la différence de deux proportions: échantillons indépendants)
Echantillons appariés
Exercices (Test de la différence de deux proportions: échantillons appariés)
Calcul de puissance et de taille d’échantillon
La puissance d’un test
Exercices (La puissance d’un test)
Application au calcul du nombre de sujets nécessaire
Nombre de sujets pour tester une moyenne
Nombre de sujets pour une précision donnée pour une moyenne
Nombre de sujets pour tester une proportion
Nombre de sujets pour une précision donnée pour une proportion
Nombre de sujets pour tester la différence de deux moyennes
Echantillons indépendants
Echantillons appariés
Nombre de sujets pour une précision donnée de la différence de deux moyennes
Echantillons indépendants
Echantillons appariés
Nombre de sujets pour tester la différence de deux proportions
Echantillons indépendants
Echantillons appariés
Nombre de sujets pour une précision donnée de la différence de deux proportions
Echantillons indépendants
Echantillons appariés
Exercices (Application au calcul du nombre de sujets nécessaire)
Tests de chi2
Test de « goodness of fit »
Exercices (Test de « goodness of fit »)
Test d’homogénéité
Exercices (Test d’homogénéité)
Test d’indépendance
Exercices (Test d’indépendance)
Tests nonparamétriques
Test de Wilcoxion-Mann-Whitney
Exercices (Test de Wilcoxion-Mann-Whitney)
Test de Kruskal-Wallis
Exercices (Test de Kruskal-Wallis)
Test exact de Fisher
Exercices chapitre 6.5.3 (Test exact de Fisher)
Test de Kolmogorov-Smirnov
Exercices (Test de Kolmogorov-Smirnov)
Comparaisons multiples
Exercices (Comparaisons multiples)
7. L’ANALYSEE DE CORRELATION
Le coefficient de corrélation linéaire
Propriétés du coefficient de corrélation linéaire de Pearson
Le modèle Normal bivarié (*)
Test de la corrélation linéaire
Intervalle de confiance pour une corrélation
Taille d’échantillon pour détecter une corrélation linéaire non nulle
Taille d’échantillon pour une précision donnée pour une corrélation
Le modèle Normal trivarié (*)
La corrélation de rang ou de Spearman
Test de la corrélation de rang
Intervalle de confiance pour la corrélation de rang
Exercices (L’analyse de corrélation)
Mesures d’association entre variables discrètes et continues
Mesures d’association entre variables dicrétes ordinales (quantitatives ou qualitatives)
La Tau (?) de Kendall (1938)
Mesures d’association entre variables qualitatives nominales
Le V de Cramér (1946)
Le coefficient phi (?)
Mesure d’association entre une variable continue et une variable binaire
La corrélation bisériale ponctuelle
Autres mesures d’association
Exercices (Mesures d’association entre variables discrètes et continues)
8. L’ANALYSE DE REGRESSION LINEAIRE SIMPLE
Phénoméne de régression vers la moyenne
Définition et hypothèses du modèle de régression linéaire simple
Terminologie
Etude observationnelle / étude expérimentale
Le modèle de régression linéaire simple (*)
Hypothèses du modèle de régression linéaire simple
L’hypothèse d’existence
L’hypothèse d’indépendance
L’hypothèse d’exogénéité)
L’hypothèse de linéarité
L’hypothèse d’homoscédasticité
L’hypothèse de Normalité
L’hypothèse d’absence d’erreurs de mesure
Estimation des coefficents: La méthode des moindres carrés
Interprétation des coefficients de la droite de régression
Test de la pente de la droite de régression
Intervalle de confiance pour la pente de la droite de régression
Le coefficent de détermination (empirique)
Contribution de chaque observation à l’estimation de la droite de régression: Le levier
L’anaylse de l’adéquation du modèle aux données
L’analyse des résidus
L’analyse de l’influence
Intervalle de confiance pour la droite de réression
Intervalle de prédiction
Les transformations
Exercices (Régression linéaire simple)
9. L’ANALYSE DE REGRESSION LINEAIRE MULTIPLE
Intérêt de la régression linéaire multiple
Relation brute versus relation ajustée
Facteur pronostique, facteur confondant et biais de confusion
Définition et hypothèses du modèle de régression linéaire mutliple
Estimation des coefficients: La méthode des moindres carrés
Interprétation des coefficients de la surface de régression
Le cas d’un modèle additif simple
Interprétation du coefficient associé à une variable continue
Interprétation de la constante
Interprétation du coefficient associé à une variable discrète
Le cas d’un modèle non-additif (i.e. avec interactions)
Interaction entre une variable continue et une variable discrète
Interaction entre deux variables discrètes
Interaction entre deux variables continues
Le cas d’un modèle polynômial
Le cas d’un modèle semi-logarithmique
Le cas d’un modèle log-log
Test de significativité des coefficients de la régression
Test de significativité d’un seul coefficient
Test de significativité d’un plusieurs coefficents
Intervalle de confiance pour les coefficients de la surface de régression
Le coefficient de détermination
L’analyse de l’adéquation du modèle aux données
Intervalles de confiance et de prédiction
La sélection des variables explicatives dans les différents types d’études
Les études descriptives
Les études prédictives
Les études étiologiques
Les critéres de sélection d’un modèle
Les algorithmes de recherche du modèle optimal
L’importance relative des variables
Exercices (Régression linéaire multiple)
10. LE MODELE D’ANALYSE DE VARIANCE
Exercices (Le modèle d’analyse de variance)
Introduction à l’utlilisation de Stata
Corrigés succincts des exercices
Bibliographie
Index