Probabilité et Statistique pour les Sciences de la Santé: Apprentissage au Moyen du Logiciel Stata

Probabilité et Statistique pour les Sciences de la Santé: Apprentissage au Moyen du Logiciel Stata, par Patrick Taffé, se veut un livre différent de nombreux ouvrages théoriques traitant des probabilités et de la statistique. Cet ouvrage (en français) non seulement présente, de façon rigoureuse, les concepts et méthodes statistiques, mais aussi utilise des exemples concrets pour illustrer chaque concept théorique nouvellement introduit. Le lecteur va apprendre à réaliser des analyses au moyen de Stata, basé sur des vraies données. De nombreuses illustrations et nombreux exemples d’applications sont donnés pour apprendre au lecteur à mettre en pratique les techniques d’analyse. Enfin, des exercices à réaliser avec Stata et impliquant le plus souvent un petit jeu de données, sont proposés à la fin de chaque section afin de mettre en oeuvre les connaissances nouvellement acquises.

 

L’ouvrage s’adresse en premier lieu au chercheur dans le domaine des sciences de la santé (médecin, infirmière et infirmier, épidémiologue, biologiste, biostatisticien, etc.), qu’il soit débutant ou qu’il maitrise déjà les concepts de base de la statistique, mais aussi aux chercheurs d’autres domaines (économie, psychologie, démographie, géographie, etc.) qui désirent acquérir les fondements de la statistique.

 

Ce livre présente de façon méticuleuse les notions fondamentales de la théorie des probabilités et de la statistique: bref rappel de l’histoire de la statistique, la statistique descriptive, les distributions discrètes et continues, estimation, tests d’hypothèses, l’analyse de corrélation, l’analyse de régression linéaire simple et multiple, et le modèle d’analyse de variance. Au moyen des exemples et exercices, le lecteur est guidé tout au long de la réalisation du problème. En même temps, l’apprentissage de l’utilisation de Stata se fait progressivement au fil des chapitres. La dernière partie de l’ouvrage propose une introduction à l’utilisation de St ata. Les corrections des exercices figurent à la fin de l’ouvrage, permettant au lecteur de vérifier le niveau de compréhension atteint après chaque étape.

 

Ce livre ne se limite pas à une présentation de la théorie que l’on trouve dans des ouvrages d’introduction de la statistique. En tant que biostatisticien, Patrick Taffé a plusieurs années d’expérience dans l’application de la statistique à la recherche clinique. Dans ce livre, l’auteur partage son expérience et montre comment utiliser la théorie statistique sur des vraies données, au moyen d’un logiciel statistique. Le lecteur apprendra à choisir la méthode statistique la plus simple et adéquate, et à apprécier si les hypothèses sur lesquelles reposent ces méthodes sont validées dans un contexte donné, afin de justifier leur utilisation. Ce livre propose, donc, une méthode pédagogique originale d’enseignement dont l’objectif est de faciliter le passage de la théorie à la pratique.

Table des matiéres

 

1. INTRODUCTION

Définitions du mot « statistique »
Origine
Bref historique de la statistique

De 3000 av. J.-C. á aujourd’hui
La moyenne
Florence Nightingale (1820-1910)

Les grands développments de la méthodologie statistique

La statistique descriptive
La statistique mathématique
La statistique inférentielle
L’analyse des données

 

2. LA STATISTIQUE DESCRIPTIVE

Variables

Définition des concepts de base
Les différents types de variables
La distribution d’une variable
Analyse univariée, bivariée, multivariée et mutlivariables
Exercices (Variables)

Résumés quantitatifs des données

Mesures de tendance centrale

Le mode
La moyenne arithmétique
La médiane

Positions relatives des trois mesures de tendance centrale

Distribution unimodale et symétrique
Distribution asymétrique
Qualité comparée des trois mesures de tendance centrale
Exercices (Mesures de tendance centrale)

Mesures de dispersion

L’étendue
L’étendue interquartile
L’écart absolu moyen
Variance et écart-type
Exercices (mesures de dispersion)

Mesures de position

Exercices (Mesures de position)

Mesures de forme

Exercices (Mesures de forme)

Mesures de dépendance

Exercices (Mesures de dépendance)

Récapitulatif des différents résumés quantitatifs

Représentations graphiques des données

Le diagramme à points (dotplot)
Le diagramme à bâtons (bar chart)
L’histogramme
Le diagramme à tige et feuilles (stem-and-leaf plot)
Le diagramme en secteurs (pie chart)
Le diagramme boîte à moustaches (boxplot)
Le diagramme des fréquences cumulées
Le diagramme nuage de points (scatterplot)
La comparaison des distributions
Excercices (Représentations graphiques des données)

Représentations tabulaires des données

Tableau à une entrée
Tableau à deux entrées
Exercices (Représentations tabulaires des données)

 

3. PROBABILITE’

Bases du calcul des probabilités

Ensembles et sous-ensembles

Exercices (Ensembles et sous-ensembles)

Expérience aléatoire et événements

Exercices (Expérience aléatoire et événements)

Dénombrements

Exercices (Dénombrements)

Lois de probabilités

Evénements et probabilités

Probabilité d’un événement élémentaire

Probabilité d’un événement (composé)
Exercices (Evénements et probabilités)

Interprétations fréquentiste et Bayésienne de la probabilité, loi des grands nombres

Interprétation fréquentiste de la probabilité
La loi des grands nombres (énoncé empirique)
Interprétation Bayésienne de la probabilité

Règles des probabilités

Règle de soustraction
Règle de multiplication
R&eagrave;gle d’additivité
Exercices (Règle des probabilités)

Probabilité conditionnelle et indépendance

Exercices (Probabilité conditionnelle et indépendance)

Sensibilité, spécificité, valeurs prédictives positive et négative, rapports de vraisemblance

Exercices (Sensibilité, spécificité, valeurs prédictives positive et négative, rapports de vraisemblance)

Règle de Bayes

Exercices (Règle de Bayes)

Variables aléatoires

Variables aléatoires discrètes

Distribution de probabilité d’une VA discrète

Fonction cumulative ou de répartition d’une VA discrète
Exercices (Variables aléatoires discrètes)

Variables aléatoires continues

Distribution de probabilité d’une VA continue

La loi Normale
Fonction cumulative ou de répartition d’une VA continue
Exercices (Variables aléatoires continues)

Espérance, variance et covariance

L’espérance mathématique

Le cas d’une variable aléatoire discrète (quantitative)
Le cas d’une variable aléatoire continue

La variance

Moments d’ordre 1 et 2
Le cas d’une variable aléatoire discrète (quantitative)
Le cas d’une variable aléatoire continue

La covariance et le coefficient de corrélation linéaire

Le cas de variables aléatoire discrètes (quantitatives) (*)
Le cas de variables aléatoire continues

Exercices (Espérance, variance et covariance)

Combinaisons de variables aléatoires

Exercices (Combinaisons de variables aléatoires)

Transformations linéaires et affines de variables aléatoires

Propriétés de l’espérance, de la variance et de la covariance
Standardisation
Exercices (Transformations linéaires et affines de variables aléatoires)

Variables indépendantes et identiquement distribuées (iid), échantillon aléatoire simple

Variables aléatoires iid
L’échantillon aléatoire simple
Moyenne X? de variables alétoires
Interprétation intuitive de l’espérance mathématique d’une moyenne X? de variables aléatoires
Exercices (Variables indépendantes et identiquement distribuées (iid), concept d’échantillon aléatoires)

Loi faible des grands nombres (énoncé mathématique)(*)

L’inégalité de Bienaymé-Tchebychev
La loi faible des grands nombres ou théorème de Khintchine
Limitations à la loi faible des grands nombres

Le théorème central limite

Théorème central limite

Convergence de la distribution de la moyenne de n variables aléatoires discrètes vers une loi Normale
Convergence de la distribution de la moyenne de n variables aléatoires continues vers une loi Normale
Le cas d’une distribution très asymétrique
Le problème de la loi de Cauchy

Lien entre théorème central limite et loi des grands nombres
Exercices (Le théorème central limite)

Théorie de l’échantillonnage

Population versus échantillon: notion de « paramètre », « statistique » et « modéle »

La notion de « paramètre »
La notion de « statistique »
La notion de « modèle »
Exercices (Population versus échantillon, notion de « paramètre », « statistique » et « modèle »)

Le tirage aléatoire simple

Exercices (Le tirage aléatoire simple)

Mesures de tendance centrale

Exercices (Mesures de tendance centrale)

Mesures de dispersion

Exercices (Mesures de dispersion)

Mesures de dépendance

Exercices (Mesures de dépendance)

Mesures de forme

Exercices (Mesures de forme)

Distribution d’échantillonnage

Distribution d’échantillonnage d’une moyenne

Distribution d’échantillonnage d’une proportion
Distribution d’échantillonnage d’une variance
Exercices (Distribution d’échantillonnage)

La différence de deux moyennes

Excercices (La différence de deux moyennes)

La différence de deux proportions

Exercices (La différence de deux proportions)

Le bootstrap

Exercices (Le bootstrap)

 

4. DISTRIBUTIONS

Distributions discrètes

Distribution de probabilité uniforme
Distribution de Bernoulli et distribution Binomiale
Distribution Binomiale Négative et distribution Géométrique
Distribution Hypergéométrique
Distribuition Multinomiale
Distribuition de Poisson
Exercices (Distributions discrètes)

Distributions continues

Distribution uniforme
Distribution Normale
Distribution Normale Standardisée
Distribution du Chi2
Distribution de Student
Distribution de Fisher
Distribution Gamma
Exercices (Distributions continues)

 

5. ESTIMATION

Théorie de l’estimation

Problématique de l’estimation
Statistique, estimateur et estimation
Principes de l’estimation ponctuelle et par intervalle
Méthodes de construction d’un estimateur (*)

La méthode du maximum de vraisemblance
La méthode des moments

Propriétés d’un estimateur: biais, erreur quadratique moyenne, convergence, efficacité
Calcul d’un intervalle de confiance
Exercices (Théoire de l’estimation)

Les moyennes

Intervalle de confiance d’une moyenne

Grands échantillons
Petits échantillons
Illustration de la robustesse á l’hypothése de Normalité
Illustration de l’impaact des outliers
Exercices (Intervalle de confiance d’une moyenne)

Intervalle de confiance de la différence de deux moyennes

Echantillons indépendants
Echantillons appariés
Comparaison des plans d’études: échantillons appariés versus indépendants
Exercices (Intervalle de confiance de la différence de deux moyennes)

Les proportions

Intervalle de confiance d’une proportion

Grands échantillons
Petits échantillons
Exercices (Intervalle de confiance d’une proportion)

Intervalle de confiance de la différence de deux proportions (RD)

Echantillons indépendants
Echantillons appariés
Exercices (Intervalle de confiance de la différence de deux proportions)

Intervalle de confiance du ratio de deux proportions (RR)

Echantillons indépendants
Echantillons appariés
Exercices (Intervalle de confiance du ratio de deux proportions)

Intervalle de confiance d’un Odds Ratio (OR)

Echantillons indépendants
Echantillons appariés
Exercices (Intervalle de confiance d’un Odds Ratio)

 

6. TESTS D’HYPOTHESES

Fondements de la théorie des tests d’hypoèses

Principe des tests statistiques
Procédure de test

Première étape: Spécification des hypothèses nulle et alternative
Deuxième étape: Distribution de la statistique de test sous H0
Troisième étape: Définition de la région critique
Quatrième étape: Confronter les observations aux valeurs attendues

Test unilatéral ou test bilatéral
Calcul de la p-valeur
Lien entre procédure de test et intervalle de confiance
Exercices (Fondements de la théorie des tests d’hypothèses)

Procédures de test

Test d’une moyenne

Exercices (Test d’une moyenne)

Test de la différence de deux moyennes

Echantillons indépendants

Exercices (Test de la différence de deux moyennes: échantillons indépendants)

Echantillons appariés

Exercices (Test de la différence de deux moyennes: échantillons appariés)

Test d’une proportion

Exercices (Test d’un proportion)

Test de la différence de deux proportions

Echantillons indépendants

Exercices (Test de la différence de deux proportions: échantillons indépendants)

Echantillons appariés

Exercices (Test de la différence de deux proportions: échantillons appariés)

Calcul de puissance et de taille d’échantillon

La puissance d’un test

Exercices (La puissance d’un test)

Application au calcul du nombre de sujets nécessaire

Nombre de sujets pour tester une moyenne
Nombre de sujets pour une précision donnée pour une moyenne
Nombre de sujets pour tester une proportion
Nombre de sujets pour une précision donnée pour une proportion
Nombre de sujets pour tester la différence de deux moyennes

Echantillons indépendants
Echantillons appariés

Nombre de sujets pour une précision donnée de la différence de deux moyennes

Echantillons indépendants
Echantillons appariés

Nombre de sujets pour tester la différence de deux proportions

Echantillons indépendants
Echantillons appariés

Nombre de sujets pour une précision donnée de la différence de deux proportions

Echantillons indépendants
Echantillons appariés

Exercices (Application au calcul du nombre de sujets nécessaire)

Tests de chi2

Test de « goodness of fit »

Exercices (Test de « goodness of fit »)

Test d’homogénéité

Exercices (Test d’homogénéité)

Test d’indépendance

Exercices (Test d’indépendance)

Tests nonparamétriques

Test de Wilcoxion-Mann-Whitney

Exercices (Test de Wilcoxion-Mann-Whitney)

Test de Kruskal-Wallis

Exercices (Test de Kruskal-Wallis)

Test exact de Fisher

Exercices chapitre 6.5.3 (Test exact de Fisher)

Test de Kolmogorov-Smirnov

Exercices (Test de Kolmogorov-Smirnov)

Comparaisons multiples

Exercices (Comparaisons multiples)

 

7. L’ANALYSEE DE CORRELATION

Le coefficient de corrélation linéaire

Propriétés du coefficient de corrélation linéaire de Pearson
Le modèle Normal bivarié (*)
Test de la corrélation linéaire
Intervalle de confiance pour une corrélation
Taille d’échantillon pour détecter une corrélation linéaire non nulle
Taille d’échantillon pour une précision donnée pour une corrélation
Le modèle Normal trivarié (*)
La corrélation de rang ou de Spearman

Test de la corrélation de rang
Intervalle de confiance pour la corrélation de rang

Exercices (L’analyse de corrélation)

Mesures d’association entre variables discrètes et continues

Mesures d’association entre variables dicrétes ordinales (quantitatives ou qualitatives)

La Tau (?) de Kendall (1938)

Mesures d’association entre variables qualitatives nominales

Le V de Cramér (1946)

Le coefficient phi (?)

Mesure d’association entre une variable continue et une variable binaire

La corrélation bisériale ponctuelle

Autres mesures d’association
Exercices (Mesures d’association entre variables discrètes et continues)

 

8. L’ANALYSE DE REGRESSION LINEAIRE SIMPLE

Phénoméne de régression vers la moyenne
Définition et hypothèses du modèle de régression linéaire simple

Terminologie
Etude observationnelle / étude expérimentale
Le modèle de régression linéaire simple (*)
Hypothèses du modèle de régression linéaire simple

L’hypothèse d’existence
L’hypothèse d’indépendance
L’hypothèse d’exogénéité)
L’hypothèse de linéarité
L’hypothèse d’homoscédasticité
L’hypothèse de Normalité
L’hypothèse d’absence d’erreurs de mesure

Estimation des coefficents: La méthode des moindres carrés
Interprétation des coefficients de la droite de régression
Test de la pente de la droite de régression
Intervalle de confiance pour la pente de la droite de régression
Le coefficent de détermination (empirique)
Contribution de chaque observation à l’estimation de la droite de régression: Le levier
L’anaylse de l’adéquation du modèle aux données

L’analyse des résidus
L’analyse de l’influence

Intervalle de confiance pour la droite de réression
Intervalle de prédiction
Les transformations
Exercices (Régression linéaire simple)

 

9. L’ANALYSE DE REGRESSION LINEAIRE MULTIPLE

Intérêt de la régression linéaire multiple

Relation brute versus relation ajustée
Facteur pronostique, facteur confondant et biais de confusion

Définition et hypothèses du modèle de régression linéaire mutliple
Estimation des coefficients: La méthode des moindres carrés
Interprétation des coefficients de la surface de régression

Le cas d’un modèle additif simple

Interprétation du coefficient associé à une variable continue
Interprétation de la constante
Interprétation du coefficient associé à une variable discrète

Le cas d’un modèle non-additif (i.e. avec interactions)

Interaction entre une variable continue et une variable discrète
Interaction entre deux variables discrètes
Interaction entre deux variables continues

Le cas d’un modèle polynômial
Le cas d’un modèle semi-logarithmique
Le cas d’un modèle log-log

Test de significativité des coefficients de la régression

Test de significativité d’un seul coefficient
Test de significativité d’un plusieurs coefficents

Intervalle de confiance pour les coefficients de la surface de régression
Le coefficient de détermination
L’analyse de l’adéquation du modèle aux données
Intervalles de confiance et de prédiction
La sélection des variables explicatives dans les différents types d’études

Les études descriptives
Les études prédictives
Les études étiologiques

Les critéres de sélection d’un modèle
Les algorithmes de recherche du modèle optimal
L’importance relative des variables
Exercices (Régression linéaire multiple)

 

10. LE MODELE D’ANALYSE DE VARIANCE

Exercices (Le modèle d’analyse de variance)

Introduction à l’utlilisation de Stata
Corrigés succincts des exercices
Bibliographie
Index

Author: Patrick Taffè
ISBN-13: 978-1-59718-145-7
©Copyright: 2014

Cet ouvrage (en français) non seulement présente, de façon rigoureuse, les concepts et méthodes statistiques, mais aussi utilise des exemples concrets pour illustrer chaque concept théorique nouvellement introduit.