Statistique descriptive

1. Types de variables

Il existe deux principaux types de variables :

  • Les variables quantitatives, qui mesurent une grandeur. Les variables quantitatives peuvent être :
    • Discrètes, si elles peuvent prendre un nombre fini de valeurs entre deux bornes (ex : le nombre d’enfants nés vivants).
    • Continue, si elles peuvent prendre un nombre infini de valeurs entre deux bornes (ex : le poids).
  • Les variables qualitatives, dont chaque modalité exprime une qualité, une condition, un état unique. Les variables qualitatives peuvent être :
    • Ordinale, lorsque les modalités peuvent être classées selon une logique ordonnée (ex : le niveau d’étude).
    • Nominale, dans le cas contraire (ex : le sexe).

Un autre type de variable très souvent rencontré sont les variables temporelles (date, heure…). Ces dernières sont la plupart du temps analysées sous forme de délai (ex : durée en jours entre la sortie et l’entrée d’hospitalisation) et donc ramenées sous forme de variables quantitatives.

2. Description des variables quantitatives

Les variables quantitatives sont décrites au travers :

  • De l’effectif (N) de données disponibles.
  • Du nombre et du pourcentage de données manquantes (m.d. pour missing data).
  • D’un ou plusieurs paramètre(s) de position : moyenne, médiane, mode et/ou quartile.
  • D’un ou plusieurs paramètre(s) de dispersion : étendue, intervalle interquartile, variance et/ou écart-type.

Le choix des paramètres de position et de dispersion diffèrent en fonction de la distribution de la variable quantitative :

  • Distribution normale (ou gaussienne) : elles sont décrites par l’intermédiaire de la moyenne (mean) et de l’écart-type (SD, standard-deviation). On considère souvent que les variables quantitatives issues d’échantillons dans l’effectif est supérieur ou égal à 30 suivent une distribution gaussienne (mais ils convient de vérifier graphiquement cette assertion).
  • Distribution non normale : elles sont décrites par l’intermédiaire de la médiane (median) et de l’intervalle inter-quartile (IQR, interquartile range).
distribution

A. Distribution normale ; B. Distribution non normale

D’un point de vue graphique, les variables quantitatives peuvent représentées sous forme :

  • De boîte à moustache (boxplot), qui représente les valeurs de la médiane, du 1er, 2ème, 3ème et 4ème quartile, du « minimum » et du « maximum ». Les outliers (données extrêmes) peuvent parfois être représentés sous formes de points.
boxplot

Boxplot (extrait de Understanding Boxplots)

  • D’histogramme, qui permet en particulier d’apprécier la distribution normale ou non d’une variable quantitative.

histogramme

  • De courbe, en particulier dans le cadre de données répétées dans le temps.

courbe

3. Description des variables qualitatives

Les variables qualitatives sont décrites par l’intermédiaire des effectifs (N) et des pourcentages (%) pour chaque modalité. D’un point de vue graphique, les variables qualitatives sont représentées par un diagramme en barre (barplot). La représentation en diagramme circulaire (camembert ou pie chart) doit être évitée puisqu’elle déforme la perception des proportions.

boxplot

4. Tableau de description

Ci-dessous un exemple de tableau décrivant la population d’un essai cas-témoins :

  • Le tableau commence et fini par une ligne horizontale.
  • L’entête est entourée par une ligne horizontale.
  • Le tableau ne comporte pas de ligne verticale.
  • Les données sont alignées sur la virgule.
  • Le tableau est accompagné d’une légende, qui doit doit comprendre des informations concernant le « temps, lieu et personne ».
Exemple de tableau contenant la description de la population
  Cas (n=50)
Témoin (n=50)
Age   28,89 (1,38) 29,53 (2,03)
Sexe
    Homme   30  (60 %)   36  (72 %)
    Femme   20  (40 %)   14  (28 %)
Origine ethnique
    Caucasien   38  (76 %)   42  (84 %)
    Asiatique      2  (4 %)      –
    Africain      4  (8 %)      8  (16 %)
    Autre      6  (12 %)      –
Tabagisme en PA (médiane [IQR])      8  [2 ; 12]      6  [1 ; 10]
Données exprimées en moyenne (écart-type) ou N (%) sauf mention contraire

5. Fowchart

Le diagramme de flux (flowchart) décrit sous forme d’organigramme le recrutement (screening, inclusion), la randomisation et le suivi de l’ensemble des patients d’une étude. Il permet notamment de s’assurer du maintient de la comparabilité des groupes au cours du suivi de l’étude et fourni des informations sur les raisons d’arrêt prématuré de l’étude.
Bien qu’indispensable dans les essais cliniques randomisés contrôlés, le diagramme de flux est intéressant dans tous type d’étude.
consort_flowchart

Flowchart (extrait des recommandations CONSORT)