Recueil et formatage d’une base de données

Les données recueillies dans le cadre d’une thèse de médecine sont pour la plupart des données à caractère personnel. Elles sont de fait soumises à une réglementation forte, en particulier au RGPD (Réglementation Générale sur la Protection des Données). A ce titre, votre fichier de données ne doit pas contenir de données identifiantes telles que : nom de famille, prénom, date de naissance complète, adresse, code postal, numéro de téléphone, NIP, NDA… Afin de maintenir un niveau de sécurité minimal :

  • Les patients doivent être identifiés par un numéro unique propre au travail de thèse (« id_patient »).
  • Un fichier de correspondance, contenant la correspondance entre le numéro de patient propre à l’étude (« id_patient ») et, par exemple, le numéro de patient interne au CHU (NIP), doit être conservé au sein de l’établissement duquel sont issues les données, ou du moins dans un lieu différent de celui dans lequel sont stockées les données
  • Au mieux, les fichiers (données et correspondance) peuvent être chiffrés par mot de passe. Quelques liens vers des ressources expliquant comment procéder, selon l’outil de saisie utilisé

1. Organisation des données en 3 feuillets

Afin de faciliter l’analyse statistique, les données doivent être organisées sous la forme de 3 feuillets :

  • Un fichier contenant les données
  • Un fichier contenant les libellés des variables
  • Un fichier contenant les libellés des modalités des variables qualitatives

Règles générales : 

  • Une cellule ne doit contenir qu’une et une seule information / donnée / observation.
  • Il ne doit donc pas y avoir de retour à la ligne
  • Il ne doit pas y avoir d’espace, sauf au milieu d’un texte, mais s’il est dans le fichier de données ce dernier ne pourra pas être analysé (pas de moyenne ou de % possible…), il s’agira de commentaire. Il peut y avoir des espaces dans le fichier des modalités.
  • Il ne doit pas y avoir de tiret isolé « – » dans une cellule.
    • dans le fichier des données, il s’agira soit d’une cellule laissée vide si la donnée est manquante, soit une cellule non-applicable et on mettra la chaîne de caractère NonApp
    • dans les fichiers des labels, soit il existe un label pour une modalité, soit la ligne ne doit pas exister
  • Il ne doit pas y avoir de ligne vide

1.1. Feuillet contenant les données

  • Chaque colonne correspond à une variable. Pour le nom des variables :
    • Ils ne doivent contenir ni caractères spéciaux (&, €, <, µ, +, etc.), ni ponctuation ni accent. Les majuscules sont autorisées. Les espaces doivent être remplacés par des « _ ». Exemple : « age_sup_18_ans ».
    • Un nom de variable doit toujours commencer par une lettre.
    • Dans le cas de mesure répétée à différents temps, on préfixe les variables par le temps de mesure. Exemple : « M3_saignement ».
    • Toutes les variables doivent avoir un nom différent.
  • Chaque ligne correspond à une unité d’étude (souvent un patient).
  • Dans ce fichier, les données à analyser doivent être saisies sous forme de nombre :
    • Pour les paramètres quantitatifs, la valeur saisie est celle de la mesure du paramètre quantitatif. Le séparateur décimal peut être la virgule ou le point mais il doit être constant dans l’ensemble du fichier de données. Ne pas mettre d’unité de mesure.
    • Pour les paramètres qualitatifs, la valeur saisie est celle du nombre servant à coder la modalité du paramètre qualitatif (cf. feuillet 3).
    • Concernant les données temporelles :
      • Pour les dates, le format de saisie doit être toujours le même pour toutes les dates, par exemple « JJ/MM/AAAA ». (et bien sûr, une seule date par cellule !) Au besoin, créer plusieurs variables de date. (Par exemple date_prescription, date_debut_ttt et date_fin_ttt). Si pour un patient il vous manque une information, par exemple vous n’avez que le mois et l »année mais pas la date, il faut soit considérer la donnée comme manquante (et donc laisser la cellule vide), soit décider d’une date (mais préciser comment dans le rapport).
      • L’heure, si elle est intéressante, doit être saisie dans une cellule différente de celle de la date. Son format de saisie doit être « hh24:mi:ss ».
    • Il est possible de saisir du texte, mais ce dernier ne pourra pas être analysé, il s’agira de commentaire (enlever ou indiquer quelles variables sont des commentaires pour une analyse). 
Formatage des données en fonction de leur type
id_patient age_annee sexe remission origine date_chirurgie heure_chirurgie commentaire
1 33 2 0 3 01/08/2019 12:00:00 PTG Dt
2 19 1 0 2 03/09/2018 15:32:00 Cataracte OG

Imaginons que l’on souhaite recueillir des informations en lien avec le traitement d’une affection particulière, par exemple la grippe. On s’intéresse au fait que le patient ait pu recevoir un traitement symptomatique, un traitement par inhibiteur de la neuraminidase et/ou un traitement antibiotique. Les traitements n’étant pas mutuellement exclusifs (un patient pouvant donc être traité et par antibiotique et par TAMIFLU), il convient de créer une colonne par type de traitement puis de saisir, dans chacune d’elle, si le patient a oui ou non été traité par le traitement considéré.

Tableau de données avec plusieurs informations dans une même cellule
id_patient ttt_grippe
1 1
2 1+3
3 1+2+3
devient
id_patient ttt_sympto ttt_neuraminidase ttt_antibio
1 1 0 0
2 1 0 1
3 1 1 1
  • Une donnée manquante doit correspondre à une cellule vide.
  • Une donnée « non-applicable » doit être représentée par une unique chaîne de caractère, par exemple « NonApp ».
Tableau de données avec données manquantes et données non applicables
id_patient grippe ttt_sympto ttt_neuraminidase ttt_antibio
1 0 NonApp NonApp NonApp
2 1 1 0

Donnée manquante = cellule vide

1.2. Feuillet contenant le libellé des variables

Ce feuillet est composé de 2 colonnes :
  • Une colonne « Variable », contenant le nom de toutes les variables telles que saisies dans le feuillet contenant les données.
    Chaque variable (qu’elle soit quantitative, qualitative ou temporelle) présente dans le fichier des données doit correspondre à une ligne dans ce fichier.
  • Une colonne « Libellé », contenant le libellé des variables explicitant les tableaux de sortie de résultats. Ici, les caractères spéciaux et accents sont autorisés.
Libellé de l’ensemble des variables du tableau de données
Variable Libellé
age_sup_18_ans Age supérieur à 18 ans
M3_saignement Saignement à M3

1.3. Feuillet contenant le libellé des modalités des variables qualitatives

Ce feuillet est composé de 3 colonnes :

  • Une colonne « Variable », contenant le nom des variables qualitatives telles que saisies dans le feuillet contenant les données.  Il ne doit pas y avoir de variable quantitative ou temporelle dans le fichier des modalités.
  • Une colonne « Modalité », contenant le codage numérique des variables qualitatives.
  • Une colonne « Libellé », contenant la signification des modalités des variables qualitatives (telle qu’il apparaîtra dans le tableau : il doit donc être assez long pour être compréhensible mais assez court pour ne pas l’alourdir).
Tableau des libellés des modalités des variables qualitatives
Variable Modalité Libellé
sexe 1 Masculin
sexe 2 Féminin
remission 0 Non
remission 1 Oui
origine 1 Caucasien
origine 2 Africain
origine 3 Asiatique

2. Exemple de formatage d’un tableau de données

Ci-dessous l’exemple d’un tableau de données avec un format non analysable :

  • Il contient des données nominatives
  • Il ne respecte pas la structure : données / libellé des variables / libellé des modalités des variables qualitatives + tableau de correspondance
  • Les données ne sont pas codées sous forme de nombre
  • Certaines cellules contiennent plusieurs informations
  • Les données textuelles n’ont pas été codées pour l’analyse
Tableau de données dans un mauvais format
NIP Nom Prénom Date de naissance Sexe Age (année) Origine Tabagisme Traitement Gestite/Parité Motif Date entrée
018965821 AUBRY Martine 08/08/1950 F 69 Française Actif Aucun G2P2 Douleur abdo 09/07/2019
156874920 GIGOU Élisabeth 06/08/1946 Féminin 73 Maroc Ancien (18 PA) SPASFON G5P3 Douleur épigastrique 10/08/2019
011872319 DOUSTE-BLAZY Philippe 01/01/1953 H 66 FRA NON PARACETAMOL + VOGALEN NA Ictère 08/11/19
184794105 BERTRAND Xavier 21/03/1965 M 45 Sénégal ?? Non . Céphalée 01/08/2019
014694732 BACHELOT Roselyne 24/12/1946 Femme 73 france 25PA TAMIFLU G0P0 Grippe 07/12/2018
019852364 TOURAINE Marisol 07/03/59 F 60 France Oui N . AVP 01/09/2019
017459862 BUZYN Agnès 01/11/62 Fem 57 FR 11 Homéopathie P3 Chute 26/03/2019

Ci-dessous le même tableau dans un format analysable :

  • Suppression des données nominatives (tableau de correspondance conservé à part)
  • L’ensemble des données est codé sous forme de nombre (même le texte grâce au fichier des libellés des modalités des variables qualitatives)
  • Chaque cellule ne contient qu’une seule information
  • Les données manquantes sont représentées par des cellules vides et les cellules non-applicables par la chaîne de caractère NonApp
Tableau de données dans un format analysable
id_patient sexe age origine tabac tabac_pa ttt_douleur ttt_nausee ttt_autre ttt_autre_detail gestite parite motif motif_detail date_entree
1 2 69 1 1 0 0 0 2 2 1 Douleur abdominale 09/07/2019
2 2 73 2 2 15 1 0 0 5 3 1 Douleur épigastrique 10/08/2019
3 1 66 1 0 NonApp 1 0 0 NonApp NonApp 1 Ictère 08/11/2019
4 1 45 2 0 0 0 NonApp NonApp 2 Céphalée 01/08/2019
5 2 73 1 1 NonApp 0 0 1 TAMIFLU 0 0 3 Grippe 07/12/2018
6 2 60 1 1 0 0 0 4 AVP 01/09/2019
7 2 57 1 1 11 0 0 1 HOMÉOPATHIE 3 4 Chute 26/03/2019

Les données « ttt_autre_detail » et « motif_detail » ne peuvent pas être analysées telles quelles. Leurs formats analysables, codés, sont respectivement « ttt_autre » et « motif ».

Tableau contenant le libellé des modalités des variables qualitatives
Variable Modalité Libellé
sexe 1 Masculin
sexe 2 Féminin
origine 1 Caucasienne
origine 2 Africaine
tabac 0 Non-fumeur
tabac 1 Actif
tabac 2 Sevré
ttt_douleur 0 Non
ttt_douleur 1 Oui
ttt_nausee 0 Non
ttt_nausee 1 Oui
ttt_autre 0 Non
ttt_autre 1 Oui
motif 1 Abdominal
motif 2 Neurologique
motif 3 Infectieux
motif 4 Traumatisme
Tableau contenant le libellé de l’ensemble des variables du tableau de données
Variable Libellé
id_patient Numéro du patient interne à l’étude
sexe Sexe
age Age (année)
origine Lieu de naissance
tabac Statut tabagique
tabac_pa Tabagisme en paquet-année (PA)
ttt_douleur Traitement antalgique
ttt_nausee Traitement antiémétique
ttt_autre Traitement autre
ttt_autre_detail Traitement autre (détail)
gestite Gestité
parite Parité
motif Motif d’entrée aux urgences
motif_detail Motif d’entrée aux urgences (détail)
date_entree Date d’entrée aux urgences
Tableau de correspondance
NIP id_patient
018965821 1
156874920 2
011872319 3
184794105 4
014694732 5
019852364 6
017459862 7