Les données recueillies dans le cadre d’une thèse de médecine sont pour la plupart des données à caractère personnel. Elles sont de fait soumises à une réglementation forte, en particulier au RGPD (Réglementation Générale sur la Protection des Données). A ce titre, votre fichier de données ne doit pas contenir de données identifiantes telles que : nom de famille, prénom, date de naissance complète, adresse, code postal, numéro de téléphone, NIP, NDA… Afin de maintenir un niveau de sécurité minimal :
- Les patients doivent être identifiés par un numéro unique propre au travail de thèse (« id_patient »).
- Un fichier de correspondance, contenant la correspondance entre le numéro de patient propre à l’étude (« id_patient ») et, par exemple, le numéro de patient interne au CHU (NIP), doit être conservé au sein de l’établissement duquel sont issues les données, ou du moins dans un lieu différent de celui dans lequel sont stockées les données
- Au mieux, les fichiers (données et correspondance) peuvent être chiffrés par mot de passe. Quelques liens vers des ressources expliquant comment procéder, selon l’outil de saisie utilisé
1. Organisation des données en 3 feuillets
Afin de faciliter l’analyse statistique, les données doivent être organisées sous la forme de 3 feuillets :
- Un fichier contenant les données
- Un fichier contenant les libellés des variables
- Un fichier contenant les libellés des modalités des variables qualitatives
Règles générales :
- Une cellule ne doit contenir qu’une et une seule information / donnée / observation.
- Il ne doit donc pas y avoir de retour à la ligne
- Il ne doit pas y avoir d’espace, sauf au milieu d’un texte, mais s’il est dans le fichier de données ce dernier ne pourra pas être analysé (pas de moyenne ou de % possible…), il s’agira de commentaire. Il peut y avoir des espaces dans le fichier des modalités.
- Il ne doit pas y avoir de tiret isolé « – » dans une cellule.
- dans le fichier des données, il s’agira soit d’une cellule laissée vide si la donnée est manquante, soit une cellule non-applicable et on mettra la chaîne de caractère NonApp
- dans les fichiers des labels, soit il existe un label pour une modalité, soit la ligne ne doit pas exister
- Il ne doit pas y avoir de ligne vide
1.1. Feuillet contenant les données
- Chaque colonne correspond à une variable. Pour le nom des variables :
- Ils ne doivent contenir ni caractères spéciaux (&, €, <, µ, +, etc.), ni ponctuation ni accent. Les majuscules sont autorisées. Les espaces doivent être remplacés par des « _ ». Exemple : « age_sup_18_ans ».
- Un nom de variable doit toujours commencer par une lettre.
- Dans le cas de mesure répétée à différents temps, on préfixe les variables par le temps de mesure. Exemple : « M3_saignement ».
- Toutes les variables doivent avoir un nom différent.
- Chaque ligne correspond à une unité d’étude (souvent un patient).
- Dans ce fichier, les données à analyser doivent être saisies sous forme de nombre :
- Pour les paramètres quantitatifs, la valeur saisie est celle de la mesure du paramètre quantitatif. Le séparateur décimal peut être la virgule ou le point mais il doit être constant dans l’ensemble du fichier de données. Ne pas mettre d’unité de mesure.
- Pour les paramètres qualitatifs, la valeur saisie est celle du nombre servant à coder la modalité du paramètre qualitatif (cf. feuillet 3).
- Concernant les données temporelles :
- Pour les dates, le format de saisie doit être toujours le même pour toutes les dates, par exemple « JJ/MM/AAAA ». (et bien sûr, une seule date par cellule !) Au besoin, créer plusieurs variables de date. (Par exemple date_prescription, date_debut_ttt et date_fin_ttt). Si pour un patient il vous manque une information, par exemple vous n’avez que le mois et l »année mais pas la date, il faut soit considérer la donnée comme manquante (et donc laisser la cellule vide), soit décider d’une date (mais préciser comment dans le rapport).
- L’heure, si elle est intéressante, doit être saisie dans une cellule différente de celle de la date. Son format de saisie doit être « hh24:mi:ss ».
- Il est possible de saisir du texte, mais ce dernier ne pourra pas être analysé, il s’agira de commentaire (enlever ou indiquer quelles variables sont des commentaires pour une analyse).
Formatage des données en fonction de leur type
id_patient |
age_annee |
sexe |
remission |
origine |
date_chirurgie |
heure_chirurgie |
commentaire |
1 |
33 |
2 |
0 |
3 |
01/08/2019 |
12:00:00 |
PTG Dt |
2 |
19 |
1 |
0 |
2 |
03/09/2018 |
15:32:00 |
Cataracte OG |
Imaginons que l’on souhaite recueillir des informations en lien avec le traitement d’une affection particulière, par exemple la grippe. On s’intéresse au fait que le patient ait pu recevoir un traitement symptomatique, un traitement par inhibiteur de la neuraminidase et/ou un traitement antibiotique. Les traitements n’étant pas mutuellement exclusifs (un patient pouvant donc être traité et par antibiotique et par TAMIFLU), il convient de créer une colonne par type de traitement puis de saisir, dans chacune d’elle, si le patient a oui ou non été traité par le traitement considéré.
Tableau de données avec plusieurs informations dans une même cellule
id_patient |
ttt_grippe |
1 |
1 |
2 |
1+3 |
3 |
1+2+3 |
|
devient |
id_patient |
ttt_sympto |
ttt_neuraminidase |
ttt_antibio |
1 |
1 |
0 |
0 |
2 |
1 |
0 |
1 |
3 |
1 |
1 |
1 |
|
- Une donnée manquante doit correspondre à une cellule vide.
- Une donnée « non-applicable » doit être représentée par une unique chaîne de caractère, par exemple « NonApp ».
Tableau de données avec données manquantes et données non applicables
id_patient |
grippe |
ttt_sympto |
ttt_neuraminidase |
ttt_antibio |
1 |
0 |
NonApp |
NonApp |
NonApp |
2 |
1 |
1 |
|
0 |
Donnée manquante = cellule vide
1.2. Feuillet contenant le libellé des variables
Ce feuillet est composé de 2 colonnes :
- Une colonne « Variable », contenant le nom de toutes les variables telles que saisies dans le feuillet contenant les données.
Chaque variable (qu’elle soit quantitative, qualitative ou temporelle) présente dans le fichier des données doit correspondre à une ligne dans ce fichier.
- Une colonne « Libellé », contenant le libellé des variables explicitant les tableaux de sortie de résultats. Ici, les caractères spéciaux et accents sont autorisés.
Libellé de l’ensemble des variables du tableau de données
Variable |
Libellé |
age_sup_18_ans |
Age supérieur à 18 ans |
M3_saignement |
Saignement à M3 |
1.3. Feuillet contenant le libellé des modalités des variables qualitatives
Ce feuillet est composé de 3 colonnes :
- Une colonne « Variable », contenant le nom des variables qualitatives telles que saisies dans le feuillet contenant les données. Il ne doit pas y avoir de variable quantitative ou temporelle dans le fichier des modalités.
- Une colonne « Modalité », contenant le codage numérique des variables qualitatives.
- Une colonne « Libellé », contenant la signification des modalités des variables qualitatives (telle qu’il apparaîtra dans le tableau : il doit donc être assez long pour être compréhensible mais assez court pour ne pas l’alourdir).
Tableau des libellés des modalités des variables qualitatives
Variable |
Modalité |
Libellé |
sexe |
1 |
Masculin |
sexe |
2 |
Féminin |
remission |
0 |
Non |
remission |
1 |
Oui |
origine |
1 |
Caucasien |
origine |
2 |
Africain |
origine |
3 |
Asiatique |
2. Exemple de formatage d’un tableau de données
Ci-dessous l’exemple d’un tableau de données avec un format non analysable :
- Il contient des données nominatives
- Il ne respecte pas la structure : données / libellé des variables / libellé des modalités des variables qualitatives + tableau de correspondance
- Les données ne sont pas codées sous forme de nombre
- Certaines cellules contiennent plusieurs informations
- Les données textuelles n’ont pas été codées pour l’analyse
Tableau de données dans un mauvais format
NIP |
Nom |
Prénom |
Date de naissance |
Sexe |
Age (année) |
Origine |
Tabagisme |
Traitement |
Gestite/Parité |
Motif |
Date entrée |
018965821 |
AUBRY |
Martine |
08/08/1950 |
F |
69 |
Française |
Actif |
Aucun |
G2P2 |
Douleur abdo |
09/07/2019 |
156874920 |
GIGOU |
Élisabeth |
06/08/1946 |
Féminin |
73 |
Maroc |
Ancien (18 PA) |
SPASFON |
G5P3 |
Douleur épigastrique |
10/08/2019 |
011872319 |
DOUSTE-BLAZY |
Philippe |
01/01/1953 |
H |
66 |
FRA |
NON |
PARACETAMOL + VOGALEN |
NA |
Ictère |
08/11/19 |
184794105 |
BERTRAND |
Xavier |
21/03/1965 |
M |
45 |
Sénégal |
?? |
Non |
. |
Céphalée |
01/08/2019 |
014694732 |
BACHELOT |
Roselyne |
24/12/1946 |
Femme |
73 |
france |
25PA |
TAMIFLU |
G0P0 |
Grippe |
07/12/2018 |
019852364 |
TOURAINE |
Marisol |
07/03/59 |
F |
60 |
France |
Oui |
N |
. |
AVP |
01/09/2019 |
017459862 |
BUZYN |
Agnès |
01/11/62 |
Fem |
57 |
FR |
11 |
Homéopathie |
P3 |
Chute |
26/03/2019 |
Ci-dessous le même tableau dans un format analysable :
- Suppression des données nominatives (tableau de correspondance conservé à part)
- L’ensemble des données est codé sous forme de nombre (même le texte grâce au fichier des libellés des modalités des variables qualitatives)
- Chaque cellule ne contient qu’une seule information
- Les données manquantes sont représentées par des cellules vides et les cellules non-applicables par la chaîne de caractère NonApp
Tableau de données dans un format analysable
id_patient |
sexe |
age |
origine |
tabac |
tabac_pa |
ttt_douleur |
ttt_nausee |
ttt_autre |
ttt_autre_detail |
gestite |
parite |
motif |
motif_detail |
date_entree |
1 |
2 |
69 |
1 |
1 |
|
0 |
0 |
0 |
|
2 |
2 |
1 |
Douleur abdominale |
09/07/2019 |
2 |
2 |
73 |
2 |
2 |
15 |
1 |
0 |
0 |
|
5 |
3 |
1 |
Douleur épigastrique |
10/08/2019 |
3 |
1 |
66 |
1 |
0 |
NonApp |
1 |
0 |
0 |
|
NonApp |
NonApp |
1 |
Ictère |
08/11/2019 |
4 |
1 |
45 |
2 |
|
|
0 |
0 |
0 |
|
NonApp |
NonApp |
2 |
Céphalée |
01/08/2019 |
5 |
2 |
73 |
1 |
1 |
NonApp |
0 |
0 |
1 |
TAMIFLU |
0 |
0 |
3 |
Grippe |
07/12/2018 |
6 |
2 |
60 |
1 |
1 |
|
0 |
0 |
0 |
|
|
|
4 |
AVP |
01/09/2019 |
7 |
2 |
57 |
1 |
1 |
11 |
0 |
0 |
1 |
HOMÉOPATHIE |
|
3 |
4 |
Chute |
26/03/2019 |
Les données « ttt_autre_detail » et « motif_detail » ne peuvent pas être analysées telles quelles. Leurs formats analysables, codés, sont respectivement « ttt_autre » et « motif ».
Tableau contenant le libellé des modalités des variables qualitatives
Variable |
Modalité |
Libellé |
sexe |
1 |
Masculin |
sexe |
2 |
Féminin |
origine |
1 |
Caucasienne |
origine |
2 |
Africaine |
tabac |
0 |
Non-fumeur |
tabac |
1 |
Actif |
tabac |
2 |
Sevré |
ttt_douleur |
0 |
Non |
ttt_douleur |
1 |
Oui |
ttt_nausee |
0 |
Non |
ttt_nausee |
1 |
Oui |
ttt_autre |
0 |
Non |
ttt_autre |
1 |
Oui |
motif |
1 |
Abdominal |
motif |
2 |
Neurologique |
motif |
3 |
Infectieux |
motif |
4 |
Traumatisme |
Tableau contenant le libellé de l’ensemble des variables du tableau de données
Variable |
Libellé |
id_patient |
Numéro du patient interne à l’étude |
sexe |
Sexe |
age |
Age (année) |
origine |
Lieu de naissance |
tabac |
Statut tabagique |
tabac_pa |
Tabagisme en paquet-année (PA) |
ttt_douleur |
Traitement antalgique |
ttt_nausee |
Traitement antiémétique |
ttt_autre |
Traitement autre |
ttt_autre_detail |
Traitement autre (détail) |
gestite |
Gestité |
parite |
Parité |
motif |
Motif d’entrée aux urgences |
motif_detail |
Motif d’entrée aux urgences (détail) |
date_entree |
Date d’entrée aux urgences |
Tableau de correspondance
NIP |
id_patient |
018965821 |
1 |
156874920 |
2 |
011872319 |
3 |
184794105 |
4 |
014694732 |
5 |
019852364 |
6 |
017459862 |
7 |
WordPress:
J’aime chargement…