Tableau de bord de l’état de santé des projets en ressources informationnelles de l’administration publique

Le but de cette page est de faire un suivi de l'amélioration de la qualité des données du Tableau de bord de l’état de santé des projets en ressources informationnelles de l’administration publique

Une première analyse a permis de constater le volume et une certaine qualité de données fournies. Les premières remarques concernent principalement le format des fichiers de données qui n'est pas standardisé et uniforme entre les extractions. Le but est d'assurer une qualité dans ces données et une cohérence à travers le temps afin d'en permettre l'étude et le développement.

Courriel suite à la première analyse des données ouvertes

Envoyé le 10 octobre 2015 à donnees@sct.gouv.qc.ca

Bonjour,
Je vous écris par rapport à certains éléments problématiques dans les fichiers de données avec identifiant c60b2248-0ca4-4b12-89d3-2f087a319bea (Tableau de bord de l’état de santé des projets en ressources informationnelles de l’administration publique):
1. Erreur d'encodage dans les données.
Les données sont encodées dans le format ISO-8859-1 et non UTF-8. Il serait approprié de modifier le descriptif à cet effet. La commande Linux suivante permet de faire la conversion du fichier si vous souhaitez utiliser le UTF-8, pour un fichier fichier.csv :
iconv -f "iso-8859-1" -t "utf8" fichier.csv -o fichier_corrige.csv
2. Caractères non standards dans les entêtes de fichiers.
De façon générale, il est recommandé de mettre uniquement des lettres, des chiffres et le caractère _ dans les entêtes de fichiers CSV. De fait, la majorité des logiciels statistiques et de bases de données ne supportent pas les caractères spéciaux et les caractères accentués. Dans le logiciel R, ceci génère le message d'erreur suivant: «chaine de caractères multioctets incorrecte 7»
3. Valeur incorrecte dans un champ numérique
Dans le fichier "tableau_de_bord_4.csv", pour la variable "Pourcentage_avancement" on retrouve le caractère "-" pour les données manquantes. Dans un fichier CSV, la norme est de laisser le champ à vide lorsque la donnée est manquante. Ceci évite aux logiciels de considérer une colonne numérique comme une colonne texte
4. Incohérence dans le format numérique de variables comptables.
Dans le fichier "tableau_de_bord_5.csv", les premières lignes de données des variables "Budget_autorise_initial","Budget_autorise_revise", "Montant_reel_depense" et "Cout_estime_pour_completer_le_projet" contiennent des nombres avec des espaces (un nombre ne devrait jamais contenir d'espaces dans un fichier de données). Ces nombres représentent des montants en $. Puis, à partir de la 105e ligne, les montants deviennent soudainement en milliers$ et sans espaces, maintenant. Ces incohérences des données rendent difficile le traitement automatisé de fichiers de données, car une intervention manuelle est nécessaire.
5. Incohérences dans les noms de variables entre les fichiers
Les noms de colonnes changent entre les fichiers: il y a des minuscules et des majuscules, certains ont des accents, d'autres non. Les noms de colonnes devraient être soit en minuscules, soit en majuscules et ne pas comporter d'accents. Ils doivent de plus être uniformes entre les fichiers afin de permettre de les concaténer facilement.
Exemples:
date_de_fin_revise -> date_de_fin_revisee,
Nom_organisme -> Nom_Organisme,
Date_de_début_prévue -> Date_de_debut_prevue
Merci !
François Pelletier