Guide d'introduction à la recherche de données et de statistiques

Concepts reliés aux données

Quelle est la différence entre les données et les statistiques ?

Bien que ces termes soient souvent utilisés de manière interchangeable, il existe une distinction importante entre les données et les statistiques. Les données sont les informations brutes à partir desquelles les statistiques sont dérivées. En d'autres termes, les statistiques fournissent une interprétation et un résumé des données.

Données

Les données sont des fichiers numériques créés et organisés pour le traitement et l'analyse. Les données peuvent être analysées et interprétées à l'aide de procédures statistiques pour répondre au "pourquoi" ou au "comment".

Les données brutes sont le résultat direct d'une recherche qui a été collectée, dans le cadre d'une étude, d'une observation ou d'une enquête. Les données brutes sont généralement dans un format lisible par machine qui peut être analysé à l'aide de logiciels tels qu'Excel, SPSS, SAS, R, etc. Voici à quoi peut ressembler un ensemble de données :

Statistiques

Les statistiques représentent une méthode courante de représentation de l'information. En général, les statistiques se rapportent aux données numériques et peuvent faire référence à la science du traitement des données numériques elles-mêmes.

Les données agrégées sont des données de niveau supérieur qui ont été compilées à partir d'unités de données plus petites. Par exemple, les données du recensement que vous trouvez sur le site web de Statistique Canada ont été agrégées pour préserver la confidentialité des répondants individuels.

Les microdonnées constituent des données directement observées ou collectées à partir d'une unité d'observation spécifique. Le fichier de microdonnées à grande diffusion (Public Use Microdata File (PUMF)) pour le recensement donne accès aux données d'enquête réelles du recensement, mais élimine l'information qui permettrait d'identifier les individus.

Une classification commune est basée sur la personne qui a effectué la collecte de données.

Données primaires : données collectées par l'investigateur lui-même dans un but précis.
Exemples : Données collectées par un étudiant pour sa thèse ou son projet de recherche.

Données secondaires : données collectées par une autre personne à d'autres fins (mais utilisées par l'enquêteur pour d'autres raisons).
Exemples : Les données du recensement recueillies par Statistique Canada sont utilisées pour analyser l'impact de l'éducation sur le choix de carrière et les revenus.

Les données spatiales, également appelées données géospatiales, sont un terme utilisé pour décrire toute donnée liée ou contenant des informations sur un emplacement spécifique sur la surface de la Terre. Les données spatiales peuvent exister dans une variété de formats et contenir plus que des informations spécifiques à un emplacement.

Les données spatiales numériques sont un ensemble de données qui comprend une composante géographique qui, lorsqu'elle est combinée avec des fichiers vectoriels, peut être sélectionnée et affichée sous forme de couche sur une carte dans un système d'information géographique.

Les données vectorielles ont une composante spatiale ou des coordonnées latitude/longitude qui leur sont attribuées. Les fichiers vectoriels peuvent contenir des ensembles de points, de lignes ou de polygones référencés dans un espace géographique.

Les données raster/matricielles sont des données présentées dans une grille de pixels et disponibles dans des formats .JPG, .GIF ou un format similaire.

Vous voulez en savoir plus?

Vous souhaitez développer vos compétences en matière de littératie des données?