Retour

Choisir des données géospatiales : une complexité sous-estimée

Stéphane Roche 

Professeur titulaire de sciences géomatiques

28 mai 2021

Choisir des données géospatiales : une complexité sous-estimée

Alors que l’usage de données géospatiales s’impose comme un incontournable pour un nombre grandissant d’organisations, dans des secteurs d’activités toujours plus diversifiés (finance, assurances, vente de détail, gestion immobilière, etc.), l’achat de jeux de données adaptés aux besoins, peut s’avérer une opération délicate. La complexité des données géospatiales tient à deux caractéristiques.  D’une part, les données géospatiales sont toujours dépendantes d’un niveau d’incertitude puisqu’elles reflètent une réalité sociospatiale complexe et souvent incomplète. D’autre part, la grande variété de leur mode de production (réseaux de capteurs, drones, satellites, techniques de géocodage, crowdsourcing, etc.) limite la traçabilité et la caractérisation généalogique d’un jeu de données, à un instant donné. Compte tenu de cette complexité inhérente, certaines considérations doivent être envisagées à l’occasion de l’achat de données.

Données prêtes à l’emploi versus données sur mesure

Longtemps la seule option existante consistait à faire appel au service d’une entreprise spécialisée de l’industrie géospatiale, et de faire procéder à la collecte et production d’un jeu de données (sur mesure). Aujourd’hui, le marché de la donnée prête à l’emploi (ou presque) est suffisamment mature pour qu’un large choix soit offert. C’est le cas de données de type matricielles (images aéroportées, orthophotos ou modèles Lidar 3D), mais aussi, de plus en plus, celui des bases de données vectorielles. Ces bases de données, mises en marché par les agences nationales ou régionales de cartographies, sont pour la plupart ouvertes et en apparence « gratuites », comme les données de StatCan. Il existe également les données à valeur ajoutée commercialisées par des entreprises privées comme DMTI, Foursquare, HERE Technologies, Precisely ou encore Google. Ce virage presque total du marché de la donnée géospatiale a eu tendance à brouiller les cartes et à entretenir une fausse idée de gratuité et de simplicité. Pourtant, la donnée géospatiale demeure coûteuse à produire (flotte de véhicules, capteurs aéroportés, etc.), à traiter et à diffuser, qu’elle soit ouverte et en apparence gratuite, ou non. Elle reste également complexe à intégrer.

L’achat de données se fait toujours dans un cadre économique et financier déterminé. De nombreuses études ont tenté d’évaluer les retombées économiques des données géospatiales, de proposer des modèles d’évaluation du retour sur investissement, des coûts évités ou encore de la chaine de valeurs. Les données prêtes à l’emploi ont l’avantage d’avoir une tarification claire et des fonctionnalités dédiées déjà intégrées. Cependant, le cadre préimposé peut, dans certains contextes d’usages, représenter un inconvénient . L’évaluation des coûts totaux doit prendre en compte, non seulement de la tarification de base, mais aussi des coûts d’intégration, d’agrégation, d’analyse et de traitements, ainsi que les coûts de services, de maintien et de mise à jour. Donc, la prolifération de portails de données ouvertes ne signifie pas l’absence de coûts. La donnée a toujours un coût, l’apparente gratuité peut au final, signifier des coûts de traitement plus importants et souvent plus difficiles à anticiper. C’est un pensez-y-bien…

Qualité interne et qualité externe, l’intérêt relatif des métadonnées

Toutes les données géospatiales sont entachées d’incertitude et d’erreurs associées aux processus d’acquisition, de modélisation, d’appariement géométrique, sémantique ou temporel, d’intégration, ou de traitement. Un jeu de données et donc plus ou moins adéquat. Gérer les incertitudes associées à un jeu de données renvoie donc à la nécessité d’en évaluer le niveau de fidélité, de justesse et d’exactitude en regard à la réalité qu’elles représentent. Aussi, la question de la qualité des données est certainement au cœur de ces considérations. Les caractéristiques intrinsèques des données (qualité interne), mesurées selon des critères définis dans la norme ISO 19113 (précision géométrique, exhaustivité, précision sémantique, cohérence logique, actualité, etc.), permettent de déterminer le niveau d’adéquation (qualité externe) d’un jeu de donnée à un usage particulier et le cas échéant, la nature des traitements nécessaires avant utilisation. La qualité externe des données étant leur aptitude à l’emploi doit en effet permettre de répondre à une question assez simple : quels sont les besoins d’affaires et dans quelle mesure le jeu de données y répond. Les métadonnées (données sur les données) constituent aussi, lorsqu’elles sont complètes, fraiches et accessibles, un bon indicateur de qualité interne et un moyen d’évaluer la qualité externe des données.

Anticiper les risques et les responsabilités

Partant du principe que les données géospatiales sont essentiellement des données d’observation (donc entachées d’incertitudes), un modèle de la réalité (et donc toujours incomplètes), rarement à jour (donc en partie désuètes) et souvent complexes et techniques pour les non-experts, elles devraient toujours être assorties de mises en garde ainsi que de conditions et modalités d’utilisation. Ceci est d’autant plus important sachant que non seulement, les modes et conditions de productions ne sont plus ce qu’ils étaient, mais qu’en plus, les données géospatiales sont produites et mises en marché à des fins de réutilisation, de modification, d’intégration et d’usages multiples. La donnée géospatiale n’est plus seulement un bien commun, mais un produit de consommation « courant ».

Si l’on se fie aux cadres règlementaires émergents, à la jurisprudence, voir même dans le cas du Québec au Code civil, les obligations du producteur (et par ricochet de l’intégrateur) sont nombreuses: il doit considérer le type de données et leurs usages prévisibles, formuler des réserves quant la qualité de la donnée, préciser le niveau d’incertitude assortie et prévenir en identifiant et en nommant les risques . De ce fait l’achat de jeux de données géospatiales devrait toujours s’accompagner d’une réflexion sérieuse quant aux usages possibles, aux risques d’utilisation non appropriée, aux controverses potentielles liées à l’interprétation des données ou encore des considérations juridiques émergentes. Les cadres règlementaires se multiplient, à portées variables, extraterritoriales dans certains cas, qui viennent préciser les obligations légales. Le Règlement général sur la protection des données (RGPD) impose par exemple des règles de protection des données individuelles personnelles, dont la géolocalisation. Les normes ISO 27001 et 27701 constituent un excellent cadre d’application du RGPD en ce qui concerne les mesures de base de gestion sécuritaire des données (cybersécurité) et plus particulièrement la protection des données privées.

Considérant ce qui précède, le choix de données géospatiales ne doit pas être pris à la légère, même si à première vue, acheter des données peut paraître simple; et les erreurs peuvent s’avérer très lourdes de conséquences. Aussi tout achat devrait se faire suite à un inventaire des données disponibles, une analyse de compatibilité de ces jeux de données avec les usages prévus, et la mise en oeuvre d’un processus de sélection rigoureux.

Faites-vous conseiller par nos experts

Une approche possible pour réduire la complexité en mobilisant l’expertise géospatiale

1. Effectuer une analyse de compatibilité

Il ne s’agit sans doute pas d’une liste exhaustive, mais il est important que les jeux de données identifiés lors de l’inventaire avant achat soient analysés au regard des caractéristiques de qualité interne :

  • le référentiel spatial : positionnement, forme, relations de voisinage, dimension spatiale (0D, 1D, 2D), granularité et dimension minimale, précision, système de référence, structure de données (matricielle/ vectorielle), etc. ;
  • le référentiel sémantique (thématique) : signification de la donnée (identification et la description des attributs et de leurs valeurs) ;
  • le référentiel temporel : date, durée et validité de la donnée ;
  • les modalités d’acquisition et de traitements : outils de mesure, de collecte et de stockage, outils analytiques servant à structurer, à traiter et à diffuser la donnée, format, codage, structure, traitements ;
  • ainsi que les usages recommandés : type d’emploi ou de modification permis par la donnée – interdiction de vente, de modification, modalités et conditions, etc.

2. Procéder à la sélection

Une fois l’analyse de compatibilité réalisée, le choix du ou des jeux de données passe par un processus de sélection qui peut par exemple, s’appuyer sur un cadre d’analyse multicritère. Il s’agit bien entendu d’une méthode parmi une multitude de méthodologies d’analyse qualitative et quantitative, dont le choix va souvent dépendre des pratiques internes de l’organisation, de son niveau de maturité en matière de littératie des données (data acumen), ou du fait de solliciter une expertise géospatiale externe. Une des méthodes consiste à dresser la liste des besoins d’affaires à couvrir par les données ainsi que la liste des critères (stricts, pondérés, indifférents) à prendre en considération. Une fois les critères définis, ce qui est en soi un processus complexe, il reste à établir le tableau des performances de chacun des jeux de données et à agréger ces performances de manière à classer les jeux de données en fonction de leur qualité externe.

3. Construire une matrice de choix

Ces performances peuvent être synthétisées dans une matrice de choix (ex. analyse de coût de type réseau, comparaison de l’achalandage entre 2000, 2010 et 2020). Les colonnes représentent les critères (ex. présence des contraintes de circulation sur le réseau, date de mise à jour du jeu de données) et les valeurs du tableau correspondent à la préférence de chaque action en rapport avec chaque critère (caractéristique du réseau : pondération en fonction par exemple du niveau d’effort nécessaire pour réaliser les traitements nécessaires, date : oui/non). Ainsi, les seuils de préférence ou d’indifférence sont mentionnés, de même que les poids relatifs permettant de pondérer, selon le besoin, chacun des critères.

Matrice de choix (exemple)

Conclusion

L’acquisition d’un jeu de données géospatiales n’est pas une opération triviale à commencer par la connaissance requise pour bâtir l’inventaire des données potentielles. Le niveau d’expertise requis pour procéder aux analyses, traitements éventuels et choix qui permettront de doter une organisation des données les mieux adaptées à ses besoins (la meilleure qualité externe) n’a cessé de croitre au rythme de la complexification du marché et de l’offre. C’est précisément le rôle de l’expert géospatial que d’accompagner les processus d’achat de données de manière à en garantir l’adéquation aux besoins et ainsi à aligner la stratégie d’acquisition sur la mission et le modèle d’affaire de l’organisation.

Contactez-nous

Restez connecté!

Inscrivez-vous à notre infolettre :

CLAVARDEZ