Retour

Les 7 pièges les plus courants lorsque vous magasinez des données géospatiales et comment les éviter

Julien Lebrun 

Expert Géospatial

14 juin 2021

Les 7 pièges les plus courants lorsque vous magasinez des données géospatiales et comment les éviter

Les données sont maintenant un outil essentiel de l’innovation pour les organisations, car elles leur offrent un avantage concurrentiel au sein de leur marché. Les équipes d’analyse et l’infrastructure qui les soutient ont connu une croissance exponentielle au cours de la dernière décennie, mais de nombreuses organisations ont encore de la difficulté à se procurer des jeux de données de grande qualité et adéquates pour prendre des décisions axées sur les données en toute confiance. La société de recherche et d’analyse de marché Frost and Sullivan prévoit que « le marché de l’analyse des mégadonnées connaîtra une croissance à un taux de croissance annuel composé (TCAC) de 29,7 % pour s’établir à 40,6 milliards de dollars d’ici 2023 ».

Lorsque la pandémie a frappé, de nombreuses organisations se sont précipitées pour trouver et acheter les bonnes données pour faire face aux nouveaux défis commerciaux. Un an plus tard, bon nombre d’entre elles n’ont pas fait beaucoup de progrès. Selon un rapport de Deloitte, à l’exception des quelques organisations matures sur le plan des données qui ont réussi à intégrer une stratégie de données dans leur pratique, la plupart des organisations ont encore de la difficulté à naviguer dans le marché complexe et en rapide évolution des fournisseurs. Elles ont également de la difficulté à négocier les contrats, ce qui comprend le respect des conditions d’utilisation et la gestion des relations avec les fournisseurs. S’adapter aux nouvelles offres et se tenir à l’affût de ce qui est offert sur le marché peut prendre beaucoup de temps. Vous devez vous informer des innovations, effectuer continuellement des bancs d’essai et des analyses comparatives de données.

Depuis sa création, Korem a accumulé une vaste expérience qui lui permet d’orienter ses clients durant le processus d’acquisition des données, soit de la sélection de produits à la gestion d’actifs logiciels, en passant par l’approvisionnement et les services d’intégration de données. En fonction de cette expérience, nous avons établi une liste des sept pièges les plus courants que les organisations ont tendance à négliger durant le processus de sélection et d’achat des données.

Sommaire des pièges et de nos conseils

PiègeConseil
Avoir mal définis les problèmes à résoudre et les objectifs d’entreprise.Effectuez un mandat d’exploration des données pour confirmer quels jeux de données sont disponibles et adéquats pour répondre à des questions commerciales précises.
Penser que l’on peut facilement comparer des jeux de données en regardant une liste d’attributs ou la documentation du fournisseur.Demandez un échantillon de données dans une zone géographique que vous connaissez bien et établissez une relation avec un conseiller de confiance qui a de l’expertise avec plusieurs fournisseurs.
Ne pas comprendre d’où viennent les données.Posez des questions à un expert à propos de la source des données, de la méthode d’acquisition, du processus d’intégration et du cycle de mise à jour.
Penser que plus vous avez de données, mieux c’est.Le fait d’avoir plus de données peut aussi signifier qu’il y a plus de faux positifs ou de données obsolètes. Le nombre d’enregistrements ne devrait pas être l’unique facteur de décision lorsque vient le temps d’acheter des jeux de données. Il peut même être un facteur limitant pour votre infrastructure.
Penser que les données ouvertes seront gratuites.Avant de choisir des données ouvertes, évaluez si ces produits répondent réellement à vos besoins. À long terme, ce qui semble être des données gratuites peut nécessiter beaucoup de travail et être très coûteux.
Sous-estimer la complexité de l’intégration des données.Obtenez l’aide d’un spécialiste des données et évaluez les options de livraison des données pour faciliter leur intégration.
Ne pas considérer les conditions d’utilisation avant la fin du processus d’achat.Les conditions d’utilisation doivent être considérées tôt dans le processus puisqu’elles peuvent modifier le prix des données ou vous empêcher, dans certains cas, de les utiliser de la façon dont vous aviez prévu.

1. L’importance de définir des objectifs d’entreprise clairs

L’un des pièges les plus courants lorsque l’on magasine des données géospatiales est une définition vague des problèmes et des objectifs de l’entreprise. Lorsqu’elles sont confrontées à un problème urgent, les équipes se lancent dans une course effrénée pour trouver des données. Mais de quelles données ont-elles réellement besoin? Quels sont les problèmes à résoudre? Les jeux de données commerciaux peuvent être des outils de décision puissants, mais le fait d’avoir des objectifs imprécis mènera probablement à des objectifs non réalistes et des occasions manquées. Les données tierces sont très importantes, mais elles ne sont pas la solution à tous les problèmes.

Avant de sélectionner des fournisseurs de données, les utilisateurs doivent avoir un objectif commercial clair et une bonne idée de comment ils tireront profit des données. Ensuite, ils pourront mieux établir le niveau de précision, d’attribution et d’exhaustivité nécessaires. Le défi est qu’en ne connaissant pas bien le type de données disponibles sur le marché, il est difficile de déterminer les questions commerciales auxquelles il est possible de répondre avec suffisamment de confiance.

Notre conseil

Cette situation de la poule ou de l’œuf est l’une des raisons pour lesquelles nos professionnels des données effectuent souvent des mandats d’exploration des données avec les clients qui cherchent à obtenir des conseils et qui tentent de déterminer les jeux de données disponibles et viables pour répondre à des questions commerciales précises.

2. Le diable est dans les détails

Parfois, des données communes (données ouvertes ou publiées par des organismes publics) peuvent être suffisantes. Par contre, lorsque vous utilisez des données pour prendre des décisions axées sur les données, leur qualité devient essentielle et une couverture complète, une précision et des attributs détaillés sont nécessaires pour obtenir des informations de confiance. Cela s’applique également aux jeux de données communs comme les données de rues, les points d’intérêt, les données sur les entreprises les données de parcelles, les empreintes de bâtiment, etc. Toutefois, ceci est encore plus important avec les nouveaux jeux de données à valeur ajoutée comme les données de localisation mobile, de circulation automobile ou de fréquentation. L’approvisionnement en données provenant de sources externes, qu’il s’agisse de données ouvertes ou commerciales, est également très différent de la gestion de données internes. Bien que les données internes puissent avoir de graves problèmes de qualité, elles sont recueillies à l’interne d’une façon qui peut être contrôlée ou prise en compte durant l’analyse. Avec l’achat de données tierces, la documentation, les métadonnées et les sources de chaque jeu de données peuvent être limitées. Les processus de gestion de la qualité et de validation peuvent, quant à eux, être inconnus.

Notre conseil

Bien que certains fournisseurs de données offrent une documentation abondante, le guide de référence peut tout de même être insuffisant pour couvrir certaines nuances. Même avec une évaluation rigoureuse, nous vous recommandons de faire l’acquisition d’un bon échantillon de données dans une zone géographique que vous connaissez bien. Ainsi, vous disposerez des données réelles nécessaires qui pourraient autrement être manquantes. À plus grande échelle, mettre au point une méthodologie pour comparer et déterminer les « meilleures données pour vos besoins » peut être très difficile et nécessite de l’expérience.

Certaines considérations et informations privilégiées peuvent être découvertes seulement si l’on possède une connaissance approfondie du paysage des données. Toutefois, c’est également possible en discutant avec les fournisseurs de données individuellement ou avec un intermédiaire de confiance qui a établi des relations solides avec plusieurs fournisseurs de données. Étant donné que la maîtrise des données des équipes de science des données et d’analyse évolue, c’est un changement de paradigme qui nécessite une certaine adaptation.

3. Comprendre l’origine des données

En raison des nombreuses fusions et acquisitions, le paysage des fournisseurs de données est en train de devenir très complexe. De plus, un écosystème de fournisseurs de données tiers peut évoluer à la suite de partenariats et, parfois, d’accords complexes.

Certains fournisseurs sont des producteurs de données internes qui vous donneront accès à des données uniques que vous ne trouverez nulle part ailleurs. Il existe également les agrégateurs de données tierces qui combinent les données de fournisseurs et les données ouvertes pour offrir une approche haut de gamme. Par exemple, Address Fabric de Precisely offre les meilleures couverture et exhaustivité des points d’adresse de sa catégorie en combinant plusieurs sources de points d’adresse.

Notre conseil

Il est primordial de comprendre la source des données, la méthode d’acquisition, le processus d’intégration et le cycle de mise à jour pour déterminer comment traiter des situations uniques. Ces dernières peuvent comprendre une adresse résidentielle manquante, une entreprise qui a récemment fermé ses portes ou un code postal qui a été modifié.

4. Parfois, moins permet d’en avoir plus

Bien qu’avoir plus de données à analyser peut parfois être une bonne chose, cela peut aussi signifier que les données contiennent de faux positifs ou qu’elles sont obsolètes et qu’elles auraient dû être filtrées.

Si l’on prend les données d’empreinte de bâtiment à titre d’exemple, les utilisateurs pourraient avoir à choisir entre des données lidars très précises qui ont une couverture plus limitée, mais des attributs riches (p. ex., la hauteur du bâtiment) ou des données recueillies par imagerie satellite qui ont été traitées à l’aide de l’IA. Bien que la technique d’IA/apprentissage profond (deep-learning) couvre plus de territoire, elle contient seulement les silhouettes des bâtiments, ce qui peut entraîner de faux positifs en raison de caractéristiques du paysage mal classées.

Alors, les utilisateurs devraient-ils sacrifier la couverture ou la précision? Encore une fois, cela dépend du problème de l’entreprise. Toutefois, si les deux sont nécessaires, la solution peut consister à combiner plusieurs jeux de données complémentaires provenant de plusieurs fournisseurs. Cette solution peut cependant présenter des défis de traitement plus importants et nécessiter davantage d’expertise.

Notre conseil

Dans tous les cas, le nombre d’enregistrements contenus dans le jeu de données ne devrait jamais être l’unique facteur de décision lorsque vous considérez l’acquisition de données tierces.

5. Commerciales, ouvertes ou les deux?

Au cours des dernières années, la disponibilité des données commerciales et des produits ouverts a fortement augmenté. Certains produits de données commerciales sont devenus communs. Bon nombre d’entre eux sont maintenant offerts par l’entremise du gouvernement et sont gratuits. D’autres sont le résultat d’initiatives de données ouvertes. Par ailleurs, d’autres produits commerciaux à valeur ajoutée ont vu le jour.

De nombreuses entreprises ont tendance à se diriger directement vers les données commerciales pour leur fiabilité ou vers les données ouvertes pour leur faible coût. Toutefois, il est souvent plus difficile qu’il en a l’air de choisir entre un produit de données commerciales et un produit de données ouvertes.

Si vous recherchez des données pour une seule ville afin de faire l’acquisition de parcelles ou d’adresses, l’acquisition de données provenant d’une initiative de données ouvertes, parrainée par le gouvernement, peut suffire pour réaliser vos objectifs. Cependant, le défi est plus grand lorsque vous devez acquérir des données pour des États, des provinces ou des pays où les données peuvent provenir de plusieurs sources qui ne sont pas toujours fiables. N’oubliez pas que les données gratuites ne le restent pas toujours. Vous devez également tenir compte des coûts continus de l’intégration des données, de la validation, des mises à jour et de la perte de concentration par rapport à vos activités principales.

Au rythme où les fournisseurs de données commerciales investissent dans la saisie de données géospatiales, les entreprises auront de la difficulté à mettre au point et à maintenir des produits de données elles-mêmes sans se doter d’une expertise interne. Tout se résume par le débat suivant : bâtir ou acheter la donnée?

Notre conseil

Lorsque vous cherchez à acquérir des données géospatiales et que vous hésitez entre des données gratuites, à faible coût, standard ou de qualité supérieure, nous vous recommandons de calculer le coût et l’impact de l’inexactitude des données et du manque d’exhaustivité avant de prendre une décision qui pourrait s’avérer être mauvaise. Le retour sur investissement relatif à la construction ou à l’achat de données servira à effectuer votre analyse de rentabilité.

6-Sous-estimer la complexité de l’intégration des données

Les attributs, la couverture et la qualité ne sont pas les seuls éléments à considérer lorsque vous achetez des données. Les acheteurs potentiels doivent également tenir compte de la façon dont elles s’intégreront à l’infrastructure cible et à la base de données existantes. Ils devront déterminer plus précisément s’il s’agit d’une base de données géographique ArcGIS, d’un système de veille économique ou de toute autre plateforme d’entreprise. L’ingestion de ces données dans une base de données géographique nécessite une compréhension des formats de données exclusives, des fréquences de mise à jour et des méthodes de livraison pour pouvoir les intégrer à des données internes. Il est essentiel de s’assurer que la précision des données internes correspond à celle des données commerciales. Les utilisateurs devraient déterminer s’ils veulent faire correspondre ou agréger les données au niveau de l’adresse, du code postal ou des aires de diffusion. C’est un aspect très important à considérer, car les utilisateurs peuvent acheter un jeu de données très précis sur le plan géospatial, mais devant être agrégé à des niveaux géographiques plus élevés pour correspondre aux données internes. Ainsi les utilisateurs perdent la résolution géographique pour laquelle ils ont payé.

De nouveaux types de données de localisation mobile comme les données de fréquentation piétonnière de Foursquare permettent aux utilisateurs de répondre à de nouvelles questions commerciales. Toutefois, les données de fréquentation piétonnière brutes peuvent représenter des téraoctets en matière de taille et peuvent être mises à jour de façon mensuelle, hebdomadaire ou quotidienne. Ce volume de données représente un défi pour les SIG traditionnels, l’intelligence d’affaires, la science des données et même pour les outils ETL.

Pour les clients qui n’ont pas tous les outils ou l’expertise pour consommer ce volume de données géographiques, Korem offre un service de livraison de données personnalisées qui leur fournira des jeux de données prêts à utiliser en fonction de leurs préférences. Par exemple, Korem peut extraire une région géographique d’un pays en particulier à partir de la couverture nationale, en la combinant à l’avance à une segmentation sociodémographique complémentaire à l’aide d’un processus de géoenrichissement, et présentera des mises à jour mensuelles en format ESRI FGDB. Ce type de service de données peut grandement faciliter le processus d’intégration de données et vous permettre de tirer immédiatement parti de la pleine valeur de vos données.

Il y a davantage d’options pour utiliser ce type de données avec des interfaces API de données en temps réel ou de l’extraction de données basée sur une interface API. Toutefois, cela nécessite souvent d’autres types d’expertise d’intégration qui vont plus loin que les appels de service Web. La mise en place de meilleures pratiques est nécessaire. Par exemple, les données de HERE Traffic Analytics permettent d’extraire des tendances de circulation historiques pour une région et une période précises, mais elles doivent être combinées à des données de segments de rue brutes.

Notre conseil

Peu importe le modèle de livraison de données, vous obtiendrez la meilleure valeur possible en bénéficiant de l’aide d’un spécialiste des données.

7. Les conditions d’utilisation ne doivent pas être les derniers éléments que vous validez

Maintenant que vous avez sélectionné un jeu de données qui correspond aux besoins de votre entreprise, avez-vous réfléchi au bon modèle de prix et validé les conditions d’utilisation de la licence?

Ces validations ont souvent lieu trop tard dans le processus et parfois, la façon dont les données sont utilisées peut avoir une incidence sur le prix et même, vous empêcher de l’utiliser comme vous en aviez l’intention.

Si vous êtes un expert en science des données, une licence de données basées sur l’utilisateur pour votre modélisation pourrait vous satisfaire. Cependant, une fois que vous êtes prêt à opérationnaliser le processus, il pourrait être nécessaire de choisir une licence basée sur un serveur à l’échelle de l’entreprise ou du service. De plus, la licence des données et les conditions d’utilisation peuvent contenir des restrictions relatives au stockage des résultats géocodés ou à la création de contenu dérivé de ces données.

Notre conseil

Nous vous recommandons d’aborder ces sujets tôt dans le processus et d’obtenir l’aide de professionnels de confiance qui vous fourniront des recommandations indépendamment des fournisseurs et des services consultatifs sur les contrats de données.

Chez Korem, nous avons créé une approche complète pour vous aider à investir intelligemment.

Grâce à notre expérience de « one-stop shop », nous accélérons l’adoption de la technologie géospatiale, tout en réduisant le risque.

Restez connecté!

Inscrivez-vous à notre infolettre :

CLAVARDEZ