Facebook - OGSL Twitter - OGSL LinkedIn - OGSL
Menu

3. Cycle de vie des données

3.7.2 Intégration des données et des informations

Une des conséquences de l'accroissement de l'accès et du partage des données est sans contredit la problématique de l'intégration1 des données provenant de sources multiples. Idéalement, tous les producteurs de données se conformeraient à des normes internationalement reconnues et adopteraient des environnements informatiques interopérables et accessibles mais, qu'en est-il vraiment ?

HÉTÉROGÉNÉITÉ
Prenant un exemple du quotidien, il n'y a qu'à penser à la façon dont les gens notent la date pour comprendre que l'hétérogénéité des procédures, des formats, de la syntaxe et des systèmes constitue un des enjeux majeurs pour l'intégration de données. En effet, bien que la norme internationale ISO 8601 dicte l'emploi du format AAAA-MM-JJ, on peut retrouver des dizaines de formes pour la seule date du 2015-02-12 tel qu'illustré dans le tableau ci-dessous :

Échantillon ABC-009 : récolté le 06/05 à 7 heures
Est-ce le 6 mai ?
Le 5 juin ?
Le matin ?
En début de soirée ?
12/02/15 15/02/12 02/12/15 15/12/02
12-02-15 15-02-12 02-12-15 15-12-02
12-02-2015 2015-02-12 02-12-2015 2015-12-02
Feb. 12/15 February 12, 2015 12 fév. 2015 12 février 2015
12.02.2015 2015.02.12 12 de febrero Etc. etc. etc.

De façon globale, on peut voir que, si on décide de combiner des jeux de données où les diverses variables sont représentées dans des formats différents, les résultats de l'intégration seront affectés. Il en est de même pour les unités choisies, la précision des mesures effectuées ou les types de projections cartographiques utilisées. La rigueur et la cohérence sont évidemment de mise.

ASSIMILATION DANS DES MODÈLES
Un des exemples les plus connus en matière de modélisation est le travail qu'effectuent les météorologistes. En effet, ceux-ci utilisent une variété de paramètres environnementaux qui alimentent leurs modèles climatiques de façon à pouvoir produire les prévisions météorologiques les meilleures possibles. L'assimilation des données est un processus cyclique qui représente l'inclusion de données d'observation in situ dans les modèles de façon à raffiner les prévisions. C'est de cette façon que, par exemple, le modèle couplé eau-atmosphère développé par Saucier et al 2 3 est utilisé entre autres pour la production des prévisions de courants de surface dans l'estuaire et le golfe du Saint-Laurent. 4

  1. Ludäscher, B., K. Lin, S. Bowers, E. Jaeger-Frank, B. Brodaric and C. Baru.2005. Managing Scientific Data: From Data Integration to Scientific Workflows. 21 p.
    http://users.sdsc.edu/~ludaesch/Paper/gsa-sms.pdf
  2. Saucier, F.J., F. Roy, S. Senneville, G. Smith, D. Lefaivre, B. Zakardjian et J.-F. Dumais. 2009. Modélisation de la circulation dans l'estuaire et le golfe du Saint-Laurent en réponse aux variations du débit d'eau douce et des vents. Revue des sciences de l'eau / Journal of Water Science, vol. 22, n° 2. p. 159-176.
    http://www.ismer.ca/IMG/pdf/Saucier_et_al_2009_RSE.pdf
  3. Gouvernement du Canada. Environnement Canada, Modélisation.
    https://meteo.gc.ca/model_forecast/model_f.html
  4. Observatoire global du Saint-Laurent (OGSL). Prévisions océaniques.
    https://ogsl.ca/ocean