Le volume croissant de données  collectées, notamment avec le développement de nouvelles méthodes de collecte (particulièrement les réseaux de nodes et DAS -Distributed Acoustic Sensing) fait émerger les limites des capacités actuelles de stockage pérenne, de transport et de traitement. Les centres de données sont sollicités, non seulement pour héberger ces données, mais aussi pour fournir les ressources nécessaires à leur exploitation. Ces besoins nécessitent une évolution des pratiques de management des données, une augmentation des moyens de calcul, des formats adaptés et des produits dérivés plus « légers » en termes de volume.

Iris, Résif et Geofon ont mené au printemps 2020 une enquête auprès de leurs communautés d’utilisateurs pour identifier leurs besoins et chercher des solutions ensemble, en tenant compte de l’impact environnemental de celles-ci. Ils viennent de publier les résultats de cette enquête dans la revue Seismological Research Letters.

Les 37 répondants à l’enquête anticipent leurs besoins dans les 3 à 5 ans à venir. Parmi eux, onze envisagent des volumes de 10 à 50 To et cinq des volumes de plus de 50 To. Les réponses démontrent que les expériences utilisant les DAS sont génératrices des plus gros volumes, incompatibles avec les moyens actuels des centres de données académiques. Cependant, les volumes de données sur lesquels souhaitent travailler les chercheur.e.s et provenant de stations sismiques traditionnelles sont également en augmentation constante, notamment pour les besoins des études basées sur des techniques de corrélation croisée ou de « machine learning ».

Grâce à la collaboration au sein de la communauté scientifique internationale, coordonnée par la FDSN, des standards existent, tant pour les formats de données que pour les services et métadonnées associés dans une démarche FAIR. Cependant, face à l’évolution des volumes de données, les standards actuels deviennent obsolètes et des problèmes émergent, liés à l’intégration, à l’archivage, à la distribution et à l’exploitation des données, ainsi qu’à l’élaboration des métadonnées.

L’article inventorie les formats de donnée existants, les évaluant sur des critères de stockage, de transport et d’accès, afin d’identifier les plus adaptés aux grands volumes de données et en vue de répondre aux besoins exprimés par les répondants à l’enquête. Il fait aussi un panorama des problématiques nouvelles pour les centres de données : stockage, transport, services d’accès. De nombreux aspects du fonctionnement d’un centre de données doivent être repensés pour répondre à ces nouveaux enjeux. L’article étudie également les problématiques de métadonnées, le format normalisé (StationXML) ne permettant pas de décrire les informations pertinentes pour des expériences menées sur DAS.

L’article donne finalement des pistes basées sur une large coopération internationale autour des données des DAS et  un élargissement de la réflexion à d’autres centres de données afin de faire émerger de nouveaux standards et services adaptés aux milliers de tera-octets de données à venir.

Pour en savoir plus

Administrateur système manipulant des machines pendant une maintenance
Administrateur système pendant une maintenance dans un centre de données © Cyril Fresillon / Loria / CNRS Photothèque
Interrogateur DAS
Interrogateur DAS © OCA