Fichiers Excel

Le format de fichier Excel est largement utilisé par les producteurs de données et par les chercheurs, à la fois pour le stockage, la visualisation et l’analyse des données.

Pour de multiples raisons, nous préconisons que les données soient stockées dans des bases de données relationnelles. Néanmoins, afin de perturber le moins possible les habitudes de travail des producteurs de données, le service met en place des outils pour permettre aux utilisateurs de soumettre via une interface Web un nouveau jeu de données ou une nouvelle version de leurs données au format Excel. Des vérifications (formats, valeurs, cohérence, …) sont effectuées avant que les données soient insérées en base.

Les données mises en base peuvent ensuite être exportées sous format Excel pour l’utilisateur.

Fichiers texte

De nombreuses bases de données sont constituées d’une arborescence de fichiers. Il s’agit la plupart du temps de fichiers texte dans des formats stables bien définis. Ces formats sont pris en compte par des outils de visualisation et d’analyse et des programmes de modélisation.

Tout comme pour les fichiers Excel nous préconisons que ces données soient mises en bases relationnelles (notamment afin de pouvoir croiser facilement ces données) mais nous devons préserver le format original seul compatible avec les outils et programmes. Des outils d’import et export ont donc été développés.

Description technique

Fichiers Excel

Beaucoup de langages de programmation (comme perl, python, R) intègrent à la fois des bibliothèques permettant d’importer / exporter l’information des fichiers Excel et des bibliothèques pour importer / exporter ces données dans des bases relationnelles. Il est donc possible d’établir un pont entre ces deux formats de stockage à condition que la structuration dans le fichier Excel ne soit pas trop complexe et que les utilisateurs préservent dans le temps cette même structuration (il peut être demandé dans certains cas de modifier légèrement la structuration).

Les outils développés s’appuient sur le langage R et les bibliothèques XLConnect et RPostgreSQL. Des scripts R lisent les fichiers Excel, vérifient le format des données, mettent en forme les données et les exportent en bases de données.

Fichiers texte

Les langages Perl et R s’avèrent fort adaptés puisqu’ils offrent à la fois des bibliothèques orientées réseau (permettant typiquement d’aller chercher des fichiers sur un site ftp), des outils de parsing avancés et des bibliothèques d’accès à des bases relationnelles.

Public visé

Les producteurs dont les données sont sous format fichiers.

Exemples

Dans le cadre de la TO Communautés microbiennes de Thau, une interface web a été développée afin de soumettre un nouveau fichier Excel de données à insérer dans la base de données.

Interface web de soumission d’un nouveau fichier Excel de données (TO Communautés microbiennes de Thau)