Certains services d’observation produisent des données en continu, qui doivent être mises à disposition immédiatement. Il est donc nécessaire dans ce cas de mettre en place des processus d’insertion automatique des données.
Import en continu
Outils d'alimentation de bases de données en continu
Description technique
Nous avons mis en œuvre deux types de communication, la communication de type « push » et celle de type « pull ».
Communication de type « push »
Les données sont poussées par la source vers la base de données. C’est le cas par exemple de données envoyées par gprs. Un petit programme au niveau de la source se connecte, via un modem GPRS, sur un serveur accessible sur internet. Une fois connecté, le serveur attend qu’on lui envoie les données et les met immédiatement en base.
Cette approche a l’avantage de mettre les données en base dès qu’elles sont produites mais nécessite d’adapter le système d’acquisition pour qu’il ait un comportement actif (il doit se connecter de lui-même sur le serveur).
Communication de type « pull »
Les données sont déposées par la source sur un espace de stockage (typiquement un serveur FTP). Des scripts (perl, R) de rapatriement peuvent être exécutés périodiquement ou déclenchés manuellement par un utilisateur via une interface web. Ils déterminent les nouvelles données et les insèrent en base.
Cette approche a l’avantage de ne rien nécessiter de particulier au niveau de la source mais présente l’inconvénient, dans le cas d’une exécution manuelle, que les données ne soient pas disponibles immédiatement (le délai étant déterminé par la période d’exécution des scripts).
Public visé
Les producteurs de données en continu.
Exemples
Dans le cadre de la TO Suivi-Thau (SO Recherche en Environnement Côtier de Thau), des données de capteur sont acquises par une centrale et sont disponibles sur un serveur FTP. Un script Perl a été développé pour interroger ce serveur régulièrement, et insérer les nouvelles données en base de données relationnelle.