Muséum national d'Histoire naturelle (MNHN)
7210
http://www.mnhn.fr
http://www.enseignementsup-recherche.gouv.fr/
http://www.developpement-durable.gouv.fr/
Bienvenue, (invité) Mes Préférences
Publication_Gbif_Histo

Historique partiel, irrévérencieux et politiquement incorrect de l'alimentation du GBIF par le MNHN#

En réponse à Patrice Pruvost qui s'étonnnait de la fréquence de moissonnage des données par le GBIF, Bérenger Dulac, nous résume cette saga :


En fait c'est un peu compliqué à expliquer, ça m'étonne pas que tu sois assez perplexe. J'étais parti pour te l'expliquer au téléphone, mais ça sera peut-être plus clair par écrit. Je mets Simon en copie, ça peut toujours servir. Grande respiration, je me lance...

Avec l'herbier (puis plus tard les ensifères et les hémiptères), les données d'ichtyologie ont été contribuées au GBIF dans un premier wagon. Cette contribution s'est faite au moyen d'une application respectant le protocole DiGIR.

Quelques autres collections (arachnides, souches fongiques, invertébrés marins, coléoptères) ont été contribuées via une seconde application respectant elle le protocole BioCase.

D'une manière générale, ces protocoles d'interrogation posaient de nombreux problèmes techniques au GBIF, notamment de temps et de ressources techniques nécessaires pour récupérer les gros volumes de données. A donc été mis en place un troisième applicatif permettant de contribuer les données respectant un principe/protocole beaucoup plus simple nommé 'Darwin Core Archive' (DwCA) : les données sont toutes agrégées dans un fichier tabulé de type CSV, lequel est compressé dans un fichier zip. Nous avons choisi de générer une archive zip différente pour chaque collection (acronyme)/institution(réseau e-recolnat) et non pour chaque base de données, ce pour survivre aux fusions de bases et pour cacher à l'extérieur une désorganisation interne : les données d'une même collection parfois réparties sur plusieurs bases.

L'indexation (récente) et les temps relatifs sont indiqués dans le portail du GBIF, on peut se rendre compte que les coléos (BioCase) sont récupérés en 26 minutes alors que seules 2 minutes sont nécessaires pour la phanéro (DwCA) : http://data.gbif.org/datasets/provider/377/indexing/

Venons-en au problème précis qui vous concerne. Le protocole DiGIR qui est utilisé jusqu'à maintenant pour l'ichtyo permet d'interroger selon différents critères, combinés ou non : taxon, famille, localité de récolte, etc. Pour éviter de faire sauter les serveurs lorsque les données sont spécifiées sans aucun critère (ce qui intéresse le GBIF - récupération intégrale), un nombre limité de réponses est prévu dans le protocole et laissé à la discrétion du fournisseur (chez nous il est de deux mille je crois). L'on obtient ainsi des résultats en quelque sorte 'paginés'. Seul problème (là, tu as le droit de rire) : le protocole n'indique pas comment passer à la page suivante (je te laisse imaginer les échanges ubuesque MNHN-GBIF qui ont donné lieu à l'identification du problème).

Seules deux implémentations (applicatifs différents développés) respectent de manière (quasi-)fonctionnelle le protocole : une en PHP réalisée pour le compte du GBIF et une en Java réalisée (par des sous-traitants) pour le compte du MNHN (uniquement les collections, pas le SPN). Celle du GBIF, adoptée par le reste de la planète (avant que le GBIF ne s'oriente vers le DwCA) complétait le protocole avec un paramètre non standard permettant de changer de page de résultat. Celle du MNHN respectait strictement le protocole : aucune solution pour changer de page de résultat.

La problématique combinée des ressources et du temps nécessaire au GBIF pour la récupération par fournisseur TAPIR/DiGIR/BioCase et du problème spécifique à notre implémentation du protocole DiGIR (pense aux échanges ubuesques notamment) fait que vous avez été très peu récupérés. Le GBIF a dû ruser pour récupérer les données en utilisant des critères d'interrogation pour une récupération intégrale. L'historique d'indexation que tu as vu par le lien vers le portail du GBIF (§3) ne fait pas état des récupération de données précédant la mise en place du (DwCA) puisque le MNHN n'existait pas précédemment : il s'agissait d'une institution 'virtuelle' regroupant tous nos partenaires du réseau des herbiers. Depuis, il y a une institution pour chaque membre du réseau. Tu noteras que le SPN n'apparaît pas sous MNHN puisqu'ils contribuent largement des données qui ne sont pas issues du MNHN.

Tu comprends pourquoi nous t'avons fait remplir une deuxième fois les métadonnées et pourquoi c'est le bordel au niveau rythme de récupération des données. Tout devrait rentrer dans l'ordre lorsque j'aurai déclaré tout le monde en DwCA (et qu'on arrêtera définitivement le BioCase et le DiGIR).

Ouf. Voilà. Tu as du temps pour méditer le truc.

Bérenger


Ajouter un attachement

Pour publier un nouvel attachement à cette page, veuillez utiliser la boite suivante pour atteindre le fichier, puis cliquez sur “Télécharger”.
« Cette page (révision-7) a été modifiée pour la dernière fois le 11-déc.-2015 16:39 par dulac