Wikidata pour tous en tant que service local

Requêtes efficaces sur Wikidata avec notre image Docker
Service de requêtes HDT

Présentation

Dans un blog précédent, nous avons parlé de Wikidata, l'un des plus grands graphes de connaissances existants. Aujourd'hui, nous sommes heureux d'annoncer que nous rendons Wikidata plus accessible à toute la communauté et à tous ceux qui s'intéressent aux données liées ouvertes, des chercheurs aux ingénieurs.

Contribution

Pour autant que tout le monde le sache, Wikidata fournit un service de requêtes public qui reçoit des millions de requêtes chaque jour. Pour éviter de surcharger le service public de nombreuses demandes, on pourrait télécharger l'ensemble de données et le charger dans le triple magasin qu'ils fournissent. Cependant, cela peut prendre jusqu'à 12 jours juste pour indexer les données jusqu'à ce que l'on puisse commencer à exécuter des requêtes ! Et vous aurez probablement besoin d'une énorme machine avec 200 Go de mémoire.

Ce que nous proposons aujourd'hui est une image docker que vous n'avez qu'à extraire et à démarrer sur une petite machine (16 Go de mémoire peuvent suffire), elle téléchargera essentiellement une version compressée de Wikidata (~65 GO), et vous pourrez exécuter des requêtes SPARQL immédiatement après la fin du téléchargement. Ce service repose sur HDT, une structure de données compacte et un format de sérialisation binaire pour RDF qui permet de compresser les grands ensembles de données pour économiser de l'espace tout en maintenant les opérations de recherche et de navigation sans décompression préalable.

Ce projet est entièrement maintenu par La société QA.

Si vous rencontrez des problèmes ou des problèmes, nous serions ravis d'en savoir plus et d'essayer de les résoudre (contactez-nous).

Conclusion

Nous avons utilisé Wikidata pendant longtemps et nous pensons aujourd'hui qu'il est temps de rembourser, et nous proposons ici à sa communauté une alternative intéressante à son service public de requêtes.

Merci, à bientôt !