- Extraction d’entités nommées pour une...le 7 juillet 2025
Dans un précédent article, j’ai présenté l’Elastic Open Web Crawler et montré comment collecter des publications issues de sites de presse. J’ai proposé quelques post-traitements simples avant l’indexation dans elasticsearch afin d’extraire un contenu plus propre et des informations comme la date de publication ou les auteurs. Dans ce nouvel article, toujours sur la base des articles crawlés, j’explore différentes solutions d’extraction d’entités nommées (NER) pour l’enrichissement de données destinées à l’indexation dans des moteurs de recherche comme Elasticsearch ou Solr. L’accent est mis sur les données en français. Les méthodes étudiées incluent l’extraction via Elasticsearch, ainsi que des approches
- Elastic Open WEB Crawlerle 18 juin 2025
Elastic Open Web Crawler est le nouveau Crawler en version Beta proposé par Elastic et dont le code et la documentation sont disponibles sous Github. Dans cet article, je vais décrire les étapes de mise en œuvre de Elastic Open Web Crawler avec Docker en générant des fichiers JSON afin de pouvoir effectuer des post-traitements sur ces fichiers avant leur indexation dans elasticsearch.
- Installation d’un cluster elasticsearch 8.x (et...le 22 novembre 2023
Dans cet article nous abordons l’installation sous Linux d’un cluster elasticsearch et non pas d’une infrastructure ELK complète. L’installation de Kibana qui est néanmoins indispensable pour à minima l’administration du cluster sera décrite dans un autre article. La procédure d’installation d’un cluster elasticsearch 8.x n’a pas fondamentalement changée comparée à la procédure pour une version 7.x. Cependant, il y a quelques nouveautés et un piège à éviter. Les nouveautés sont les suivantes : Dans cette procédure basée sur les packages officiels, nous indiquons les étapes communes de l’installation des différents nœuds, puis les procédures spécifiques pour le premier nœud et
- Export Solr avec les streaming expressionsle 22 novembre 2020
Un de nos clients manipule des collections de plus ou moins 1 milliards de documents. Ces documents sont constitués principalement de méta-données. Ces volumes commencent à devenir conséquents pour des recherches et du facetting mais également pour des exports massifs de plusieurs millions de documents. Pour ces exports, même l’usage du deep paging n’est pas optimum. Il est nécessaire d’utiliser les streaming expressions. Dans cet article, nous allons comparer ces deux méthodes d’export Solr des documents d’un résultat de recherche. Nous fournissons des exemples de code Java qui utilisent la librairie SolrJ. Deep Paging Le deep paging (pagination en profondeur)
- SolrCloud – Recherches NRT avec des replicas...le 16 novembre 2020
Réaliser des recherches NRT (Near Real Time Search) dans une collection SolrCloud constituée uniquement de replicas TLOG
- Solrcloud Disaster Recovery – Alternative à...le 16 novembre 2020
Le CDCR disparaît dans la version 9 de Solr. Dans cet article, nous proposons une solution alternative afin de permettre la gestion des Disaster Recovery
- Mettre en place un monitoring de Zookeeperle 20 novembre 2019
Dans un article précédent « Zookeeper : Installation et bonnes pratiques« , j’ai indiqué comment installer et configurer Zookeeper. J’ai également indiqué quelques bonnes pratiques afin d’obtenir un ensemble Zookeeper stable et performant. Un rappel du fonctionnement et du rôle de Zookeeper dans un environnement SolrCloud aurait été judicieux. Je vais donc commencer par rattraper cette lacune avant d’aborder le sujet du monitoring de Zookeeper. Rôle de Zookeeper dans un environnement SolrCloud Zookeeper est un projet open-source de la fondation Apache qui a pour rôle de permettre aux composants d’un système distribué (les nœuds Solr pour SolrCloud) de se synchroniser. Il s’agit
- Gestion des documents supprimés dans Solrle 12 novembre 2019
Une des questions les plus fréquentes concernant la gestion au quotidien des index Solr est le traitement des documents supprimés. En effet, certains cas d’usages qui nécessitent des suppressions ou des modifications régulières ou massives de documents peuvent amener à des index avec un fort taux de documents supprimés. Pour le constater, il faut aller dans l’onglet « Overview » des cores. L’image suivante indique un core contenant 8.815.000 documents au total répartis en 5.582.000 documents « visibles » et 3.233.000 document supprimés, soit un taux de 37% de documents supprimés. Ces documents supprimés restent en fait présents dans les fichiers index durant un
- Monitoring SolrCloud avec Prometheus et Grafanale 7 novembre 2019
Le monitoring d’un environnement SolrCloud en production est essentiel afin d’anticiper les problèmes de performances et le cas échéant en comprendre l’origine. Cet article décrit comment mettre en place un monitoring de SolrCloud au moyen de Prometheus et Grafana. Principe et architecture de Prometheus Prometheus est un logiciel open source (https://prometheus.io/). Il collecte des métriques auprès de tous logiciels pouvant les fournir via des exporters (et la liste est longue https://prometheus.io/docs/instrumenting/exporters/), afin de surveiller le fonctionnement des applications et mettre en place une gestion d’alerte selon des seuils. Les tâches principales de Prometheus sont: Collecter des métriques fournis par des
- Solr – Restauration de donnéesle 17 avril 2019
Une question fréquente est comment sauvegarder les données d’une collection et les restaurer au besoin. Dans cet article nous décrivons pour différents cas de figure comment restaurer partiellement ou totalement une collection Solr. Pourquoi peut-il être nécessaire de sauvegarder les collections Solr ? Une des caractéristiques de Solrcloud est la possibilité de dupliquer les données en créant des collections avec un facteur de réplication supérieur ou égale à deux. Plusieurs copies des données des shards de la collection sont ainsi présentes sur différents noeuds Solr. Il est donc possible si un nœud Solr est perdu (le serveur ou son stockage)