Blog

Petit-Déjeuner – Solr, text mining & data intelligence

Taligentia et Basis Technology ont le plaisir de vous inviter le mercredi 6 Avril 2016, à 8h00  pour un petit-déjeuner convivial et informatif autour des technologies de Solr et du text mining !

Solr, mais aussi Elasticsearch, sont des moteurs de recherches d’entreprises robustes permettant de construire des applications scalables et performantes d’accès à l’information. Leurs mérites ne sont aujourd’hui plus à démontrer. Cependant, ils peuvent être complétés afin d’être plus puissants lorsqu’il s’agit d’aller plus loin dans le traitement du texte et des données (text mining, sémantique, extraction d’entités…).

Venez découvrir comment augmenter la pertinence et la valeur ajoutée de vos applications par les traitements linguistiques du texte et des données !

Agenda :

  • 8h00-8h30 : accueil des invités
  • 8h30-9h30 : Petit-déjeuner et présentations (en français et en anglais)
  • 9h30-10h : Networking

Pour vous inscrire, c’est simple, il vous suffit d’envoyer via la page de contact avant le 1 Avril 2016. 

Le nombre de places étant limité, merci de nous prévenir rapidement de votre participation.

En espérant vous rencontrer le 6 Avril,

Taligentia et Basis Technology

Taligentia (www.taligentia.com) est une société d’ingénierie spécialisée dans les moteurs de recherche et la Data Intelligence. Créé en 2013 en capitalisant sur 15 ans d’expériences, Taligentia utilise des socles Open Source (Solr, Elasticsearch, Hadoop, Cloudera, ETL, SIG, Data Quality, Mozenda) complétés si besoin par des logiciels, pour créer des applications de Data Intelligence : Search, Big Data, Rapprochement et Recodage de données, Collecte, Analyse et Traitement ….  

Basis Technology (http://www.basistech.com/) est un éditeur de logiciels spécialisé dans l’analyse plurilingues de texte et l’extraction d’informations de données structurées ou non. Depuis 20 ans, Rosette développe continuellement ses fonctionnalités en intégrant l’analyse linguistiques du texte, l’extraction et la résolution d’entités nommées, l’identification des relations entre les entités, la traduction et le rapprochement de noms (name matching), l’analyse des sentiments, la catégorisation…

BasistechBaistech

Solrcloud Replica failover avec Hadoop HDFS

Dans cet article, je décris et illustre par l’exemple la faculté dont dispose Solr depuis la version 4.10 de démarrer des replicas automatiquement en cas de défaillance d’un noeud du cloud (Solrcloud Replica failover avec Hadoop HDFS). Ceci est possible à condition d’utiliser un système de fichiers distribué pour stocker les données Solr. Le ticket JIRA suivant est à l’origine de cette fonctionnalité « Add autoAddReplicas feature for shared file systems« . Lire la suite »

Configuration de la JVM pour Solr et elasticsearch

Dans cet article, je décris la configuration de la JVM pour Solr et elasticsearch. Les paramètres conseillés sont les mêmes pour Solr et elasticsearch car bien que fournissant des fonctionnalités pas strictement identiques, ils s’appuient sur le même socle Lucene. Chaque cas d’usage de Solr et d’elasticsearch étant unique, ces paramètres ne constituent qu’une configuration par défaut satisfaisante dans la majorité des cas, mais qu’il peut être nécessaire d’adapter en fonction des besoins. Quoi qu’il en soit, un paramétrage de base doit être validé avant un passage en production en reproduisant le mieux possible l’utilisation qui sera faite du moteur (volumétrie de documents, volumétrie et stratégies de mises à jour, topologie des facettes, utilisation des filtres, volumétrie et types des requêtes, …). Lire la suite »

Vers la Data Intelligence du web

L’évolution des contenus du Web

Data Intelligence

Trop d’information tue l’information, c’est certes une évidence, et si jusqu’à maintenant nous nous étions consacrés à tout de même l’adresser dans sa globalité pour en extraire, via des outils, la partie pertinente, nous franchissons un autre cap : il devient impossible d’extraire à partir d’une masse trop hétérogène pour laquelle les règles déterminants la pertinence se chevauchent et perdent ainsi la valeur espérée. Lire la suite »

Installation d’un ensemble Zookeeper

zookeeper

Lors de l’installation d’un Cluster Solrcloud, il est nécessaire de disposer d’un ensemble Zookeeper opérationnel. On appelle ensemble, un groupe de serveurs qui fonctionnent de concert (« ensemble » donc). Le but est de fournir un service hautement disponible ou l’arrêt pour panne ou maintenance d’un des serveurs de l’ensemble ne perturbe pas le service.

Lire la suite »

Présentation de Solr et elasticsearch

Solr et elasticsearch sont deux solutions d’indexation et de recherche plain-texte (full-text). Ces outils présentent les mêmes caractéristiques de bases pour répondre aux mêmes besoins. Bien sur, ils se distinguent par certains fonctionnalités et choix technologiques qui font que l’on s’orientera vers l’un ou l’autre, mais cet article n’est qu’une introduction de base. Lire la suite »

Solr 4 avec Jetty intégré

solr A la demande de clients et par habitude, nous installons quasi-exclusivement Solr dans un serveur d’application Tomcat. Cependant, la distribution Solr inclue un serveur Jetty, ce qui représente certains avantages :   Lire la suite »