Un moteur de recherche doit permettre à l’utilisateur de retrouver des informations issues de sources multiples (sites web, intranet, systèmes de fichiers, bases de données, CMS, …), dans des formats variés (texte, PDF, …), tout en respectant la sécurité d’accès aux données. Nous implémentons votre moteur de recherche répondant à ces exigences en mode installé ou en mode SaaS hébergé.

Nos solutions utilisent des technologies reconnues et évoluant en permanence afin de toujours mieux répondre à vos besoins :

  • Cloudera CDH, Hadoop, Hbase, Cloudera Search
  • Mysql, Oracle
  • CouchBase, MongoDB, MapReduce
  • ETL : Pentaho Data Integration
  • SIG : Google Maps, Géomarketing
  • Analyse Qualité de Donnée, Jasper Reports
  • Java, jQuery, HTML, CSS, XSLT, SQL, Play
  • CMS pour intégration avec Solr ou elasticsearch : Drupal, Joomla, eZ publish, Typo3 et WordPress

 

Apache Lucene

logo_lucene

Lucene est un projet open source chapeauté par la Fondation Apache qui est connue pour son grand nombre de projets réputés et largement utilisés de part le monde tels que le serveur Web Apache et le serveur d’application Tomcat.

Lucene est une librairie Java qui fournit l’ensemble des outils nécessaires à la mise en œuvre d’une solution d’indexation et de recherche plein-texte complète et puissante. Open source, Lucene est donc facilement enrichissable et est supportée par une communauté importante et très active d’utilisateurs et de développeurs. Le site web du projet Lucene est http://lucene.apache.org/.

 

Apache Solr

logo_home_solr

Solr est une solution de recherche d’entreprise qui apporte à Lucene une interface d’administration, des outils de réplication et de cache ainsi que de nombreuses autres fonctionnalités (recherche par facette, mise en évidence des termes, …). Solr s’intègre au moyen de Web services de type REST (HTTP / XML / JSON). Open source également, Solr tout comme Lucene est supporté par une communauté importante et très active d’utilisateurs et de développeurs. Le site web du projet Solr est http://lucene.apache.org/solr/.

Depuis 2010, l’équipe de développement de Lucene et de Solr est commune. La livraison des nouvelles version de ces 2 outils se fait en parallèle.

 

Elasticsearch

Capture d’écran 2014-12-05 à 11.03.10

Tout comme Solr, elasticsearch est une solution de recherche d’entreprise qui s’appuie sur Lucene. elasticsearch apporte à Lucene le même niveau de fonctionnalité que Solr. Les 2 outils se distinguent l’un de l’autre par quelques fonctionnalités précises et la manière de les mettre en œuvre. Pour plus d’information, vous pouvez consulter cette page de présentation d’elasticsearch.

 

Crawl-Anywhere

Crawl Anywhere est le crawler web puissant et hautement configurable et doté une interface d’administration simple. Le crawler est complété par un pipeline de traitement des documents avant leur indexation dans Solr. Crawl-Anywhere rempli les 4 tâches qui permettent de mettre en place un moteur de recherche vertical : crawler, enrichir, indexer et rechercher. Pour plus d’informations, rendez-vous sur le site dédié à Crawl Anywhere.

Taligentia contribue au développement de Crawl-Anywhere.

 

Apache ManifoldCF!

ManifoldCF est un projet open-source ayant pour objectif de fournir des outils de connexion à des ECM ou dépôts de données tels que Microsoft Sharepoint et EMC Documentum afin de les indexer dans Solr. ManifoldCF prend en compte les notions de sécurité et les droits d’accès au données. La liste des connecteurs disponibles inclue FileNet P8 (IBM), Documentum (EMC), LiveLink (OpenText), Meridio (Autonomy), Windows shares (Microsoft) et SharePoint (Microsoft). La liste complète est disponible ici.