Apache Tika ™ est une boite à outils qui au moyen d’une API Java ou d’un WEB Service permet d’extraire le contenu textuel et les métadonnées (auteur, date, content-type, …) de plus de mille formats de fichiers différents (tels que Microsoft Office, OpenDocument et PDF). L’ensemble de ces formats de fichiers peut être alors analysés via une interface unique. Tika est donc utile pour l’indexation par des moteurs de recherche, l’analyse de contenu, la traduction et bien plus encore.