O Projeto Lemur desenvolve mecanismos de busca, barras de ferramentas de navegador, ferramentas de análise de texto e recursos de dados que suportam pesquisa e desenvolvimento de software de recuperação de informações e mineração de texto. O projeto é mais conhecido por seu mecanismo de busca Indri, Barra de ferramentas Lemur e conjunto de dados ClueWeb09. Nossos softwares e conjuntos de dados são amplamente utilizados em aplicações científicas e de pesquisa, bem como em algumas aplicações comerciais. Indri é um motor de busca que fornece pesquisa de texto de última geração e uma rica linguagem de consulta estruturada para coleções de texto de até 50 milhões de documentos (máquina única) ou 500 milhões de documentos (pesquisa distribuída). Disponível para Linux, Solaris, Windows e Mac OSX. Características Interface de consulta poderosa Suporta operadores de consulta estruturada populares da INQUERY Combinação de termo curinga baseada em sufixo Recuperação de campo Recuperação de passagem Índice flexível e suporte de documentos Suporta texto codificado UTF-8 Língua tokenização independente de documentos codificados UTF-8. Parses PDF, HTML, XML e documentos TREC Verbo e PowerPoint parsing (apenas Windows) Notas de texto Metada de documentos Versatilidade do Pacote Fonte aberta, com uma licença de inspiração BSD flexível Inclui ferramentas de linha de comando e uma interface de usuário Java API pode ser usado em Java, PHP ou C++ Funciona em Windows, Linux, Solaris e Mac OS X Escalabilidade e eficiência Melhor desempenho de recuperação ad hoc classe Pode ser usado em um conjunto de máquinas para indexação e recuperação mais rápidas Escalas para coleções de tamanho terabyte Baixar Indri pode ser obtido a partir da página do projeto SourceForge Lemur. História de lançamento A primeira versão (1.0) do Indri foi lançada em janeiro de 2002. As versões subsequentes foram feitas 2-3 vezes por ano desde então. Notas de lançamento para a versão atual podem ser encontradas no SourceForge.