Sobre Apache Nutch

Apache Nutch é um projeto de software de rastreador web de código aberto altamente extensível e escalável. Nutch é codificado inteiramente na linguagem de programação Java, mas os dados são escritos em formatos independentes da linguagem. Tem uma arquitetura altamente modular, permitindo que os desenvolvedores criem plug-ins para análise tipo mídia, recuperação de dados, consulta e clustering. O fetcher (quot;robot" ou "web crawler "); foi escrito a partir do zero especificamente para este projeto.

Categorias

  • Free
  • Open Source
  • Paid