Sobre Stormcrawler

StormCrawler é uma fonte aberta SDK para a construção de rastreadores web distribuídos com Apache Storm. O projeto está sob licença Apache v2 e consiste em uma coleção de recursos e componentes reutilizáveis, escritos principalmente em Java. O objetivo do StormCrawler é ajudar a construir rastreadores web que são: escalável resiliência latência baixa fácil de estender polido mas eficiente StormCrawler é uma biblioteca e coleção de recursos que os desenvolvedores podem aproveitar para construir seus próprios rastreadores. A boa notícia é que fazê-lo pode ser bastante simples. Muitas vezes, tudo que você & #39; vai ter que fazer será declarar tempestade-crawler como uma dependência Maven, escrever sua própria classe de Topologia (dica: você pode estender ConfigurableTopology), reutilizar os componentes fornecidos pelo projeto e talvez escrever um par de costumes para o seu próprio molho secreto. Um pouco de ajuste para a configuração e você vai! Além dos componentes principais, nós fornecemos alguns recursos externos que você pode reutilizar em seu projeto, como por exemplo, nosso bico e parafusos para ElasticSearch ou um ParserBolt que usa Apache Tika para analisar vários formatos de documentos. StormCrawler é perfeitamente adequado para usar casos em que a URL para buscar e analisar vem como fluxos, mas também é uma solução adequada para rastreios recursivos de grande escala, particularmente onde baixa latência é necessária. O projeto é usado na produção por várias empresas e é desenvolvido e mantido ativamente.

Categorias

  • Free
  • Open Source
  • Paid