Porquê o Diffbot? We're focado exclusivamente em obter melhores dados da web. Algumas das razões centenas de clientes fazem (centenas de) milhões de chamadas todos os meses: #The Web's Best Content Extractor: O Diffbot funciona automaticamente, sem regras ou treinamento. There's não é melhor maneira de extrair dados de páginas da web. Veja como o Diffbot se encaixa em outros métodos de extração de conteúdo: Comparação de recursos Text-Extraction Qualidade Shootout #Identificar páginas Automaticamente: Use a API Analyze para encontrar e extrair automaticamente todos os produtos, artigos, discussões ou imagens enquanto rasteja qualquer site. Analise API Dados de produto detalhados: A API do produto retorna automaticamente a informação completa do produto, incluindo todos os dados de preços, IDs do produto, tabelas de marca e especificações completas. API do produto #Limpa texto e html: Artigos, tópicos de discussão, descrições de produtos e legendas de imagem são devolvidos em texto puro e HTML higienizado. Comece a testar hoje #Structured Search: Pesquisar conteúdo estruturado de qualquer rastreamento on-the-fly usando nossa API de pesquisa, retornando apenas os resultados correspondentes. Além disso... #&164; Todas as APIs executam Javascript assim que o conteúdo é analisado como um navegador regular. #&164; Trabalha na maioria das páginas não-inglês graças ao processamento visual. #&164; Normalização de data: Os datastamps são normalizados e apresentados no formato padrão RFC 1123 (HTTP/1.1). #&164; Os artigos Multipage são automaticamente unidos em uma única resposta API. #&164; Extração da entidade: marcação automática identifica tópicos e entidades principais dentro do texto do artigo. #&164; Corrigir quaisquer problemas em tempo real com o API Toolkit. #&164; Bulk API permite a extração de centenas a centenas de mil páginas. #&164; Acesso Crawlbot e dados de trabalho em massa em formatos JSON ou CSV completos. #&164; Opcionalmente rasteje usando uma variedade diversificada de endereços IP.