Sobre Gigablast

Gigablast é um poderoso, opensource, novo motor de busca que faz indexação em tempo real! Características Escalável para milhares de servidores. Tem escalado para mais de 12 bilhões de páginas web em mais de 200 servidores. Um dual quad core, com 32GB ram e dois 160GB Intel SSDs, executando 8 instâncias Gigablast, pode fazer cerca de 8 qps (queries por segundo) em um índice de 10 milhões de páginas. As unidades serão próximas à capacidade máxima de armazenamento. Dobrar o tamanho do índice será mais ou menos metade da taxa de qps. (As métricas de desempenho podem ser feitas aproximadamente dez vezes mais rápido, mas eu ainda não tenho chegado a ele. O uso do espaço de movimentação provavelmente permanecerá aproximadamente o mesmo porque já é bastante eficiente.) 1 milhão de páginas web requer 28.6GB de espaço de unidade. Isso inclui o índice, meta informações e o HTML comprimido de todas as páginas da web. taxa de aranha é em torno de 1 página por segundo por núcleo. Assim, um núcleo duplo quad pode aranha e índice 8 páginas por segundo, que é 691,200 páginas por dia. 4GB de RAM necessária por instância do Gigablast. (instância = processo) Demonstração ao vivo em http://www.gigablast.com/ Escrito em C/C+ para melhor desempenho. Mais de 500.000 linhas de C/C++. 100% personalizado. Um único binário. O servidor web, banco de dados e tudo o resto está contido neste código fonte de forma altamente eficiente. Torna a administração e solução de problemas mais fáceis. Confiável. Tem sido testado em produção ao vivo desde 2002 em bilhões de consultas em um índice de mais de 12 bilhões de páginas web únicas, 24 bilhões espelhados. Super rápido e eficiente. Um de um pequeno punhado de motores de busca que atingiram números tão grandes. O único motor de busca de código aberto que tem. Suporta todos os idiomas. Pode dar resultados em línguas especificadas um impulso sobre os outros no momento da consulta. Usa a representação UTF-8 internamente. Registo de rastreamento. Tem sido usado por muitos clientes. Tem sido usado com sucesso em software empresarial distribuído. Cached páginas da web com o termo de consulta destacando.

Categorias

  • Free
  • Open Source
  • Paid
  • Online Services