Como os sites modernos são complicados e muitas vezes dependem de conteúdo dinâmico, o ArchiveBox arquiva os sites em vários formatos diferentes além do que os serviços públicos de arquivamento como Archive.org e Archive. é capaz de salvar. ArchiveBox importa uma lista de URLs de stdin, url remoto ou arquivo, em seguida, adiciona as páginas a uma pasta de arquivo local usando wget para criar um clone html browsable, youtube-dl para extrair mídia, e uma instância completa de Chrome sem cabeça para PDF, Screenshot, e DOM dumps, e mais... Usando vários métodos e o navegador dominante do mercado para executar JS garante que podemos salvar até mesmo os sites mais complexos, finicky em pelo menos alguns formatos de dados de alta qualidade e longo prazo. # Pode importar links de: - Bolso, Pinboard, Instapaper - RSS, XML, JSON ou listas de texto simples - Histórico do navegador ou marcadores (Chrome, Firefox, Safari, IE, Opera e muito mais) - Shaarli, Delicious, Reddit Saved Posts, Wallabag, Unmark.it, e qualquer outro texto com links nele! # Pode salvar essas coisas para cada site: - favicon.ico favicon do site - example.com/page-name.html wget clone do site, com .html anexado se não estiver presente - saída.pdf PDF impresso do site usando cromo sem cabeça - screenshot.png 1440x900 do site usando cromo sem cabeça - saída.html DOM Dump do HTML depois de renderizar usando cromo sem cabeça - arquivo.org.txt Um link para o site salvo no archive.org - warc/ para o html + gzipped warc file lt;timestamp >.gz - mídia/ qualquer mp4, mp3, legendas e metadados encontrados usando youtube-dl - git/ clone de qualquer repositório para github, bitbucket, ou links gitlab - index.html & index.json HTML e arquivos de índice JSON contendo metadados e detalhes O arquivamento é aditivo, para que você possa agendar ./archive para executar regularmente e puxar novos links para o índice. Todo o conteúdo salvo é estático e indexado com arquivos JSON, então ele vive para sempre & é facilmente parseable, não requer backend sempre-running.