Um crawler PHP leve, criado para percorrer sites e gerar sitemaps XML prontos para produção. Conta com suporte a canonical, limites por host e arquitetura extensível.
Este crawler segue links de elementos <a>, normaliza URLs, resolve caminhos relativos, remove fragmentos e pode restringir a navegação por host e protocolo.
Ele respeita noindex, nofollow e URLs canônicas, mantendo a execução leve e fácil de estender.
Não interpreta o robots.txt. Ele percorre o HTML e gera sitemaps de forma limpa e eficiente.
<?php
use Tonsoo\PhpCrawler\Extensions\SitemapExtension;
use Tonsoo\PhpCrawler\Sitemap\SitemapGenerator;
use Tonsoo\PhpCrawler\Sitemap\Writers\RotatingSitemapWriter;
crawler()
->preserveHost()
->respectCanonical(false)
->maxPages(1000)
->extension(
new SitemapExtension(
generator: new SitemapGenerator(
writer: new RotatingSitemapWriter(
directory: __DIR__ . '/sitemap'
)
)
)
)
->start('https://example.com');
Informe a URL do site que deseja rastrear. Um sitemap será gerado em segundos.