PHP Web Crawler

Rastreie. Analise. Gere.

Um crawler PHP leve, criado para percorrer sites e gerar sitemaps XML prontos para produção. Conta com suporte a canonical, limites por host e arquitetura extensível.

Controle total, sem complexidade

Este crawler segue links de elementos <a>, normaliza URLs, resolve caminhos relativos, remove fragmentos e pode restringir a navegação por host e protocolo.

Ele respeita noindex, nofollow e URLs canônicas, mantendo a execução leve e fácil de estender.

Não interpreta o robots.txt. Ele percorre o HTML e gera sitemaps de forma limpa e eficiente.

example.php
<?php

use Tonsoo\PhpCrawler\Extensions\SitemapExtension;
use Tonsoo\PhpCrawler\Sitemap\SitemapGenerator;
use Tonsoo\PhpCrawler\Sitemap\Writers\RotatingSitemapWriter;

crawler()
    ->preserveHost()
    ->respectCanonical(false)
    ->maxPages(1000)
    ->extension(
        new SitemapExtension(
            generator: new SitemapGenerator(
                writer: new RotatingSitemapWriter(
                    directory: __DIR__ . '/sitemap'
                )
            )
        )
    )
    ->start('https://example.com');

Experimente o crawler

Informe a URL do site que deseja rastrear. Um sitemap será gerado em segundos.