web-dev-qa-db-pt.com

Limpe o site invadido, fazendo com que o Google rastreie e indexe apenas os URLs no mapa do site

Recentemente, nosso site foi invadido e estamos tentando limpar tudo agora. Mas, ao fazer a pesquisa "site:", ele ainda mostra os sites japoneses em cache.

Tentamos brincar com robots.txt ou seja:

User-agent: *

Disallow: 

Sitemap: http://www.example.com/sitemap.xml

Mas quando insiro o URL incorreto no testador robots.txt, ele ainda permite o URL que não queremos.

Existe alguma maneira de o Google rastrear apenas o mapa do site no robots.txt sem inserir manualmente todos os links incorretos no Disallow?

2
Shan Xue

O Google nunca se limitou a rastrear e indexar apenas URLs que estão no mapa do site. Essa funcionalidade não existe, e duvido que alguma vez existirá.

Sitemaps são bastante inúteis. Eles não ajudam no ranking. Eles raramente levam o Google a indexar páginas que de outra forma não indexariam. O Google realmente os usa apenas para escolher URLs preferenciais, especificar URLs de idiomas alternativos e fornecer dados extras no console de pesquisa. Veja O Siteado Paradox .

Você provavelmente também não deseja usar o robots.txt para proibir os URLs. O robots.txt bloqueia o rastreamento, mas não a indexação. Você precisa que o Google rastreie novamente os URLs e verifique se eles sumiram. O Googlebot precisa acessar os URLs para isso.

Para limpar seus URLs invadidos, verifique se eles agora retornam o status 404. O Google removerá cada um deles dentro de 24 horas após o próximo rastreamento. O Google demorou alguns meses para remover todos os URLs, pois talvez ele não rastreie novamente alguns deles em breve. Consulte o site foi invadido, é necessário remover todos os URLs que começam com + do Google, usar robots.txt?

Se não houver muitos URLs, você poderá enviá-los individualmente por meio da Ferramenta Remover URLs do Google Search Console . Isso fará com que o Google os remova muito mais rapidamente do que esperar pelo novo rastreamento, mas não há um recurso de remoção em massa.

1
Stephen Ostermiller