Ce este robots.txt si la ce foloseste acesta

Atunci cand construim un site, vor exista tot timpul pagini sau categorii din site care nu vrem sa fie gasite de motoarele de cautare din diverse motive. De cele mai multe ori, aceste motive implica un management mai bun al link juice-ului in cadrul site-ului si limitarea numarului de pagini indexate prineliminarea celor care nu aduc un beneficiu sau care au continut duplicat.

Controlul paginilor de indexat se face foarte usor cu ajutorul unui fisier robots.txt ce se urca in root-ul site-ului. Exemple de sintaxa:

User-agent: *
Disallow:

Aceasta regula arata ca toate paginile sunt indexabile de toti botii.

User-agent: Googlebot
Disallow:/*

Aceasta regula arata ca nici o pagina din site nu este indexabila de Googlebot.

User-agent: *
Disallow: */feed/
Disallow: */trackback/
Disallow: /disclaimer/
Disallow: /*?*

Aceasta regula arata ca nicio pagina care se termina in /feed/ nu este indexabila . In plus, directorul /disclaimer/ este si el neindexabil si la fel orice link care contine parametri.

Sintaxa robots-ului este foarte simpla si usor de folosit. Ea nu permite expresii regulate insa cu ceva efort, se poate elimina cam orice tip de pagina de la indexare.

Interfete WEB - blogul interfetelor WEB 3.0

marți, 13 ianuarie 2009