Tutoriales Varios

Guía Robots.txt

Todos sabemos que la optimización de páginas web para buscadores es un dificil negocio, a veces posicionamos bien en un buscador para una frase clave en particular y asumimos que a todos los buscadores les gustarán nuestras página y por lo tanto estaremos bien posicionados para esa frase clave en cierto número de motores de búsqueda. Desafortunadamente esto sería un caso muy raro.

La mayoría de los grandes buscadores difieren en algo, así que lo que te hizo estar bien posicionado en un buscador puede hacerte descender en otro. Es por esta razón que a alguna gente le gusta optimizar páginas para cada buscador en particular.

Normalmente estas páginas serian ligeramente distintas pero esa pequeña diferencia podría marcar distancias cuando se intenta posicionar bien arriba, sin embargo, a causa de que los spiders de los buscadores indexan todas las páginas que encuentran, podrian venir a través de las páginas optimizadas específicamente para ese motor de búsqueda y notar que son muy similares.

Por lo tanto, los spiders pueden pensar que estás hacendo spam y harán una de estas dos cosas, eliminarán tu web de su buscador o penalizarán tu web haciéndola bajar de posición.
Que podemos ahcer para decirle a Google que deje de indexar ciertas páginas que están pensadas para Altavista, bien, la solución es realmente simple y me sorprende que no se use más entre webmasters que optimizan para cada motor de búsqueda. Se hace usando un archivo robots.txt que reside en tu espacio web.

El archivo robots.txt es simplemente un archivo de texto como sugiere su extensión. Se crea usando un simple editor de texto como Notepad o WordPad, procesadores de texto complicados como Microsoft Word no harian más que corromper el archivo.

Este es el código que necesitar insertar al archivo:

El texto rojo es obligatorio y nunca cambia mientras que el azul lo tienes que cambiar para adaptarlo al motor de búsqueda y a los archivos que quieras evitar.

User-Agent: (Spider Name)
Disallow: (File Name)

el User-Agent es el nombre del spider del buscador y Disallow es el nombre del archivo que no quieres que indexe el spider. No estoy completamente seguro de si el código es sensible a las mayúsculas o no pero sé que ese código funciona, así que, para estar seguro, comprueba que la U y la A están en mayúsculas al igual que la D de Disallow.

Tienes que empezar un nuevo lote de código para cada buscador, pero si quieres multiplicar la lista de archivos no permitidos puedes ponerlos uno debajo de otro.
Por ejemplo –

User-Agent: Slurp (El spider de Inktomi)
Disallow: internet-marketing-gg.html
Disallow: internet-marketing-al.html
Disallow: advertising-secrets-gg.html
Disallow: advertising-secrets-al.html

En el código de arriba he prohibido el acceso al spider de Inktomi a dos páginas optimizadas para Google (internet-marketing-gg.html & advertising-secrets-gg.html) y dos páginas optimizadas para Altavista (internet-marketing-al.html & advertising-secrets-al.html). Si inktomi tuviera permiso para indexar estas páginas además de las páginas especificas para Inktomi, correría el riesgo de ser eliminado de sus búsquedas o penalizado por eso siempre es buena idea usar un archivo robots.txt

Antes he mencionado que el archivo robots.txt reside en tu espacio web, pero donde de tu espacio web? El directorio raiz es donde hay que subirlo, si lo subes a un subdirectorio no funcionará. Si quieres bloquear ciertos buscadores de indexar ciertos archivos que no residen en tu directorio raiz simplemente tienes que apuntar al directorio correcto y listar el archivo como otro cualquiera, por ejemplo –

User-Agent: Slurp (El spider de Inktomi)
Disallow: directorio/internet-marketing-gg.html
Disallow: directorio/internet-marketing-al.html

Si quisieras prohibir a todos los buscadores de indexar un archivo simplemente tienes que usar el caracter * donde estaría el nombre del buscador. Sin embargo, ten cuidado ya que el caracter * no funcionará en la linea Disallow.

Aquí están los nombres de unos cuantos grandes buscadores, realiza una búsqueda con las palabras ‘search engine user agen names’ en Google para encontrar más.

Excite – ArchitextSpider
Altavista – Scooter
Lycos – Lycos_Spider_(T-Rex)
Google – Googlebot
Alltheweb – FAST-WebCrawler/

Asegúrate de comprobar el archivo antes de subirlo, ya que probablemente hayas cometido algún pequeño error lo que significaría que tus páginas podrian estar siendo indexadas por buscadores que no quieres que las indexen, o peor aún, que ninguan de tus páginas sea indexada.
Una pequeña nota antes de acabar, tengo listados los nombres de User-Agent de unos cuantos grandes buscadores, pero realmente no vale la pena crear diferentes págians para más de 6 o 7 buscadores. Se pierde mucho tiempo y los resultados serán similares que si hubieras creado diferentes páginas solo para los 5 primeros, más no siempre significa mejor.

Ahora ya sabes como hacer un archivo robots.txt para dejar de ser penalizado por buscadores. Facil, verdad? Hasta la próxima!

Fuente: http://www.webtaller.com