Habrás escuchado y leído que configures bien el robots.txt que es muy importante ya que te pueden jod… la web 😕 , que te pueden “espiar” y mucho más. Y muchos usuarios ni se lo creen o pasan olímpicamente del tema, pues hoy te voy a poner un ejemplo que  seguro que te va a convencer y luego te explicaré la importancia del robots y del sitemap.

El ejemplo lo leí en el libro de “Hacking con buscadores” de Enrique Rando en el que cuenta que la SGAE (Sociedad General de Autores y Editores de España) llego a aparecer en los buscadores en primera posición con la búsqueda de la palabra “ladrones”. Para conseguir este resultado, los promotores de la campaña consiguieron que muchas páginas contuvieran enlaces, con la palabra “ladrones” en su texto, a la dirección

http://www.sgae.es/?ladrones

para que el servidor web de la SGAE redirigía a la página principal del sitio. Esto es conocido como un ejemplo típico de los que se denomina “Bomba Google” cuyo objetivo es dañar la imagen de la organización. Esto se solucionó utilizando el robots.txt que denegaba el acceso para la url que aparecía en Google (Fuente: Hacking con buscadores). Todavía puedes ver el ejemplo buscando “ladrones” en Bing, ¿Qué te parece esta búsqueda? 😛

ladrones

Vale, te he convencido con este ejemplo, ¿verdad? Y si todavía no, da igual te voy a explicar la importancia del robots y del sitemap de todas maneras. 😉

¿Qué es el robots.txt?

Es un fichero de texto que indica a los robots/crawlers de los buscadores las secciones de tu página web que quieres que visiten. Puedes crear con un bloc de notas, guardarlo con extensión (*.txt), y subirlo a la raíz del hosting.

Funciones del robots.txt

  • Evitar que ciertos robots accedan e indexen tu web (o zonas de la web). También puede bloquear las herramientas de análisis para que no te vea la competencia.
  • Evitar sobrecargas del servidor, para que no saturen una web por peticiones.
  • Controlar el contenido duplicado de tu web, puedes cerrar el acceso a Google para evitar el contenido duplicado. Esto es una opción para evitar contenido duplicado pero no es la más efectiva.

Ejemplos de robots.txt

El típico robots.txt que utilizan todas las webs es el de permitir acceso a todos los crawlers a cualquier parte de la web:

User-agent: *

Disallow:

Un robots.txt completamente contrario al anterior es el de bloquear todo el acceso; este robots.txt no es recomendable ya que no indexarás la web nunca en los navegadores:

User-agent: *

Disallow: /

Herramientas para crear el robots.txt

Como he mencionado anteriormente puedes abrir un fichero de texto y escribir las restricciones que deseas para el robots.txt. Pero para los más noobs o los que tengan síntomas de perritis aguda pueden utilizar una herramienta online de Seo Book (ver aquí). Con esta herramienta puedes definir y seleccionas diferentes opciones según la necesidad de cada webmaster en la web.

El robots.txt es un elemento muy recomendable que complementa al sitemap.xml, pero

¿Qué es el sitemap?

Sitemap es un fichero XML que pone en una lista todas las URLs de una página web, junto con metadatos sobre cada una de estas urls. Estos metadatos incluyen información como:

  • Última actualización.
  • Frecuencia de actualización.
  • Importancia de la página con respecto al resto.

Con este fichero, los robots pueden indexar tu página de forma más rápida, sencilla e inteligente 😀

ejemplo de un sitemap xml

En la captura del sitemap anterior puedes observar que la home obtiene más prioridad que un post porque el index suele tener más cambios que una noticia, dicho de otro modo que los robots pasarán más veces por la portada que por el post. Es lógico que las páginas internas tengan menos prioridad ya que pocas veces se actualice el contenido de las páginas internas.

Por otro lado, el sitemap suele estar, igual que el robots.txt, en la raíz del hosting.

Herramientas para crear el sitemap.xml

Para crear el sitemap yo recomiendo instalar el plugin XML Google Sitemap, claro está si estas utilizando WordPress. Una vez creado el mapa, hay que darlo de alta en la herramienta de Google Webmaster Tools en Rastreo -> Sitemaps

como dar de alta sitemap

Otra herramienta que puedes utilizar para crear el sitemap si no tienes WordPress es…, puedes utilizar la tool online (www.xml-sitemaps.com)para la creación del fichero y luego subirlo a tu hosting.

Resumiendo

El resumen de la importancia del robots.txt lo tienes con el ejemplo de “ladrones” de la SGAE, vale la pena limitar el acceso a esas personas que te quieren joder, y por lo menos no dejárselo en bandeja 😉

Ahora es tu turno, si no es mucho pedir, de compartir el contenido por las redes sociales con un +1, un tweet o un me gusta 😀