Por @Alvy — 3 de Junio de 2005

Ahí va en plan código rápido una plantilla para Movable Type que te permitirá generar un sencillo Sitemap XML para Google.

<?xml version=«1.0» encoding=«UTF-8»?>
<urlset xmlns=«http://www.google.com/schemas/sitemap/0.84»>

  <url>
    <loc><$MTBlogURL$></loc>
    <priority>1.0</priority>
  </url>

<MTEntries lastn=«49999»>
  <url>
    <loc><$MTEntryPermalink$></loc>
  </url>
</MTEntries>
</urlset>

Añádelo en tu colección de plantillas Index (Templates > Index Templates > Create New Template Index). Nómbrala en Template Name como Sitemap XML para Google o lo que prefieras. En Ouput File llámala sitemap.xml e irá al directorio raíz. Puedes marcarla para que se regenere con los demás índices automáticamente (Rebuild this template automatically) o hacerlo a mano de vez en cuando.

Una vez generado el fichero, hazle un Rebuild y lo podrás ver en la dirección xyz.com/sitemap.xml de tu weblog (siendo xyz.com la dirección de tu weblog). Regístrate en Google Sitemaps y añade ese fichero para que el robot de Google lo lea cuando pueda.

El código es muy simple y básicamente genera una lista de todas las URLs permanentes de todas las entradas del weblog, precedidas por la URL del propio weblog (el límite marcado por Google son 50.000 URLs). Como la portada es la página que más a menudo cambiará, está marcada con mayor prioridad de indexado (1.0) que el resto (que por defecto llevan 0.5, hay más sobre esto en la Ayuda de Google Sitemaps). Esto hace que todas las páginas se prioricen por igual, excepto la portada, que tendrá cierta prioridad. Seguramente tengas otras páginas en tu weblog además de éstas, pero serán menos importantes, como los archivos por fechas o categorías. No te preocupes porque Google las encontrará de todas formas, el robot de toda la vida sigue funcionando. Si crees que es importante que encuentre páginas de tu weblog que no existan como entradas de Movable Type entonces a lo mejor prefieres utilizar otro sistema para que en el sitemap XML estén también incluidas esas páginas.

Compartir en Flipboard  Compartir en Facebook  Tuitear

6 comentarios

#1 — Alvy

Por cierto hace 13 horas que lo mandé a Google Sitemaps (se puede ver fichero generado en http://www.microsiervos.com/sitemap.xml y hace 5 que el robot se lo descargó, con estatus OK así que el invento parece que funciona. Que haya tardado ocho horas en bajárselo puede ser normal, y seguramente cuanta más gente use el servicio más lento irá el robot, y eso que ahora debemos ser cuatro gatos, pero también hay que tener en cuenta que es una beta del laboratorio, nada demasiado real todavía.

#2 — Gromka

Otra manera de crear un sitemap en MT.

Yo añadiría también la opción de que, en un blog abierto a comentarios, debería ser "always".

#3 — Gromka

"la opción changefreq que..."

#4 — Alvy

Mmmm, no, según las especificaciones "always" sólo debe usarse para páginas que por alguna razón cambian SIEMPRE que las pides. Por ejemplo imagina una página con cotizaciones de bolsa, o temperatura en tiempo real, o una webcam o algo parecido, o una página de logs, incluso una página que tenga alguna especie de contador visual o algo así. Creo que son más bien excepciones que algo normal.

Lógicamente según cada blog todo esto está abierto a muchos matices, en caso de dudas mejor no poner nada. Hay gente que tiene los comentarios en la URL de los posts individuales, otros en otras páginas o incluso sistemas externos (ej. haloscan), en fin que todo depende.

Por ejemplo tampoco puedes poner "hourly" porque a lo mejor aunque combines post+comentario dentro de un mes esa página no está cambiando realmente cada hora, o nadie comenta.

Desde luego un "always" ahí no es del todo correcto.

Además leyendo bien la documentación queda claro que como Google sabe que los SEOs van a intentar abusar del sistema, ningún truco de esos que tienda a forzar las cosas más allá de cómo son creo que vaya a funcionar.

Por cierto, a colación: GoogleGuy dijo el otro día en un foro que en Google están hasta las narices de las granjas de enlaces y blogs falsos que sólo existen para enlazar y poner adsense y llenar internet de páginas basura de mentira, y que van a identificarlas y tomar medidas. Bye bye.

#5 — Gromka

Como bien dices, está abierto a muchos matices. En caso de duda que no lo utilicen, es opcional. Sin embargo, ya que el sistema se trata de un experimento de Google pues vamos a experimentar nosotros también, no? No sólo se van a divertir ellos. Que nadie se piense que por hacer un sitemap y enviarlo a Google su web va a estar mejor valorada en los resultados o que Google va a obeceder ciegamente las indicaciones que definamos.

Supongo que hay gente (SEO o no) que siempre piensa en forzar el sistema para intentar sacar un provecho. Muchas veces de manera errónea. El tag changefreq me recuerda a la meta revisit-after que tanto es/fue utilizada de manera inútil en muchas webs. Supongo que todo el mundo tiende a pensar que su web es la más importante de Internet ;)

Desde luego, lo que menos le puede interesar a cualquier web medianamente seria es ir gastando ancho de banda en visitas inútiles de los bots. Esa es la parte negativa de un Googlebot "autónomo" que ignore nuestras indicaciones. La parte buena es que está menos sujeto a manipulaciones más o menos comerciales, pero manipulaciones al fin y al cabo.

Sobre el tema del Adsense en páginas de spam (buena memoria, recuerdas nuestra conversación!). Mi impresión es que Google ha detectado que sus anunciantes cada vez huyen más de aparecer en la red de contenido y que son recelosos de las webs en que aparecen sus anuncios. Con razón, claro.

Google en inicio, e intentando parchear el asunto, desplazó hacia sus clientes la responsabilidad de sus erróneas decisiones y ahora son los anunciantes los que han de ir supervisando donde aparecen sus anuncios. ¿Pero no se trataba de publicidad contextual integrada con los contenidos, relevante para el usuario y en webs sujetas a unas directrices de calidad y a revisión editorial? Pues parece que no. Para acabarlo de rematar desarrollaron el "Site targeting" y... En fin, particularmente, suelo trabajar por defecto con anuncios en la reb de búsqueda.

Si hemos de estar vigilando constantemente en que lugares concretos queremos aparecer y en cuáles no, pues mejor gestionamos la publicidad directamente con las webs, ergo, Google se va quedando sin su comisión y va bajando su principal fuente de ingresos.

Contemplaré, con fruición, toda medida tomada por GoogleGuy y sus secuaces destinada a acabar con el spam. Como siempre, llegará tarde, mal y/o nunca. ;)

#6 — Alvy

Bien explicado, Gromka.