Atalaya: desde la tela de araña

Cultura en la red, reflexiones, relatos, tutoriales y paridas diversas

Sitemap Protocol sucks!

2005-06-03 20:26 Al menos un poquito. Yo supongo que los de Google habrán tenido la mejor intención del mundo sacando su su protocolo Mapa del sitio (via slashdot y Indiesign). Y me explico.
Se trata de un fichero XML, colocado en un sitio determinado de un servidor, que especifica para cada URL una serie de cosas: fecha de última modificación, y frecuencia de actualización. También se puede especificar una prioridad, aunque dejan bien claro que no sirve para aumentar el ranking en Google.
Supongo que, en parte, ya veréis cuál es el problema. Hay que generar una entrada en el fichero XML para todos los URLs. Uno para cada uno. Si hay un URL nuevo, hay que añadir un nuevo URL. Tampoco es un gran problema. Pero eso no es todo.
La frecuencia de actualización hay que especificarla a mano: cada día, cada mes, siempre, nunca. ¿Cómo diablos va a saber uno con qué frecuencia cambia un URL? La portada de esta Atalaya va a cambiar dos o tres veces al día, pero una historia sobre la que no se comente puede que no cambie nunca. Pero, de antemano, no sé cuánto va a cambiar. Y en cada CMS, habrá diferentes escalas de cambios, pero, de antemano, no se conoce. Es más, me da la impresión de que esa frecuencia será un límite superior; si especificas que cambias cada día, no creo que la visitan con mayor frecuencia que una vez al día; pero dudo que visiten el sitio cada día.
Por eso, dudo que, en realidad, esta especificación sea útil para los que tengan un sitio web. En todo caso, será útil para Google. Sus arañitas suelen visitar los sitios cada 15 días; si en el sitemap aparece que no van a cambiar nunca, o sólo una vez al mes, optimizará sus recursos para no visitar esas páginas más de una vez al mes.
Además, tampoco entiendo cómo no se usa RSS para lo mismo. RSS lleva información (bueno, puede llevarla) sobre frecuencia de actualización, y además, incluye los URLs nuevos que se van introduciendo en el sitio.
Vale, puede que si sirva para que Google "descubra" URLs que desconocía. Supongo que será la zanahoria, en este caso. Puede que haya páginas no enlazadas, que de esta forma sean "descubiertas". Pero vamos, que para ese viaje tampoco hacen falta tantas alforjas.

Referencias (TrackBacks)

URL de trackback de esta historia http://atalaya.blogalia.com//trackbacks/30410

1
De: Ceklog Fecha: 2005-06-16 22:31

Google Sitemap Generator para Wordpress: « Las últimas semanas vinieron marcadas por las noticias de que Google inventó un protocolo que le servirá de ayuda para rastrear los sitios web que tengan el ficherito sitemap.xml oportuno. JJ nos lo explicó en su día: Se trata de un fichero XML, »



Comentarios

1
De: Luiso Fecha: 2005-06-03 21:18

Le puedes especificar que mire los logs, y con el fichero de configuración es automático.



2
De: JJ Fecha: 2005-06-03 21:26

Ah, te refieres al generador, ¿no? Vale, si lo de generar el fichero no tiene mucha historia, al menos en sitios estáticos. En sitios dinámicos es otro cantar. Y, por cierto, en sitios con DNS dinámicos, como esta Blogalia, tienes que generar un fichero para cada dirección.



3
De: Alex Sancho Fecha: 2005-06-03 23:11

Hombre, un poco radical la opinion, no se si habras tenido la oportunidad de probarlo a conciencia, pero en mi opinion, el "generador" como le designan, te permite combinar diferentes fuentes de informacion, logs, sistema de ficheros, etc, yo sinceramente no he invertido mas de una hora en probarlo, pero no me parecio tan poco funcional como dices, yo creo que es mas interesante en cuanto a ofuscar urls que no te interesa que sean indexadas, pero bueno, ya digo que no he jugado con la cosa mucho rato, y aun no puedo decir que tenga una opinion formada.

Salu2 desde BCN



4
De: SegFault Fecha: 2005-06-04 01:47

Es una soberana tontería. En un sitio grande se puede generar un fichero bastante gordo que cada indexador buscará junto al robots.txt, y encima no ofrece ninguna funcionalidad que no ofrezca HTTP, salvo lo de descubrir nuevas URLs, que puede conseguirse si tienes un sitemap.

Además, si la nueva página no está enlazada tampoco creo que tenga mucho sentido que sea descubierta ¿no?

Esta tarde estuve leyendo las especificaciones y comparto la opinión de JJ de que es una cagada.

--
SegFault



5
De: Alvy Fecha: 2005-06-04 10:55

Bueno, no creo que haya que exagerar. En la ayuda se dice claramente que toda esa información sobre frecuencia, prioridades, etc. es simplemente "hints", es decir "recomendaciones o consejos" para los robots, que luego harán caso o no. En el que yo he generado no he usado la frecuencia y sólo una prioridad 1.0 para la portada porque cambia más, el resto de páginas individuales interiores llevarán 0.5 y luego se ajustarán todas.

Por ejemplo si un webmaster conoce su site le puede decir en el mapa a las arañas que tiene un área de actualidad que cambia mucho, a diario, más que otras zonas de archivo. O le digo que la portada cambia y los posts individuales no tanto, etc. Hay muchos sites con zonas superocultas porque no están enlazadas desde ningún sitio o porque están enlazadas desde páginas que tienen los famosos "mas de 100 links" y la leyenda dice que Google sólo lee los primeros 100 (o 100 KB). También están los casos de los enlaces absurdos hechos con a href javascript ... que los robots ni pueden encontrar (pero si los metes en un mapa, sí).

Tampoco hay que general el mapa cada vez que metes una URL, eso sería ideal y muchos CMS como WordPress o MT lo pueden hacer (ya hemos creado plantillas para ellos), pero con que lo hagas una vez a la semana o al mes seguramente puede valer también. La vieja araña de toda la vida sigue funcionando.

Además no olvidemos que esto es una beta y un experimiento, para probar y afinar.
Respecto al valor frequency yo creo que si no sabes bien si tus páginas van a cambiar o no (por ej. porque es un post individual con comentarios) mejor no poner nada. Sólo los valores "never" y "always" tienen un sentido más estricto.
Por cierto que en mi opinión este invento será increíblemente poderoso cuando además de tener sitemaps sirva para enviarle PINGS a Google para decirle que acabas de actualizar una página y venga a leerla y añadirla a su índice al momento. Google en Tiempo Real. Como Technorati y los demás… pero para toda la Web.



6
De: JJ Fecha: 2005-06-04 11:40

Pero la prioridad, ¿para qué sirve? ¿No es lo mismo que la frecuencia de actualización? ¿Qué pasa si le pones update='never' y prioridad=1?
Está claro que he exagerado en el titular (para eso están), pero la impresión que me ha dejado es que es hacer trabajar a los webmasters para algo que, eventualmente, sólo va a beneficiar a google, no a los webmasters.



7
De: Alvy Fecha: 2005-06-04 12:32

Lee la ayuda completa, está bastante bien documentado. La prioridad quiere decir que cuando en el futuro Google empiece a leer las 2.000 páginas de tu sitio, tu le das una pista de por donde estaría bien que empezara (y normalmente te hará caso). Por ejemplo por la portada, luego por las portadillas de secciones que se actualizan mucho, luego los post individuales, etc. como tú quieras. El update es para indicarle más o menos cada cuanto actualizas, pero aunque pongas "never" seguro que las arañas vendrán alguna vez, igual que aunque pongas "always" o "hourly" no van a venir cada 10 minutos, pero es una pista. Y obviamente no te vale poner prioridad 1 a todas las páginas porque se ese valor se promedia dentro de tu propio site.

Google construye un enorme mapa de la web, eso ya lo sabíamos. Con esto lo que los webmasters es ayudar a Google dándole más detalles de su mapa "local", de modo que no tenga que adivinarlo todo él solo porque como todo el que tiene boca, a veces se equivoca.

El estándar es abierto, no solo Google se beneficiará de esto, obviamente también los webmasters que verán sus sitios mejor indexados, y, como es abierto, TODAS las demás arañas podrán usar este estándar.

Así que: más bien todo lo contrario… Google Sitemaps DOESN'T SUCK ;-)



8
De: JJ Fecha: 2005-06-04 14:16

Bueno, quedamos en que sucks a little.



9
De: Arkangel Fecha: 2005-06-04 23:44

Hay que ver lo que os gusta una polémica... Si Google dice que hay que poner, sitemaps, pues se ponen, suckeen o no suckeen, que para eso es Google ;-)

Coñas aparte, acabo de ver en netdancerplanet unas cuantas líneas de código que generan un sitemap para blogs basados en WordPress... Supongo que no será óptimo, pero el tiempo de instalación, configuración, o construcción es cercano a 0, que parece que es lo que a JJ le "molesta" (eso de trabajar para Google sin recibir beneficio). De modo que yo de momento lo he colocado por ahí en el raiz, y le he dicho a esos señores de ese buscador que tanto uso que soy muy buena persona y los voy a ayudar un poquito. A ver haciendoles la pelota un poco me contrataran para eso del laboratorio secreto.



10
De: JJ Fecha: 2005-06-05 10:26

Bueno, no exactamente; lo que ocurre es que no veo una gran ventaja sobre la situación anterior. Pero al final tienes razón, tampoco cuesta demasiado trabajo y se puede ganar cobertura de las páginas.



11
De: roberto Fecha: 2005-08-22 05:52

wuenowueno esto sta mas monse q ........



12
De: JJ Fecha: 2006-09-25 14:41

Vale, Pau. Te has ganado un borrado masivo.



Se comenta en...

  • JJ en [Libro #1] Harry Potter and the Cursed Child, de JK Rowling, John Tiffany y Jack Thorne
  • Anonima en [Libro #1] Harry Potter and the Cursed Child, de JK Rowling, John Tiffany y Jack Thorne
  • JJ en [Libro #29] El guardián invisible, de Dolores Redondo
  • Jorge en [Libro #29] El guardián invisible, de Dolores Redondo
  • JJ en [Libro #30] Code simplicity, de Max Kanat-Alexander
  • rvr en [Libro #30] Code simplicity, de Max Kanat-Alexander
  • JJ en [Libro #22] Fantasía, de Emilia Pardo Bazán
  • Palimp en [Libro #22] Fantasía, de Emilia Pardo Bazán
  • marta en [Libro #21] Birchwood, de John Banville
  • JJ en [Libro #10] The son, de Jo Nesbo
  • Sobre Atalaya

    Esta es la bitácora o blog de Juan Julián Merelo. Si quieres contactar con el autor, usa su correo electrónico jjmerelo (arroba) gmail.com, o simplemente deja un comentario. Y si quieres leer alguna cosa más de las que escribe, prueba esta novela

    Listas de deseos

    A veces leo

    Otras veces escribo en

    Blogalia Blogalia