Atalaya: desde la tela de araña

Cultura en la red, reflexiones, relatos, tutoriales y paridas diversas

Dios se equivoca

2003-07-20 00:42 Y me refiero, claro está, a google. Este artículo de Slate, Digging for Googleholes, indica los tres principales defectos: la invasión comercial (es decir, coma ya dije aquí, cuando se trata de buscar algo, es más probable encontrar a alguien que trate de venderte ese algo que el algo propiamente dicho), los problemas con los sinónimos (lo cual es evidente: una palabra puede significar muchas cosas, por no mencionar un nombre), y el sesgo hacia documentos pequeños: en un documento pequeño, las palabras tienen más peso; sin embargo, en documentos grandes, tesis, o libros completos, se suele estudiar un tema en mucha más profundidad, y es más probable que se encuentre lo que uno busca.
Quizás también el problema sea cómo entiende uno un buscador. Un buscador devuelve documentos que incluyan una cadena (que no una palabra), y los clasifica según la relevancia de la cadena dentro del documento, según la relevancia de esa misma cadena en las páginas que apunten hacia ella; en eso consiste el algoritmo pagerank. Visto así, es muy fácil engañarlo, y de hecho, lo hacemos de forma cotidiana; algunos sin querer, y otros con toda la intención del mundo. Un buscador no responde preguntas (aunque cualquiera lo diría, viendo como lo usa la gente), ni entiende lo que significa una palabra (que ya le vale, habiendo como hay por ahí tantas ontologías como WordNet).
Así que tampoco es que funcione tan mal; simplemente es que se le pide demasiado.

Referencias (TrackBacks)

URL de trackback de esta historia http://atalaya.blogalia.com//trackbacks/9962

Comentarios

1
De: EthErwAvE Fecha: 2003-07-20 03:30

Curioso, hemos tratado el tema casi a la vez... Mi post aquí. (por cierto, que fue este blog desde donde encontré la página que me llevó a escribirlo).

Y una pequeña corrección: PageRank sólo clasifica las páginas según su popularidad (enlaces entrantes), lo de mirar la relevancia de la cadena en las páginas lo hacen otros algoritmos de Google que son secreto de la marca, que dirían los ingleses, y que no parece que funcionen muy bien (IMHO).



2
De: JJ Fecha: 2003-07-20 16:18

Tiene que usar la relevancia del termino dentro de la pagina, si no no podria listar a paginas que no son apuntadas por ninguna otra. Es una combinacion de los dos, y el peso de uno y otro cambia con el tiempo. De hecho, la mayoria de las paginas no tienen ninguna otra que le apunte, o bien el termino de busqueda no aparece en las dos.



3
De: franc luis valdiviezo quiri Fecha: 2006-06-14 17:23

que su se dio con la talaya en le 2003




4
De: fernando Fecha: 2009-10-22 23:55

son bobos



Nombre
Correo-e
URL
Dirección IP: 54.162.94.15 (afe4a1553f)
Comentario

Se comenta en...

  • JJ en [Libro #10] The son, de Jo Nesbo
  • Madrid en [Libro #12] Pirate Utopia, de Bruce Sterling
  • Series en [Libro #9] I'm travelling alone, de Samuel Bjork
  • Pymes Plataforma Comercial en [Libro #29] El guardián invisible, de Dolores Redondo
  • Website en [Libro #8] A drink before the war, por Denis Lehane
  • Rosa Zotano Lopez en [Libro #12] Pirate Utopia, de Bruce Sterling
  • Libros de interés en [Libro #10] The son, de Jo Nesbo
  • Veterana en [Libro #11] Prisoners of Geography, de Tim Marshall
  • Anónima en [Libro #11] Prisoners of Geography, de Tim Marshall
  • JJ en [Libro #3] A Christmas Carol, de Charles Dickens
  • Sobre Atalaya

    Esta es la bitácora o blog de Juan Julián Merelo. Si quieres contactar con el autor, usa su correo electrónico jjmerelo (arroba) gmail.com, o simplemente deja un comentario. Y si quieres leer alguna cosa más de las que escribe, prueba esta novela

    Listas de deseos

    A veces leo

    Otras veces escribo en

    Blogalia Blogalia