Rastreo mediante formularios HTML

martes 12 de mayo de 2009

Etiquetas:

Google prueba constantemente nuevas ideas para mejorar la cobertura que ofrecemos de la web. Exploramos JavaScript y Flash para descubrir enlaces a páginas nuevas, pero hoy nos gustaría hablar de otra tecnología con la que hemos experimentado.

Exploramos algunos formularios HTML para tratar de descubrir nuevas páginas web y URL que de otra manera no podríamos haber encontrado ni indexado para los usuarios que realizan búsquedas en Google. En concreto, cuando nos encontramos con un elemento en un sitio de calidad, podemos optar por hacer un pequeño número de consultas mediante el formulario. Para cuadros de texto, nuestras máquinas seleccionan automáticamente palabras del sitio que contiene el formulario. Para menús de selección, casillas de verificación y botones de opción en el formulario, se elige de entre los valores del HTML. Después de haber elegido los valores para cada entrada, generamos e intentamos rastrear las URL que correspondan a una posible consulta que un usuario podría hacer. Si comprobamos que la página web como resultado de nuestra consulta es válida e interesante, y con contenido que aún no está en nuestro índice, es posible que la incluyamos en nuestro índice de la misma manera que podríamos incluir cualquier otra página. 


Huelga decir que este experimento sigue las buenas prácticas de "ciudadanía" de Internet. Sólo un pequeño número de sitios particularmente útil recibe este tratamiento, y nuestro agente de rastreo, el siempre amigable Googlebot [inglés], siempre se adhiere a las directivas robots.txt, nofollow y noindex. Esto significa que si un formulario de búsqueda está prohibido en robots.txt, no rastrearemos ninguna de las URL que se generarían con un formulario. Del mismo modo, sólo recuperamos formularios GET y evitamos los que requieren cualquier tipo de información del usuario. Por ejemplo, omitimos todos los formularios con contraseña o que utilizan términos comúnmente asociados con información personal como nombres de usuario, ID de usuario, contactos, etc. También somos conscientes de los efectos que esto puede tener en el sitio web y nos limitamos a un número muy pequeño para un sitio concreto.

No descubrimos páginas web con este rastreo mejorado a expensas de páginas web normales que ya forman parte del rastreo, así que este cambio no reduce el PageRank de tus otras páginas. Sólo debería aumentar la exposición de tu sitio web en Google. Este cambio tampoco afecta al rastreo, al posicionamiento o a la selección de otras páginas web de manera significativa.

Esto forma parte de un mayor esfuerzo por parte de Google para incrementar la cobertura de la web. De hecho, se creyó durante mucho tiempo que los formularios HTML eran la puerta de acceso a grandes volúmenes de datos más allá del alcance normal de los motores de búsqueda. Los términos web profunda (Deep Web), web oculta (Hidden Web) o web invisible (Invisible Web) [inglés] se han utilizado de forma colectiva para referirse a estos contenidos que hasta ahora habían sido invisibles para los usuarios de los motores de búsqueda. Mediante el rastreo con formularios HTML (y obedeciendo a robots.txt), somos capaces de llevar a los usuarios del motor de búsqueda a documentos que, de otro modo, no se encontrarían fácilmente y que proporcionan tanto a los webmasters como a los usuarios una mejor y más completa experiencia de búsqueda.

Foro de ayuda para webmasters en más idiomas

viernes 8 de mayo de 2009

Etiquetas:

Como viene siendo una tradición, cuando lanzamos un nuevo canal de comunicación damos la oportunidad a los colaboradores de presentarse. Lo hicimos cuando abrimos las comunidades europeas de ayuda a webmasters hace ya casi dos años, y también hace más de un año cuando ampliamos y añadimos grupos en tres lenguas más. El pasado diciembre nos alegramos de anunciar el relanzamiento de dos de nuestros foros de ayuda con un aspecto renovado.

Hoy, nos alegramos de anunciar que seguimos aumentando el diálogo global con webmasters, abriendo un foro de ayuda para webmasters en árabe y checho/eslovaco. Además, nos gustaría subrayar la ayuda que ofrecemos en chino, japonés y coreano. Mientras que hemos ofrecido ayuda a los webmasters chinos durante un poco más de un año, los foros japonés y coreano sólo tienen unas cuantas semanas de vida. Siguiendo con la tradición, a los guías que supervisan nuestros nuevos foros les gustaría presentarse a la familia global de webmasters [inglés].



Si tienes curiosidad por saber sobre los foros de ayuda en otras lenguas puedes consultar los siguiente enlaces. Esta es la lista de nuestros foros de ayuda para webmasters: árabe, chino, checo/eslovaco, holandés, danés, inglés, finlandés, francés, alemán, judío, húngaro, italiano, japonés, coreano, polaco, portugués, ruso, español, sueco y turco.


Consejos para la solicitud de reconsideración

miércoles 6 de mayo de 2009

Etiquetas: ,

¿Piensas que tu sitio podría haber sido penalizado por alguna actividad que se llevó a cabo en el mismo? Como encargados del equipo de reconsideración, hemos hecho un vídeo para ayudarte a descubrir cómo crear una buena solicitud de reconsideración. También incluimos consejos sobre qué es lo que nosotros miramos. ¡Echa una vistazo al vídeo (incluye subtítulos en español) y haznos llegar tus preguntas a través de los comentarios!



Estudio de investigación sobre sitemaps

lunes 4 de mayo de 2009

Etiquetas:

Hemos estado siguiendo el crecimiento de sitemaps [inglés] en la red. Hace ya dos años desde que Google, Yahoo y Microsoft anunciaron conjuntamente la directiva sitemaps en el archivo robots.txt, y esta es utilizada por muchos millones de sitios web incluyendo sitios web educativos y gubernamentales. En la Conferencia WWW'09 en Madrid, Uri Schonfeld presentó su proyecto sobre los sitemaps desde una perspectiva de cobertura y de actualización. Si estás interesado en saber cómo algunos sitios web conocidos están utilizando su sitemaps y cómo los sitemaps complementan el rastreo web "clásico", echa un vistazo a:

En Google, nos preocupa profundamente aumentar la cobertura y frescura del contenido que indexamos. Estamos muy entusiasmados con los estándares abiertos que ayudan a los webmasters a abrir automáticamente su contenido a los motores de búsqueda, para que los usuarios puedan encontrar contenido relevante en sus búsquedas.

Planes para el 2009 en el equipo de Webspam

jueves 30 de abril de 2009

Etiquetas:

Hace unos meses os preguntamos en qué os gustaría que trabajase el equipo de Webspam de Google durante este año 2009. Pues bien, no sólo hemos preguntado en el blog en español, sino en blogs y foros en otras lenguas a las que damos soporte, y estos son algunos de los temas que nos habéis enviado:
  • Contenido duplicado en los resultados de búsqueda
  • Páginas de resultados vacías en nuestros resultados de búsqueda
  • Enlaces de pago
  • Programas de intercambio de enlaces
  • Dar a los usuarios más responsabilidad para ayudarnos a acabar con el spam
  • Más comunicación con webmasters
Sabemos que son temas complicados y no siempre es fácil encontrar una solución a corto plazo. Sin embargo, ya llevamos tiempo trabajando en algunos de estos temas y ofreciendo mejoras, que esperamos continuen en un futuro. Por otra parte, también hemos escrito sobre algunos de estos temas en nuestros blogs, os pasamos aquí un pequeño resumen:

El año pasado hablamos sobre cómo desmitificar la "penalización por contenido duplicado", y en lo que va del año hemos hablado de sobre cómo evitar problemas de contenido duplicado interno (con vídeo incluido) y sobre el problema del contenido duplicado debido a scrapers. Respecto a las páginas de resultados vacías, Matt Cutts hizo un llamamiento para recopilar ejemplos [inglés] que nos han ayudado a entender mejor el problema; estamos trabajando en ello. Los enlaces de pago también han sido tratados últimamente, concretamente en esta entrada. Y en cuanto a los intercambios de enlaces, hemos querido explicarlo usando el sentido común. Por supuesto, estamos encantados de recibir informes de spam o spam reports, lo cual enlaza con el tema de dar a los usuarios más responsabilidad para ayudarnos a acabar con el spam. ¡Seguid enviando vuestros informes!

Por último, en cuanto a comunicación con webmasters, tenemos este blog, el foro de ayuda a webmasters, que ha sido completamente renovado hace poco y un nuevo canal de YouTube para temas de webmasters con listas de reproducción de vídeos en español y algunos con subtítulos en español. Además podemos adelantar que Esperanza, Rebecca y yo (Alvar) estaremos en SMX Madrid de Junio, esperamos ver a tanta gente como en nuestro Search Masters en México. Para dudas sobre cómo contactar con Google, no dudéis en echar un vistazo a la entrada ¿Cómo contactar con Google?

Seguiremos actualizando este blog con más novedades respecto a estos temas.

¡Saludos!



Enlaces de sitio en una línea

martes 28 de abril de 2009

Etiquetas: ,

Quizás estes familiarizado con los enlaces de sitio que se muestran debajo del primer resultado de búsqueda y los cuales llevan a una página interna del sitio web. Los enlaces de sitio permiten a los usuarios saltar directamente a partes importantes del mismo y los cuales, a menudo, son útiles para sitios web grandes y complejos. Los enlaces de sitio tienen la ventaja adicional de dar a los usuarios un vistazo general del contenido de un sitio web resaltando algunas de las partes más populares de este. Para los webmasters, los enlaces de sitio son además beneficiosos porque ayudan a mostrar partes de la página web que los usuarios podrían no conocer. Por ejemplo, la búsqueda NASA ofrece enlaces a galería de imágenes, una página sobre el transbordador espacial (Space Shuttle) y las misiones ISS, y así sucesivamente:



Hasta ahora, los enlaces de sitio habían aparecido sólo en el primer resultado de búsqueda, y como máximo un solo sitio web podía tener enlaces de sitio para cada búsqueda. Ahora hemos lanzado una extensión: ahora puede aparecer una línea simple de enlaces en los resultados que no mostraban enlaces de sitio antes, incluso para los que no están en la primera posición. Esto significa que varios resultados en una búsqueda pueden tener enlaces de sitio. Hasta cuatro enlaces de sitio pueden aparecer justo encima de la URL de la página, en lugar de las dos columnas debajo de la URL del primer resultado. Aquí hay un ejemplo donde cada uno de los tres primeros resultados tiene una línea de enlaces de sitio:



Esta línea de enlaces de sitio tiene los mismos beneficios que los enlaces de sitio en dos columnas, pero a menor escala: enseñan a los usuarios algunas páginas secundarias relevantes del sitio web y da una idea sobre qué trata. Comparando los enlaces de sitio que aparecen por cada resultado podemos incluso ilustrar la diferencia entre los diferentes sitios web. Como los enlaces de sitio normales, los enlaces de sitio en una línea se generan algorítmicamente y la decisión de cuándo enseñarlos y qué enlaces se van a mostrar se basa por completo en beneficiar a los usuarios.

Para los webmasters, esta nueva característica significa que es posible que sus sitios web empiecen a mostrar enlaces de sitio para un cierto número de palabras clave cuando antes no lo hacían. Esperamos que esto incremente la visibilidad y el tráfico de tu sitio web, a la vez que se mejora la experiencia de los usuarios. Sin embargo, si estás seguro de que prefieres que no se muestre un determinado enlace de sitio, recuerda que siempre puedes bloquear una página para que no aparezca como un enlace de sitio durante 90 días a través de las Herramientas para webmasters. De hecho, como parte de nuestros esfuerzos para mejorar la experiencia con las Herramientas para webmasters, estamos acelerando nuestro tiempo de respuesta para bloquear páginas, así que podrías ver como una página bloqueada desaparece de los enlaces de sitio aún más rápido. Si necesitas recordar cómo se usa la herramienta de bloqueo de enlaces de sitio, échale un vistazo a esta entrada de nuestro blog [inglés]. Por ahora sólo puedes bloquear enlaces de sitio de tu página de inicio de tu sitio web, pero estamos trabajando para expandir esta prestación, así que pronto serás capaz de quitarlas de otras páginas también.

¡Esperamos que encuentres estas mejoras de los enlaces de sitio y de las Herramientas para webmasters útiles tanto para ti como para tus usuarios!

Cómo Google define el envío de IP, la localización geográfica y el encubrimiento

viernes 24 de abril de 2009

Etiquetas: ,

Muchos de vosotros habéis pedido más información sobre las técnicas de webserving (especialmente relacionadas con Googlebot), así que hemos hecho un pequeño glosario con algunos de los métodos menos comunes.

  • Localización geográfica: Servir contenido personalizado a los usuarios basándonos en su localización. Como webmaster, puedes ser capaz de determinar la localización del usuario por las preferencias almacenadas en sus cookies, información correspondiente a sus inicios de sesión o sus direcciones de IP. Por ejemplo, si tu sitio web es sobre béisbol, puedes usar técnicas de localización geográficas para destacar los Yankees a tus usuarios en Nueva York.
La clave es tratar a Googlebot como harías con un usuario normal con localización similar, rango de IP, etc. (por ejemplo, no trates a Googlebot como si viniese de un zona independiente, eso es encubrimiento, cloaking).
  • Envío de IP (IP delivery): Servir contenido personalizado a los usuarios basándonos en su dirección de IP, a menudo porque la dirección IP ofrece información geográfica. Y porque el envío de IP puede ser visto como un tipo específico de localización geográfica se aplican también reglas parecidas. Googlebot debería ver el mismo contenido que un usuario normal vería desde la misma dirección IP.




(Aviso del autor: Este video de 7,5 minutos puede causar somnolencia. Incluso si estás realmente interesado en el envío de IP o en los sitios con múltiples lenguajes, no contiene grandes sorpresas.) El video cuenta con subtítulos en español.
  • Encubrimiento (Cloaking): Servir contenido diferente a los usuarios que a Googlebot. Esta técnica no respeta nuestras directrices para webmasters. Si el archivo que Googlebot ve no es idéntico al archivo que ve un usuario normal y corriente, entonces estas en la categoría de alto riesgo. Un programa como md5sum o diff puede generar un hash para verificar si dos archivos son idénticos.
  • Primer clic gratis: Implementar Google News' First click free policy [inglés] para tu contenido te permite incluir contenido premium o basado en suscripciones en el índice de búsqueda de Google sin dejar de respetar nuestra directrices de calidad. Permites así a todos los usuarios que encuentran tu página mediante la búsqueda de Google que vean todo el contenido de un documento, incluso si no están suscritos. El primer clic del usuario a tu área de contenido es gratuito. Sin embargo puedes bloquear al usuario con un inicio de sesión o petición de pago cuando haga clic en otra sección de tu sitio web.
Si estas usando el Primer clic gratis (First click free), la página que se muestra a los usuarios que llegan desde Google debe ser idéntica al contenido que se enseña a Googlebot.

¿Todavía tienes preguntas? Nos vemos en nuestro forum para webmasters.