Posicionamiento SEO. ¿Hasta dónde puede indexar Google los archivos pdf?

Posicionamiento SEO. ¿Hasta dónde puede indexar Google los archivos pdf?

Por Oto Whitehead | 23 mayo, 2013

Google puede indexar archivos pdf, de hecho ha tenido la tecnología desde 2001. La gran pregunta que nos hacemos es ¿hasta que punto puede Google indexar con sus arañas un contenido que no es html?

A día de hoy no hay obstáculo para Google bot, así que la publicación de contenidos en este formato no deben de ser un impedimento en tu estrategia de creación de contenidos de calidad para generar tráfico hacia tu web. Veamos con más detalle el alcance de Google para rastrear pdfs.

¿Puede Google indexar cualquier tipo de pdf?

De cara al posicionamiento SEO nos preguntamos si Google puede indexar los archivos pdf. La respuesta es que sí, con alguna excepción. Aquellos pdfs encriptados o con acceso limitado mediante password son inaccesibles para los robots de indexación. La regla que nos propone Google es que si puedes copiar el contenido de un pdf y pegarlo de forma correcta en un editor de textos, entonces es que los robots pueden acceder al pdf.

¿Puede Google indexar imágenes de un pdf?

Google no puede indexar las imágenes de un pdf, a no ser de que tengan una página en html separada para las mismas. Incluso en páginas web, Google no puede indexar imágenes correctamente a no ser de que tengan un atributo descriptivo “Alt”.

¿Puede Google indexar links dentro de un pdf?

Los enlaces dentro de un pdf son tratados de igual forma a un hipervínculo de html. La única diferencia es que los enlaces del pdf no pueden ir acompañados de un atributo “nofollow”, pero sí que pueden pasar PageRank y otras señales de autoridad.

¿Se puede quitar un pdf de las SERPs (resultados de búsqueda)?

Puedes evitar que un pdf sea indexado y puedes además quitar un pdf que ya haya sido ya indexado. La solución es, como para cualquier otro documento que quieras retirar de la vista del robot de indexación, utilizar el siguiente comando en la cabecera del HTTP donde se encuentra la web: X-Robots-Tag:noindex
Esto evitará que el pdf sea indexado por los robots de indexación. En el caso de que ya esté indexado, verás que con el tiempo va desapareciendo de las SERPs

¿Un contenido que existe en formato PDF y HTML es considerado duplicado por Google Bot?

Google dice que sólo una de las versiones es entregada al realizar una búsqueda en Google, de esta forma evita entregar al usuario dos resultados de búsqueda con idéntico contenido.
Cuando tenemos duplicidades de contenidos en html utilizamos la etiqueta “rel=canonical” para determinar a una de las dos como preferida. En el caso de duplicidad de contenido en formato pdf y html o bien utilizamos la etiqueta “rel=canonical” en el html o en el header html con la fuente de pdf.

¿Puede un contenido en formato PDF posicionarse de forma óptima en internet?

Las Páginas en pdf pueden posicionarse muy bien en las SERPs. De la misma forma que una web se posiciona por la calidad de sus contenidos en concordancia con nua búsqueda, así mismo lo harán los formatos pdf.

¿Se puede modificar la forma en la que el PDF se muestra en la lista de resultados?

Son dos los factores que determinan cómo aparece el título en las SERPs que enlaza al archivo. El Metadata dentro del propio pdf y el Anchor text de los enlaces que apuntan al archivo.

Normalmente la preocupación de un posicionamiento SEO (optimizador de páginas web) no ronda por los pdfs. Sin embargo, consciente de que grandes cantidades de información generada por una empresa son distribuidas en formato pdf en internet, debemos maximizar las oportunidades de que dichos archivos sean indexados de forma correcta y por tanto mostrados en los resultados de Google.



Mejora de atracción de tráfico web




Posicionamiento SEO. ¿Hasta dónde puede indexar Google los archivos pdf?

Valora este artículo

Posicionamiento web

, ,

¿Te ha gustado el artículo?

Suscríbete a la newsletter y recibe cada semana los contenidos en tu email.

Comentarios