Google : Indexation et recherche des documents PDF
Où Google en est-il avec l’indexation des documents PDF et la façon dont il retourne ces fichiers en résultat aux internautes lors de recherches au travers du moteur ? Le géant de la recherche revenait il y a quelques jours sur plusieurs points concernant ce format bien connu.
Dans sa volonté de rendre accessible les ressources d’internet, Google commençait à indexer les fichiers PDF en 2001. Des centaines de millions de ces documents sont désormais connus et ressortent donc dans les pages de résultats du moteur de recherche, avec la possibilité en plus des mots clés de limiter les retours à ce seul format via la commande filetype:pdf .
De façon générale, Google indexe tout contenu textuel de PDF, peu importe la langue, à condition qu’il ne soit pas protégé par mot de passe ou encore chiffré. Dans le cas de texte intégré à une image, un algorithme de reconnaissance optique de caractères (OCR) intervient. Les illustrations ne sont quant à elles pas indexées en tant que telles.
Les liens au sein des documents PDF sont traités de la même manière que ceux pouvant se trouver dans une page HTML. Ils distribuent donc PageRank et autres signaux mais ne peuvent être enrichi de l’attribut nofollow.
Pour empêcher ou bloquer une indexation, il convient de faire appel à l’en-tête HTTP X-Robots-Tag: noindex. En PHP par exemple, le code serait le suivant :
<?php header("X-Robots-Tag: noindex"); ?>
Google rappelle de plus l’existence de l’outil de suppression d’URLs disponible dans les webmaster tools pour une plus grande réactivité.
Côté positionnement d’un document PDF dans les pages de résultats, les règles et les possibilités sont les mêmes que celles d’une page web.
Au sensible sujet de la duplication de contenu HTML/PDF (duplicate content), Google conseille plusieurs possibilités :
- Lien de la version préférée dans le sitemap
- Canonical via la balise meta HTML
- Canonical via l’en-tête HTTP
Le titre du snippet de résultat est finalement déterminé à l’aide des deux informations que sont la métadonnée titre du fichier ainsi que l’ancre du lien pointant vers ledit document PDF.
Google conclue l’article en invitant les intéressés à regarder la vidéo de Matt Cutts traitant des bonnes pratiques à mettre en place pour le référencement de PDF.
Pour ma part, je m’interroge sur la non prise en compte de l’en-tête HTTP nofollow permettant théoriquement de bloquer tous les liens…
<?php header("X-Robots-Tag: noindex, nofollow"); ?>
Quelqu’un a-t-il connaissance d’une expérience qui contredirait la communication officielle de Google ?
Source : Google Webmaster Central Blog
Matt dit ici http://www.youtube.com/watch?feature=player_embedded&v=TkopkUPF-M8 que le nofollow n’empèche pas Google d’aller voir la page, voir même de l’afficher dans ses résultats.
Je favorise donc le noindex.