La fonction cache de Google est bien connue des référenceurs : elle permet notamment de se faire une idée de la récence de l’indexation et de voir la page telle qu’indexée par Google. Cela est vrai dans la plupart des cas mais le fonctionnement du cache est en fait bien plus obscur, notamment en ce qui concerne les pages lourdes.

Premièrement, le fait que la version cachée d’une page ne soit pas accessible ne signifie pas que cette page ne soit pas indexée. Par exemple, au moment où j’écris cet article j’ai une page du site Auchan qui ne propose pas de cache dans les pages de résultats Google, alors que la recherche “mot-clé site:www.auchan.fr/nos-rayons” remonte bien le terme recherché dans le snippet (exemple). Ma théorie est que Google possède en réalité deux caches, le cache visible utilisé pour la fonction cache des SERPs, et un cache réel utilisé par l’algorithme.

Deuxièmement, le cache visible est limité en taille. Sur des pages très lourdes, dont le code source dépasse le mégaoctet, la version en cache sera tronquée, ce qui peut occasionner quelques frayeurs. Or une recherche “mot-clé site:www.monsite.fr/urldelapage” trouve bien les mots-clé placés au delà du 1er mégaoctet. Ce qui semble bien confirmer que deux caches sont utilisés par Google.

Troisièmement, le cache utilisé par l’algorithme peut varier dans le temps. Une expérimentation que j’ai menée semble suggérer qu’au début de l’indexation d’une page nouvellement publiée c’est le cache visible de Google qui est employé, en attendant l’indexation effective du second cache. En effet les recherches dans Google m’ont remonté dans un premier temps uniquement les mots-clé placés avant le premier mégaoctet de la page. Un autre fait intéressant, au moins pour les mots-clés rares et mots-clés imaginaires, est que les tous premiers mots-clés semblent être indexés bien plus rapidement que les mots-clés placés plus loin dans le code, même si on est en dessous de la limite de 1 Mo. Cela a probablement à voir avec la constitution de l’index inversé du moteur (le listing de tous les documents comportant un mot-clé donné).

Difficile donc dans certains cas de se faire une idée de ce que voit réellement Google. L’outil “explorer comme Google” de la Search Console n’aide pas vraiment dans le cas des pages lourdes. Le code récupéré ne dépassera pas 250 Ko, ce qui ne correspond pas à une limite connue de l’indexation du moteur.