Google : technologie pour indexer le Web invisible

Le web invisible est toute la partie des pages internet qui est générée via des requêtes dynamiques cherchant les informations dans les bases de données et que les robots (bots) ne peuvent pour l’instant pas crawler et donc pas indexer. J’espère que cette définition vous plait car j’ai tout donné !

Google a annoncé le 15 avril 2008 via son blog (oui j’ai du retard sur certaines news, toutes mes excuses…) qu’il travaillait sur une technologie capable de comprendre tout ce qui n’est actuellement connu que de réelles personnes comme vous et moi. Les formulaires seront donc pris d’assaut avec les mots contenus dans ledit site internet. Le bot va en quelque sorte reproduite une recherche effectuée par un utilisateur à la différence qu’il ne pourra à priori pas innover puisqu’il prendra, comme dit précédemment, des données déjà présentes sur le site. La technologie sera cependant limitée aux formulaires envoyant les données par l’url (adresse), c’est-à-dire en GET, et non celles envoyées via l’en-tête du site (ie. POST). A noter qu’il sera bien sûr possible de limiter le crawl et donc l’indexation via le simple fichier robots.txt bien connu des webmasters.