Google Books Ngram Viewer : Corpus de 500 milliards de mots

Fort d’une expérience durant de longues années à numériser des livres via Google Books, qui a notamment permis la très récente disponibilité de Google eBookstore, le géant de la recherche annonce le lancement d’un nouvel outil via ses laboratoires : Google Books Ngram Viewer.

Après avoir scanné 15 millions d’ouvrages, soit plus de 10% de tous les livres jamais publiés à travers le monde, Google dispose désormais d’un corpus linguistique de pas moins de 500 milliards de mots et expressions tiré de 5,2 millions de livres de différentes langues : chinois, anglais, français, allemand, russe et espagnol.

Google Books Ngram Viewer permet précisément aux internautes d’effectuer des recherches dans cette base de données considérable. Les résultats, renvoyés sous forme de graphique, permettent de constater l’évolution des termes précisés – de un à cinq mots – pour la recherche au cours de la période définie dans les critères.

Google Books Ngram Viewer

Le graphique ci-dessus représente ainsi les résultats pour la recherche Strasbourg, Alsace, Allemagne entre 1500 et 2000 du corpus anglais.

Un tableau de liens en bas de page s’occupera de faire la correspondance avec les livres dans lesquels les mots clés de la recherche ont été trouvés.

Une dernière ligne permettra quant à elle de rediriger vers une page web permettant le téléchargement de données des corpus linguistiques concernés par le service, en date du mois de juillet 2009, regroupées selon l’algorithme N-gramme (N-gram) : 1-grams, 2-grams, 3-grams, 4-grams et 5-grams.

Rendez-vous sur la page suivante pour tester Google Books Ngram Viewer.

Source : Blog Google