Google translate, la politique internationale et les limites du crowd sourcing

Le 24 Oct 2007 à 20h03 | Catégorie : Publié sous | 6 commentaires

Si le crowd sourcing (littéralement “approvisionnement par la foule”) restera dans les esprits comme la principale composante du web 2.0, ce dernier aura au moins eu le mérite d’en démontrer les limites. Une preuve de plus avec ce très joli détournement de la fonction “proposer une meilleure traduction” de Google Translate, qui permet à ce dernier d’affiner son action en utilisant les suggestions de ses utilisateurs pour une traduction donnée : rendez-vous sur Google translate du français vers l’anglais, entrez la chaîne Sarkozy Sarkozy Sarkozy et validez. Amusant n’est-ce pas ? Réessayez maintenant en mettant la chaîne entre guillements, vous obtenez une autre traduction.

sarkozy sarkozy sarkozy donnant blair defends bush

Comme quoi dont’be evil ne signifie pas qu’on ne se permettra pas de faire de bonnes blagues.

[edit] Sources : un channel IRC privé (ça vous avance beaucoup hein ?).

Commenter »

  1. Alexis about 1 hour later:

    Salut, effectivement il semble y avoir toute une polémique à naître au sujet de Google! Je ne sais pas si ça montre les limites du web 2.0, mais ça nous montre bien celles de Google!

    En passant je n’ai pas trouvé de formulaire de contact sur ton blogue, mais je trouve ton contenu intéressant et je voulais t’inviter à joindre la communauté Geekomatik.com, qui est un agrégateur/mashup social de blogs à tendance high tech, internet et “geek”. Au plaisir!

  2. anonymous about 2 hours later:

    Il est illégal de ne pas citer les sources des articles….

  3. Frederic de Villamil about 2 hours later:

    Alexis : ça fait je ne sais pas combien de mois que je me fais spammer par des mails provenant de geekomatic mal encodés me racontant des trucs dont je n’ai strictement rien à faire, au point qu’ils ne passent plus mon spamassassin.

    Anonymous : premièrement ça n’a rien d’illégal, et deuxièmement, ça vient d’un chan IRC privé, ce qui globalement t’avance bien hein ?

  4. Dave about 4 hours later:

    Même si je serais ravi de pouvoir taper sur le moindre concept associable dans la même phrase au terme “Web” suivi d’un numéro de version, ça n’a hélas rien à voir avec du crowd sourcing. C’est en revanche un symptôme assez typique de techniques de traduction statistique comme a décidé d’utiliser Google. Techniques qui cartonnent pas mal depuis quelques années, mais qui ont leur limite dans certains cas, comme l’illustre cet exemple (et une demi-douzaine d’autres, y compris les variantes a base de “Chirac chirac”). Pour faire technique, il y a probablement une histoire Latent Semantic Analysis. Pour faire moins technique, on peut dire que l’armée de singe de Google croit, à tort, que les mots Sarkozy et Blair se retrouvant tous les deux associés au termes “premier ministre” dans leur langues respectives, sont synonymes (idem avec “Sarkozy”, “Bush” et président). Et c’est là qu’on touche aux limites de la stats. C’est aussi là que l’utilisation intelligente de crowd sourcing peut, en fait, arriver à corriger rapidement ce genre d’aberration.

    Fin de la minute technico-pédante.

  5. Jean-Sébastien Mansart about 13 hours later:

    Tiens, ce matin, ça ne marche plus…

  6. Rubix 1 day later:

    Moi, ce que je trouve impréssionant dans tout ça, c’est que des algorithmes de traduction par analyse statistique et sémantique automatisée soient mis en place et fonctionnent assez bien pour qu’on les ait utilisés sans que la qualité des résultats ne les ait trahis autrement que dans des cas dégénérés comme celui-là.

Laisser un commentaire

Merci de vous exprimer dans un français correct. Les commentaires déplacés, injurieux et le spam seront supprimés.

Les trackbacks sont fermés pour cause de spam.