Responsable

Repérer les textes traduits

Repérer avec google les textes réécrits ou traduits

Publié le 04.05.2006 - Lettre 12

Par Jean-Noël Darde

Il pourrait sembler que les plagiats réalisés à partir de la traduction vers le français de textes récupérés sur Internet dans une autre langue source fassent partie des cas de ces plagiats à l'abri des recherches « googelesques ».

Par ailleurs, dans une autre contribution publiée dans le même site, Frédéric Agnes, un des créateurs du logiciel anti-plagiat compilatio.net, pose « les 10 questions (…) pour bien choisir son logiciel anti-plagiat ». En réponse à la question n°6, « Qu'en est-il des sources traduites ou reformulées » il reconnaît que si « la plupart des logiciels retrouvent les extraits à l'identique, ils ne retrouvent donc pas des passages réécrits ou traduits ».

• Un travail méthodique

Dans le cadre de mes recherches, je suis conduit à travailler sur un corpus d'une trentaine de mémoires de DEA (Diplôme d'Études Approfondies, aujourd'hui remplacé par le « Master recherche ») rédigés entre 2000 et 2005. Une première étape de mon travail consiste à y rechercher toutes les formes de plagiat.

Pour des raisons méthodologiques, je m'interdis, dans une première phase, le recours aux logiciels anti-plagiat tels compilatio.net ou autres (Eve, Turn It in, Urkund, etc.). Je lance des recherches sur Google à partir d'hypothèses de plagiats sur la base de la seule lecture critique des documents étudiés.

C'est pourtant dans cette phase, donc à l'aide du seul moteur de recherche Google, que j'ai pu remonter, avec quelques tâtonnements, mais sans trop de difficultés, aux textes à l'origine de plagiats, en langue anglaise et italienne,

Dans une seconde phase de mes analyses, et pour les quelques documents dont je dispose de la version numérique, j'aurai recours au logiciel anti-plagiat compilatio.net. Ce qui me permettra, une fois la comparaison réalisée avec les premiers résultats issus de la seule lecture, d'apprécier les apports spécifiques de cet outil.

Voici des résultats, liés à l'usage du seul Google, dont on peut d'ores et déjà tirer quelques « recettes », faciles à mettre en œuvre et assez efficaces. Ces « recettes » peuvent être utilisées avec une connaissance très limitées des langues sources comme l'anglais, l'espagnol ou l'italien... Le problème se serait posé différemment avec le japonais ou le coréen.

Mon premier original en langue anglaise a été repéré dans un mémoire dont le simple feuilletage m'avait rapidement convaincu qu'il devait plus à la dextérité du copieur-colleur qu'à ses qualités d'auteur. Les textes de cet étudiant coréen, auteur d'un mémoire intitulé « Vers l'environnement ubiquitaire » connaissait en effet des ruptures de style abyssales.

La meilleure part du mémoire, si j'ose dire, empruntait souvent à nos meilleurs auteurs. Ainsi, mot pour mot, sans les moindres guillemets, ni italiques ou retraits de texte, une page confiée à Merleau-Ponty sous la forme d'un large extrait de La Phénoménologie de la perception.

L'usage répété de Google - phrases placées (avec ou sans guillemets) dans la lucarne de recherche de Google -suffisait à faire apparaître, l'un après l'autre, tous les plagiats serviles (simple couper-coller sans la moindre modification). Mais cette méthode restait impuissante à rendre compte d'éventuels plagiats liés aux parties du mémoires redigées dans une langue beaucoup plus approximative. Un niveau de français qui pouvait d'ailleurs fort bien s'expliquer par la nationalité de l'étudiant.

À cette étape, je n'étais donc pas loin de conclure que les textes bien écrits, environ 50% de l'ensemble du mémoire, étaient systématiquement des textes d'origine « copier-coller », et le reste, écrit dans un français contestable, des textes originaux à mettre au crédit de cet étudiant.

Il restait cependant que l'incohérence générale de l'organisation des chapitres plaidait pour un plagiat total.

Le briquet de Darwin

L'énoncé suivant m'a finalement mis sur la bonne piste. Piste, dont une fois découverte, on s'étonne du temps passé pour la repérer, tant, à posteriori, elle paraît évidente :

« Darwin a observé durant l'un de ses voyages à bord du bateau le briquet en 1830 ce que beaucoup d'autres avaient vu mais n'a pas tiré les conclusions appropriées ».

Si la construction fautive de la fin de la phrase pouvait, là encore, être mise sur le compte d'une mauvaise maîtrise de la langue française, au demeurant assez excusable chez un jeune étudiant coréen, le « bateau le briquet », dans lequel cet étudiant faisait embarquer Darwin pour les Galápagos (la destination était précisée dans la phrase suivante), ne pouvait venir que d'une traduction automatique et calamiteuse de « the Ship the Beagle ».

Le plagiat, produit d'une traduction automatique d'un texte en anglais emprunté sur Internet était donc quasi certain, mais il restait à le prouver de manière irréfutable, c'est à dire à retrouver le texte source sur Internet.

Il est très difficile d'inférer le texte d'origine en langue source à partir des résultats d'une traduction, plus encore dans le cas des traductions automatiques qui prennent beaucoup de liberté avec la syntaxe. Il existe cependant des séquences de signes invariantes dans les textes sources et cibles : les dates, ici « 1830 » par exemple et les noms propres (du moins la plupart, mais attention, si outre-atlantique Darwin reste Darwin, Foucault reste Foucault, Platon devient Plato).

Dans ce cas d'espèce, nous avons fait jouer les noms propres. En effet à la page suivante nous avions :

« Darwin n'a pas compris le mécanisme par lequel la transmission se produisait. Cela devait être figuré par Gregor Mendel, Morgan, DeVries, Thomas, et à notre époque Watson et Crampe qui ont déduit la forme en spirale de la molécule ADN »

Remarquons Gregor Mendel que les Français connaissent comme Georges Mendel et oublions « crampe », ou plutôt « Crick » le complice de Watson dans la découverte de l'ADN, ici très littéralement et logiquement transformé en « crampe » par le logiciel de traduction automatique.

J'ai donc placé, en respectant l'ordre, la suite / gregor mendel morgan devries thomas watson / sans aucun guillemets, dans la lucarne de recherche de Google.

Les résultats étaient très nombreux, ce qui ne saurait surprendre dans la mesure où il s'agissaient de biologistes dont les noms sont susceptibles de cohabiter dans de nombreux travaux et articles. Malgré cela, dès la 7e position de la première page de résultats, s'affichait le site suivant :

Social Darwinism - [Traduire cette page]

This was to be figured out by Gregor Mendel, Thomas Hunt Morgan, DeVries and in our own time, Watson and Crick who deduced the spiral shape of the DNA ...

www.ioa.com/~shermis/socjus/socdar.html - 9k - En cache - Pages similaires

La comparaison du texte du mémoire, avec la version originale de l'article « Social Darwinism » affichée sur ce site, ou à sa traduction automatique, obtenue par la fonction « traduire cette page », ne laissait pas le moindre doute sur l'existence à cet endroit d'un plagiat.

Sur une page et demie du mémoire, la « traduction » du texte original s'affichait phrase à phrase. Concernant les deux courts extraits du mémoire déjà cités, je reproduis ci-dessous les textes anglais d'origine et leur « traduction » proposée sur Internet :

Darwin saw in his epochal trip aboard the ship The Beagle in the 1830s what many others had seen but did not draw the proper conclusions. (…) Nor did Darwin understand the mechanism by which the transmission took place. This was to be figured out by Gregor Mendel, Thomas Hunt Morgan, DeVries and in our own time, Watson and Crick who deduced the spiral shape of the DNA molecule.

Darwin a vu dans son voyage d'époque à bord du bateau le briquet dans le 1830s ce que beaucoup d'autres avaient vu mais n'a pas tiré les conclusions appropriées. (…) Ni Darwin a compris le mécanisme par lequel la transmission a eu lieu. Ce devait être figuré dehors par Gregor Mendel, chasse Morgan, DeVries à Thomas et dans notre propres temps, Watson et Crick qui ont déduit la forme en spirale de la molécule d'Adn.

Compte tenu de ce que les légères variations entre les textes du mémoire et la traduction ci-dessus peuvent provenir de l'utilisation de logiciels de traduction différents, la réalité de ce plagiat et son mécanisme ne pouvaient plus être un seul instant mis en doute.

La méthode ainsi mise au point, il m'a suffit de l'appliquer sur le reste du mémoire dont les plagiats restaient à documenter.

Ainsi, autre exemple, une série aussi relativement banale et apparemment peu « discriminante » que / deleuze guattari lacan marx / lancée sur Google, faisait apparaître, aussi surprenant que cela soit, en tête des résultats l'article de David Amason, Deleuze and Guattari, an Introduction, la source patente du plagiat dont la traduction automatique occupait les pages 70, 71 et 72 du mémoire ainsi passé au crible de Google.

Cette recherche des originaux en langue anglaise, aujourd'hui presque tous documentés pour ce mémoire, m'a permis de conclure que c'était bien la quasi-totalité du mémoire de DEA qui était faite de larges copier-coller : environ la moitié à partir de textes français trouvés sur Internet et le reste à partir de traductions automatiques, rarement révisées, depuis des originaux anglais récupérés et traduits à partir d'Internet.

Dans un autre mémoire de mon corpus, l'envoi sur Google de la série / john rajchman nouvel ito eisenman libeskind /, pêchée dans un chapitre du mémoire en question, a permis d'afficher en tête des résultats, un site qui publie un article de Luigi Centola, titré en anglais (The virtual House competition), rédigé en italien, et accompagné, sur le site lui même, d'une bonne traduction anglaise. La version plagiée dans ce mémoire occupait près de 7 pages. Elle avait été « copiée-collée » à partir d'une traduction automatique de la version anglaise vers le français, puis très mal révisée.

• Agir

La majorité des noms propres, les dates, les résultats chiffrés sont autant de « marqueurs discriminants » disponibles pour une recherche sur Google. Ils sont intéressants comme invariants communs à un texte et à ses traductions. Mais rien n'empêche non plus, dans ce type de contexte, de compléter ces séries à « googeliser » par des mots dont la re-traduction est évidente vers la langue supposée source ; par exemple, en retour vers l'anglais : Plato pour Platon, phylosophy pour philosophie, capitalism pour capitalism, nato pour otan,

Bien évidemment, la même méthode vaut pour les textes qui, sans avoir été traduits depuis une langue source vers le français, ont été « réécrits », depuis le français (a) vers le français (b). Dans ce cas encore, l'usage de Google permet de palier à une faille des logiciels anti-plagiat qui dans ce cas sont pris en défaut.

Google n'est donc pas aussi aveugle qu'on veut bien le dire aux plagiats réalisés à partir de textes réécrits ou traduits, qu'ils soient traduits par des logiciels de traduction ou qu'ils soient bien traduits par l'auteur du plagiat.

Google est un seulement un outil qu'il faut utiliser de manière adaptée aux profils des plagiats que l'on soupçonne.

PLAGIAT ET FRAUDE SCIENTIFIQUE : LA PERSPECTIVE ACADÉMIQUE

Repérer les textes traduits

Directives aux établissements d'enseignement

Navigation

Newsletter