Interprétation à distance : pourquoi choisir un professionnel ?

A l’heure où le futur de nos économies repose sur le maintien et le développement actifs des relations commerciales internationales, quand la presque totalité des échanges professionnels multilingues doit se réaliser à distance, jamais la question de la traduction et de l’interprétation n’a été aussi centrale pour installer des relations de confiance et compenser la suppression du contact direct, en personne.
Car, même si la visioconférence et la traduction automatique sont des outils fantastiques, leurs caractéristiques techniques limitent la fluidité des échanges, qu’il est crucial de restaurer en permettant des interactions rapides et fiables quel que soit le contexte.

La visioconférence un outil d’interprétation à distance visionnaire

Les logiciels de vidéo conférence ont le vent en poupe suite au confinement du printemps dernier et aux restrictions de mobilité, d’abord imposées puis, actuellement recommandées afin de lutter contre la propagation de la Covid 19. L’interprétation en visioconférence suit la même croissance.

Lorsque nous parlons de « vent en poupe » c’est un doux euphémisme si l’on tient compte des chiffres communiqués récemment par Eric S. YUAN, PDG et fondateur de ZOOM Vidéo communications, dans son deuxième exercice fiscal 2020.
En effet si les particuliers l’utilisent gratuitement, Zoom commercialise aussi, et surtout, des solutions pour les professionnels.
La société américaine annonce sur son site que le nombre de ses gros clients (qui compte les entreprises lui ayant rapporté plus de 100 000 dollars de revenus l’année passée) a doublé ce trimestre.

Lundi 31 aout, le titre de Zoom a bondi de 22% après la clôture de la Bourse grâce à des résultats records, annonce l’AFP.

Et ce mouvement ascendant ne semble pas faiblir pour la compagnie californienne, puisque le retour dans les écoles et les bureaux, notamment aux Etats-Unis, se fait très timidement si ce n’est pas du tout. Elle compte sur un chiffre d’affaires compris entre 685 et 690 millions de dollars au troisième trimestre, et des revenus annuels entre 2,37 et 2,39 milliards. Des chiffres qui donnent le vertige.

Ne dit-on pas que le malheur des uns fait le bonheur des autres, certes, mais reconnaissons que les logiciels de visioconférence sauvent actuellement des pans entiers de nos économies.

Et cela n’est pas près de s’arrêter.

En effet, selon l’enquête la plus récente de l’IATA (l’association internationale du trafic aérien), l’industrie du tourisme d’affaires est quasiment au point mort et les chiffres annoncés pour 2021 ne sont guère encourageants. L’association professionnelle prévoit que le trafic aérien d’affaires en 2021 représentera à peine 50% du trafic de 2019, et ce dans le meilleur des cas, s’il n’y a pas de re confinement généralisé.

Il est donc aisé d’imaginer que dans un futur proche, en plus du télétravail et du téléenseignement, la plupart des événements internationaux, conférences, réunions, compétitions sportives et représentations culturelles se réalisera grâce à la vidéoconférence. Il va donc falloir s’y préparer.

La “traduction” est la langue du 21 ième siècle

Depuis les années 2000, en même temps que nous sommes entrés dans la société de l’information mondialisée, nous avons aussi, très logiquement, basculé dans l’ère de la traduction généralisée.

La fonction de la traduction est centrale dans ce mouvement global contemporain car la nécessité de traduire de plus en plus de documents et de catégories de documents différents, de plus en plus rapidement et dans des combinaisons de langues de plus en plus nombreuses, s’impose.
Ce à quoi il faut ajouter que cette tendance est stimulée par les avancés techniques des secteurs du digital et de la communication, les terminaux numériques ainsi que les programmes ou applications se sont démultipliés et diversifiés autant qu’ils se sont démocratisés.

Le moment est donc bien choisi pour approfondir nos usages digitaux en nous penchant en détail sur ces logiciels et plus précisément sur leur utilisation en contexte multilingue, nécessitant des traductions.

Quand des grands noms tels que Google Meet, Microsoft Teams, Skype, GoTo Meeting de LogMeIN, ou Cisco WEBEX ……n’offrent que la fonction de traduction sur « chat » ou automatique par IA, Zoom se démarque en étant une des seules à proposer la fonction d’interprétation simultanée.

En résumé il existe aujourd’hui une gamme très étendue de logiciels mais seulement deux options concernant les échanges multilingues par visioconférence : l’interprétation et la traduction par un interprète professionnel ou la traduction automatique par intelligence artificielle (IA).

Alors quels sont les éléments à prendre en compte pour sélectionner la solution la plus adaptée à nos besoins ?

Pour le savoir il s’agit dans un premier de comprendre ce qu’est la traduction automatique et comment elle fonctionne pour pouvoir ensuite la comparer aux services proposés par une agence d’interprétariat.

Traduction automatique et IA

Alors que peu de gens ne lui accordaient de crédit dans les années 2000, la traduction automatique se retrouve aujourd’hui proposée par toutes les grandes entreprises des nouvelles technologies.

Pourquoi cette soudaine omniprésence et surtout comment ce système fonctionne-t-il ?
C’est cette réponse qui va permettre de se faire une idée précise sur la fiabilité de la traduction par IA et de la meilleure manière de l’utiliser.

Un peu d’histoire : Comment est née la traduction automatique ?

Des spécialistes travaillent sur le sujet de la traduction automatique depuis huit décennies, depuis la guerre froide exactement.
La nécessité de traduire du russe vers l’américain est ce qui a motivé les premières recherches en traduction automatique.
Basée sur l’héritage de la guerre où le déchiffrement des messages allemands a laissé penser qu’il était possible de traduire des messages d’une langue vers une autre, comme on avait traduit des messages cryptés. Le déchiffrement de ces messages cryptés pendant la seconde guerre mondiale a fait faire un bond à l’informatique.

C’est la fameuse histoire de Blentchley Park, qui est le nom du domaine où le gouvernement anglais avait réuni des savants dans le plus grand secret, dont le fameux Allan Turing, pour imaginer une machine qui puisse décrypter automatiquement les messages chiffrés que s’envoyaient les allemands.
Les alliés avaient subtilisé une machine à chiffrer allemande, appelée « Enigma » et ont fait travailler des savants de différentes disciplines pour créer une autre machine qui déchiffrera automatiquement ces messages.
Cette machine sera l’un des premiers ordinateurs de l’histoire. C’est à partir de là, que l’on va associer l’idée de traduire une langue à celle de déchiffrer des messages, ce qui va faire germer l’idée de pouvoir créer un outil automatique qui déchiffrerait, donc traduirait les langues de manière systématique.

Les premiers systèmes de traduction automatique.

Pendant plusieurs années la traduction s’est cantonnée à un système de dictionnaires combinatoires.

Dès le début des années 60 les chercheurs en arrivent à la conclusion que la traduction automatique ne fonctionne pas.

Car dans une langue humaine, tous les mots sont ambigus, donc avant de décrypter il faut résoudre le problème de l’ambiguïté des mots.

Dans le cas d’un message chiffré, ce message est obscur jusqu’à ce qu’on en trouve la clé de déchiffrement et à partir de là tout est clair, mais dans le cas d’une langue il n’y a pas de clé pour lever l’ambiguïté, c’est là que réside toute la difficulté, c’est pour cela que la traduction nécessite une interprétation du sens avant sa traduction et sa restitution.

Même si on ne sait pas exactement d’où vient cette aptitude humaine d’interprétation, on sait que l’ordinateur n’en est pas doté et que donc il se heurte continuellement au problème de l’ambiguïté du sens des mots.

La recherche s’arrête sur ce constat, et pendant plus d’une vingtaine d’années, jusqu’aux années quatre-vingts, ce sujet ne reçoit plus de financement.
Peu de choses se passent donc entre le milieu des années cinquante et la fin des années quatre-vingts.

A la fin des années quatre-vingts IBM qui travaille sur le « pitch to text » (ou comment passer d’un fichier oral à un fichier écrit en anglais), utilise des méthodes statistiques.
Les chercheurs d’IBM se disent que de la même façon que l’on peut passer de l’oral à l’écrit on pourrait essayer de traduire une langue étrangère vers l’anglais.
L’ordinateur va faire des calculs de statistiques qui vont lui permettre d’établir que statistiquement le mot « house » se trouve en face de « maison ». Il en déduit donc que le mot house se traduit par maison. Le procédé est simple. Ce qu’il fait pour des mots, l’ordinateur peut le faire pour des groupes de mots.
En intégrant d’énormes corpus de textes parallèles dans la machine cette dernière établit des correspondances statistiques courantes et parvient à faire de la traduction mot à mot entre des petits groupes de mots.

Donc l’évolution de la traduction automatique est concomitante à l’évolution de la puissance des ordinateurs qui permet de faire des calculs statistiques sur des grandes masses de données. Le développement du web dans les années quatre-vingt-dix procure de grandes masses de datas qui vont être récupérées pour créer des corpus parallèles. Le web devient un corpus.

Et l’IA s’en mêla.

A partir de 2010 le terme « d’intelligence artificielle » (IA) est entré dans le langage commun et son utilisation est devenue banale dans les médias.

L’IA késako ?
Voici la définition trouvée sur le site du Conseil Européen :

« Au sens large, le terme désigne en effet indistinctement des systèmes qui sont du domaine de la pure science-fiction, (comme l’illustrent les films « Transformers » ou IA avec Will Smith, ces IA dites « fortes », sont dotées d’une forme conscience d’elles-mêmes) et des systèmes déjà opérationnels en capacité d’exécuter des tâches très complexes (Traduction automatique, reconnaissance de visage, d’images ou de voix, conduite de véhicule……etc.).

Concernant la traduction automatique, on parlera plus précisément de « deep learning » ou « apprentissage profond » qui est un type d’intelligence artificielle dérivé du « machine learning » (apprentissage automatique) où la machine est capable d’apprendre par elle-même, contrairement à la programmation où elle se contente d’exécuter à la lettre des règles prédéterminées.

Fonctionnement du deep Learning.

Le deep Learning s’appuie sur un réseau de neurones artificiels s’inspirant du cerveau humain. Ce réseau est composé de dizaines voire de centaines de « couches » de neurones, chacune recevant et interprétant les informations de la couche précédente. Le système apprendra par exemple à reconnaître les lettres avant de s’attaquer aux mots dans un texte, ou détermine s’il y a un visage sur une photo avant de découvrir de quelle personne il s’agit.

A partir de 2012, concernant la traduction, la différence de cette méthode de réseaux de neurones (programmes) par rapport à la statistique, c’est que le système va prendre une phrase en entrée et va travailler au niveau de la phrase, donc plus besoin d’assembler des bouts de phrases qui font partie de la banque de données mais c’est la machine qui, à partir des statistiques et des occurrences, va créer des catégories.
Par le calcul, la machine déduit que le mot « chien » correspond à différents noms comme « Labrador, caniche etc.… », ce qui permet de donner une traduction bien plus fiable.

La qualité de la traduction va donc dépendre de deux points : de la masse de données bilingues, les traductions français-anglais seront donc plus alimentées que pour des langues plus rares telles que le japonais ou le russe. Ensuite, le deuxième critère c’est la complexité de la langue. Par exemple quand les mots changent de forme en fonction de leur fonction grammaticale ou de leur nature, comme en latin, allemand, hongrois ou finnois et aussi quand les mots changent de sens en fonction du contexte dans lequel il est utilisé.

Malgré ces progrès, subsiste le problème de l’ambiguïté du sens des mots, au sujet de laquelle la traduction automatique n’a toujours pas trouvé de solution.

Prenons, en français, une phrase syntaxiquement simple pour illustrer l’importance du contexte :

« L’avocat a livré une plaidoirie au vitriol ».

Cette phrase que nous, humains, nous comprenons immédiatement est en fait extrêmement compliquée à traduire pour une machine.

Donc si l’on veut traduire cette phrase il faut arriver à déterminer que « avocat » est un homme de loi et non un fruit, que livrer n’a pas le sens de livraison physique, que « au vitriol » est une sorte d’adverbe qui vient donner une force à ce qui a été dit mais sans que ce soit du vitriol ou que « vitriol » ne soit le destinataire de la livraison.

Pour un être humain ces éléments sont faciles à comprendre mais pour une machine c’est très difficile à décrypter. C’est pour cette raison qu’automatiser la traduction est un défi très ardu à réaliser, car il est impossible de modéliser une langue.

Traduire et interpréter c’est avoir le don d’ubiquité.

Quand deux langues se rencontrent ce sont deux visions du monde qui interagissent, et pour que cette rencontre soit optimale, elle doit se faire dans le respect des particularismes culturels de chacun car, ne l’oublions pas, le premier objectif de l’interprétation est de créer un territoire commun en rendant compréhensible ce qui ne l’est pas, à priori.

Une langue c’est une manière de percevoir et d’organiser le monde.

Selon les linguistes il existerait aujourd’hui entre 6000 et 7 000 langues parlées dans le monde, chacune avec des structures grammaticales et des particularités phonétiques distinctes qui rendent compte de leur représentation du monde.
Certaines de ces langues ne s’écrivent pas, pour celles qui s’écrivent on compte environ une cinquantaine « d’alphabets » et n’oublions pas que beaucoup de langues n’utilisent pas le système alphabétique, comme le chinois par exemple. Il existe donc des manières très diverses de coder la langue à l’écrit.

Ces combinaisons phonétiques, ces manières de coder par systèmes d’écriture ou alphabets, sont le résultat de circonstances historiques dont l’origine a toujours suscité de nombreuses hypothèses et mis à contribution les travaux tant des anthropologues, que des archéologues, des généticiens ou des linguistes.

La langue est fondamentalement la manifestation d’une identité, d’un point de vue, d’un mode de représentations à un instant « t » qui ne saurait être figé.

Bien que nous pratiquions tous au minium une langue, la langue des signes incluse, peu d’entre nous sont capables d’expliquer, de définir leur propre langue et encore moins d’imaginer la diversité des systèmes langagiers qui existent sur notre terre car, le monde est vaste.

Ceux d’entre nous qui ont eu l’opportunité de faire un séjour à l’étranger et de pratiquer une autre langue, reviennent avec la même constatation : c’est en se confrontant à une autre manière de vivre, à une autre langue et une autre culture que l’on commence à comprendre ce que la nôtre a de particulier.
L’apprentissage de notre langue maternelle est un processus spontané que nous n’interrogeons ni ne remettons en question. Notre langue va de soi, jusqu’à ce que nous nous retrouvions dans la situation de confronter nos représentations à celles d’une autre culture.

Les perceptions du temps

Il est intéressant de noter qu’en français le temps correspond à de l’espace, représenté par un espace linéaire allant du passé, situé à gauche, vers le futur situé à droite. Ainsi, en français, comme en anglais, le temps avance de gauche à droite, c’est un mouvement horizontal.
C’est d’ailleurs la raison pour laquelle on dit ce « jour-là » (sous-entendu, là, ce lieu sur la ligne du temps) et « le jour où je suis né » et non le jour quand je suis né, comme c’est le cas dans la plupart des autres langues.

Cette représentation linéaire du temps allant de gauche à droite ne fonctionne pas dans toutes les langues « horizontales ». Il suffit de se référer à l’arabe qui se lit de droite à gauche et qui place ce qui est passé à droite et ce qui est à venir à gauche.

Exemple encore plus frappant, en chinois « plus tôt » est représenté par l’expression en haut et « plus tard » par l’expression en bas, la représentation est donc verticale.

Le rapport aux genres

Il peut exister une multitude de genres : le genre masculin, le genre féminin, le genre neutre, le genre vivant, non vivant, etc.… Le genre est une classification des noms et des pronoms utiles pour faire des accords grammaticaux.

En français, par exemple, le genre masculin est le genre utilisé par défaut lorsqu’il n’y a pas de sexe ou de nom associé, ou lorsque des éléments féminins et masculins se retrouvent sujets.
On dit bien « il pleut » et non « elle pleut » où « rire est bon pour la santé ». Parmi les langues européennes, seul l’islandais attribue systématiquement le genre neutre pour coordonner des êtres humains de sexe différents.

En chinois, il n’y a pas de différence à l’oral entre « elle est chinoise » et « il est chinois ». Il n’y a pas non plus de genre pour les noms. Les mots sont invariables, pas de conjugaison, pas de déclinaison, pas d’accord.

A partir de ces modestes exemples, il apparaît évident que la traduction et l’interprétation sont des processus complexes tant il y a de systèmes d’écriture différents, de règles de grammaire différentes, sans compter les exceptions dans chacun de ses systèmes.

Ce que nous venons d’évoquer, nous amène à considérer toutes les dimensions, non pas du langage mais toutes les dimensions de la communication, tonale, sociale, gestuelle, culturelle, hiérarchique. C’est un processus extrêmement complexe car toutes ses dimensions s’interpénètrent.

Conclusion

Même si la traduction automatique a fait des progrès fantastiques depuis cette dernière décennie, et qu’elle offre une aide ponctuelle très appréciable dans la vie quotidienne, elle est loin de pouvoir offrir un service fiable dans le cadre d’une visioconférence car elle doit relever trois défis majeurs.
En effet, la traduction automatique passe d’abord par une étape de « pitch to text », c’est à dire qu’elle va fournir une version écrite d’un discours oral reconnu automatiquement, et c’est cette version écrite qui sera traduite. Il y a donc 3 fois plus de chances de générer des erreurs, au niveau de la reconnaissance du discours oral, de la version écrite de ce discours et de la traduction finale.

Les connotations, les champs sémantiques, les codes culturels sont autant d’éléments essentiels à interpréter et totalement imperceptibles pour les logiciels de traduction automatique.
Seuls des interprètes professionnels sont capables de comprendre et d’analyser rapidement un texte oral, d’organiser son contenu par ordre d’importance puis de le restituer oralement dans le respect des codes sociaux de la langue cible.

Traduire et interpréter c’est donc avoir le don d’ubiquité, celui d’arriver à naviguer dans plusieurs perceptions du monde à la fois. C’est créer des ponts pour faire coïncider des conceptions particulières du temps et de l’organisation des rapports sociaux.

Sources :
https://investors.zoom.us/news-releases/news-release-details/zoom-reports-second-quarter-results-fiscal
IATA COVID-19 relief : Corporate Travel Management Survey
Babel 2.0 – Où va la traduction automatique ? Signé par Thierry Poibeau
https://lejournal.cnrs.fr/articles/dans-le-secret-des-langues-a-clics
https://fr.wikipedia.org/wiki/Langue_%C3%A0_tons
https://chine.in/mandarin/methode/index.php?lecon=2
https://fr.wikipedia.org/wiki/Langue_agglutinante
https://www.natural-solutions.eu/blog/histoire-du-deep-learning
https://www.coe.int/fr/web/artificial-intelligence/what-is-ai
http://www.axl.cefan.ulaval.ca/monde/origine-langues.htm