BLEU (acronyme pour « Bilingual Evaluation Understudy ») est un algorithme de mesure de la qualité de la traduction automatique qui a été présenté lors de la conférence ACL (Association for Computational Linguistics) en 2002 par Kishore Papineni et ses collègues. Depuis, cet algorithme est devenu un standard de facto pour l’évaluation des systèmes de traduction automatique.

En quoi consiste l’algorithme BLEU ?

L’algorithme BLEU consiste à comparer une traduction automatique à une référence humaine (ou plusieurs) en calculant un score de similarité. Ce score prend en compte plusieurs critères :

– La précision lexicale : BLEU va comptabiliser le nombre de mots identiques entre la traduction automatique et la référence humaine. Plus il y en a, plus le score sera élevé.

– La précision n-gramme : BLEU va chercher à mesurer la précision de la traduction en prenant en compte les séquences de n mots (avec n allant généralement de 1 à 4). Par exemple, si une phrase contient l’expression « apple juice », BLEU va comptabiliser le nombre d’occurrences de cette expression dans la traduction. Plus le nombre d’occurrences est élevé, plus le score sera élevé.

– La similarité des phrases : BLEU va chercher à mesurer la similarité des phrases entre la traduction et la référence humaine. Pour cela, il va utiliser une mesure statistique basée sur la répétition de phrases dans la référence humaine.

En appliquant ces critères, BLEU va permettre de mesurer la qualité d’une traduction automatique sur une échelle de 0 à 1, le score le plus élevé correspondant à une traduction de très bonne qualité.

Les avantages et les limites de l’algorithme BLEU

L’un des principaux avantages de BLEU est sa simplicité d’utilisation et d’interprétation. Il suffit en effet de comparer une traduction automatique à une référence humaine pour obtenir un score. De plus, BLEU est facilement automatisable, ce qui le rend très utile pour évaluer rapidement et efficacement de grands volumes de traductions.

Cependant, BLEU présente également certaines limites qui doivent être prises en compte. Tout d’abord, il ne prend pas en compte certains critères importants pour évaluer la qualité d’une traduction, tels que la fluidité de la traduction ou la cohérence du discours. De plus, la mesure de la similarité des phrases peut produire des scores biaisés si la référence humaine contient des phrases très répétitives.

Enfin, il convient de souligner que le score BLEU est souvent corrigé en fonction de la longueur des phrases. En effet, il est beaucoup plus difficile pour un système de traduction de produire une traduction de qualité pour une phrase longue que pour une phrase courte. Ainsi, les scores BLEU sont souvent pondérés en fonction de la longueur des phrases.

Conclusion

La traduction automatique est devenue un enjeu majeur dans de nombreux domaines professionnels, tels que l’e-commerce, le tourisme ou la finance. Pour évaluer la qualité des traductions automatiques, les professionnels utilisent souvent l’algorithme BLEU, qui permet de mesurer la pertinence lexicale et grammaticale de la traduction.

Malgré ses avantages et ses limites, BLEU reste aujourd’hui un outil indispensable pour les professionnels de la traduction. Cependant, de nombreux chercheurs continuent de travailler sur des algorithmes plus sophistiqués et plus complets pour évaluer encore plus finement la qualité des traductions automatiques.

Quest'articolo è stato scritto a titolo esclusivamente informativo e di divulgazione. Per esso non è possibile garantire che sia esente da errori o inesattezze, per cui l’amministratore di questo Sito non assume alcuna responsabilità come indicato nelle note legali pubblicate in Termini e Condizioni
Quanto è stato utile questo articolo?
0
Vota per primo questo articolo!