L’algorithme BLEU, pour « bilingual evaluation understudy », est une méthode d’évaluation pour les systèmes de traduction automatique. Créé en 2002 par Kishore Papineni, Salim Roukos, Todd Ward et Wei-Jing Zhu, il a rapidement été adopté et est aujourd’hui considéré comme l’une des mesures les plus courantes pour l’évaluation des systèmes de traduction automatique.

L’idée principale de l’algorithme BLEU est de comparer la traduction automatique d’une phrase avec une ou plusieurs traductions de référence. Plus précisément, BLEU calcule la proportion de n-grammes (séquences de n mots consécutifs) dans la traduction automatique qui correspondent à des n-grammes dans les phrases de référence. Les n-grammes peuvent aller de 1 à quelques dizaines de mots, cela dépend de la longueur moyenne des phrases dans les données de référence.

L’algorithme BLEU prend également en compte la longueur des phrases, en pénalisant les phrases plus longues qui pourraient avoir plus de chances d’obtenir des correspondances simplement en raison de leur longueur. La distance de Levenshtein, également connue sous le nom de distance d’édition, est également prise en compte pour s’assurer que les mots sont bien orthographiés et placés dans l’ordre approprié.

La formule de BLEU peut sembler complexe, mais elle se résume à une mesure de proximité entre le texte traduit et le texte de référence, qui dépend à la fois de la qualité des correspondances n-gramme et de la longueur des phrases. La formule est la suivante :

BLEU = BP * exp(sum([log(p_n)]) / N)

Où BP est un facteur de pénalité de brevets qui récompense les traductions plus courtes. Les p_n sont les précisions des correspondances n-gramme pour les n-grammes différents, pondérées par leur nombre d’occurrences dans les phrases de référence, et N est le nombre de n-grammes différents dans les phrases de référence.

L’une des forces de BLEU est sa simplicité. Bien qu’il ne soit pas parfait, il est facile à comprendre et à mettre en œuvre, et fournit une mesure relativement robuste de la qualité de la traduction automatique. Cependant, son utilité dépend de la qualité des données de référence : si les phrases de référence ne sont pas représentatives ou de qualité médiocre, la mesure BLEU peut ne pas être très informative. Cela peut être un inconvénient lorsque l’on travaille avec des langues pour lesquelles il n’y a pas beaucoup de données de référence disponibles.

De plus, les chercheurs et les utilisateurs de systèmes de traduction automatique ont depuis longtemps noté que BLEU peut fournir des scores de qualité élevés pour des traductions qui sont en réalité de mauvaise qualité. Par exemple, un système de traduction automatique peut aisément trouver des correspondances pour des phrases stéréotypées ou simples, mais avoir du mal à comprendre des constructions plus complexes ou inhabituelles. Ainsi, BLEU peut être complété avec d’autres mesures d’évaluation, telles que la mesure de qualité humaine ou la mesure d’évaluation du F1-score, pour obtenir une évaluation plus complète.

En conclusion, l’algorithme BLEU est une méthode précieuse et bien établie pour l’évaluation de la qualité des systèmes de traduction automatique. Bien qu’il ne soit pas parfait et qu’il puisse fournir des scores de qualité élevés pour des traductions de mauvaise qualité, BLEU est simple à comprendre et à mettre en œuvre, ce qui en fait un outil très populaire dans le domaine de la traduction automatique.

Quest'articolo è stato scritto a titolo esclusivamente informativo e di divulgazione. Per esso non è possibile garantire che sia esente da errori o inesattezze, per cui l’amministratore di questo Sito non assume alcuna responsabilità come indicato nelle note legali pubblicate in Termini e Condizioni
Quanto è stato utile questo articolo?
0
Vota per primo questo articolo!