segunda-feira, 17 de agosto de 2009

Tradução automática para a Internet

O acesso à Internet aumentou enormemente nossas possibilidades de obter informações do mundo todo. Mas nem tudo que está na Internet nos é acessível porque podemos não compreender o conteúdo, escrito em outras línguas. Grande parte do material da Internet está em inglês, e menos de 10% da população mundial têm o inglês como língua materna. Mesmo considerando que muitos já têm conhecimentos rudimentares de inglês, como segunda língua, a maioria da população ainda fica excluída.

A dificuldade no acesso é ainda maior quando o conteúdo está em línguas que usam diferentes símbolos ou alfabetos. Para nós brasileiros, ainda é possível tentar adivinhar um pouco do conteúdo em línguas românicas, como o espanhol ou italiano, mas é impossível sequer imaginar o que contém uma página em chinês, japonês, russo ou árabe. O mesmo certamente se aplica aos povos asiáticos para ter acesso às páginas em línguas românicas, ou em inglês.

Essa barreira da língua para um acesso universalizado ao conteúdo da Internet só pode ser vencida com sistemas de tradução automática. A tradução por humanos é descartada porque não seria factível encontrar tradutores para tantas línguas, que fossem capazes de traduzir tanto material colocado a cada dia na Internet.

Sistemas de tradução automática nasceram praticamente na mesma época da criação dos computadores. Aliás, uma das primeiras tarefas que se imaginou para um computador era a de traduzir textos de uma língua para a outra. A primeira grande iniciativa em se obter tradução por computador foi do governo norte-americano, no início da Guerra Fria. Era uma tentativa de processar de maneira mais eficaz as informações captadas por seus sistemas de espionagem.

Apesar de bastante antiga, a área de tradução automática ainda tem muitos desafios a vencer para que tradutores de boa qualidade sejam gerados. As dificuldades são semelhantes àquelas que mencionei em coluna passada, quando expliquei as razões pelas quais ainda não conseguimos nos comunicar eficientemente com o computador. Tais dificuldades estão normalmente associadas a ambigüidades, tanto de palavras que possam ter mais de um significado, como nos diferentes arranjos das palavras numa sentença.

Um exemplo de problema com tradução que ficou famoso foi a da sentença “O espírito é forte, mas a carne é fraca”, traduzida do inglês para o russo nos primórdios da tradução automática. Em inglês, a sentença era “The spirit is strong, but the flesh is weak”, que foi traduzida para o russo como algo “A vodka é boa, mas a carne está estragada”.

Por que um erro crasso numa sentença tão simples? Acontece que “spirit” em inglês pode ser espírito ou bebida destilada, como uísque ou vodka. E o “is” do inglês pode ser do verbo ser ou do verbo estar. O tradutor automático para o russo acabou por escolher o verbo estar, o que distanciou ainda mais a sentença traduzida do significado da sentença original.

Para melhorar a qualidade de tradutores, hoje empregam-se métodos que vão além daqueles baseados em tradução palavra por palavra. Nesses métodos, determina-se a estrutura sintática da sentença original, que é mapeada numa estrutura equivalente na língua destino. Só então as palavras são traduzidas. Para algumas línguas, a qualidade já é aceitável, principalmente para textos técnicos, ou que não envolvam metáforas, gírias, ou expressões de duplo sentido.

Continua sendo um sonho poder aceder material de várias línguas através da tradução totalmente automática. Da mesma forma que para nos comunicarmos com uma máquina, será preciso esperar décadas para realizá-lo.

Um comentário:

  1. Continuo pensando que será difícil uma maquina fazer uma tradução inglês/português com os neologismos que hoje temos.

    ResponderExcluir