Logotipo do Centro Virtual Camões
Apresentação
Tecnologias e tradução
Recursos em linha
Universidades
Bibliotecas
Revista Tradumática
Normas de qualidade
Aspectos legais
Consultoria


Número 0: Sistemas de gestão de memórias de tradução

O papel das ferramentas de tradução assistida por computador na documentação técnica multilingue
Lidia Cámara, Serviços Linguísticos Star


Introdução

A quantidade de informação digitalizada de que dispomos actualmente e a necessidade de que essa informação seja publicada em diferentes línguas faz com que seja necessário reflectir sobre como deveria ser feita a sua catalogação e a sua classificação enquanto produto da comunicação global multilingue.


As actividades determinantes da comunicação global multilingue mais significativas são a elaboração de documentação técnica multilingue (DTM), a localização de produtos, a realização de campanhas corporativas e publicitárias a nível mundial, a criação de dicionários especializados e a comunicação oral. Estas actividades e as relações que estabelecem entre si mostram a sua complexidade e a necessidade de serem sincronizadas.


Neste artigo, limitar-nos-emos a descrever as diferentes características associadas à produção de DTM, que, sem dúvida, partilham aspectos com todas as actividades integradas na comunicação global.


A análise dos problemas e dos desafios vinculados à DTM permitirá a compreensão dos motivos pelos quais as ferramentas de tradução assistida por computador estão a ser desenvolvidas de forma cada vez mais sofisticada. Comentaremos também as razões que fazem com que estas ferramentas constituam uma solução imprescindível para cumprir as exigências da produção de DTM.


A filosofia na qual se apoiam as ferramentas de tradução assistida por computador, orientada nos três conceitos reutilização, integração e intercâmbio de informação, e que também deveria ser aplicada à produção de DTM, derivasobretudo da ideia de estruturar a informação mediante padrões (XML, TMX, MARTIF, OLIF) para conseguir um denominador comum.


Para finalizar, abordaremos algumas diferenças conceptuais e funcionais das ferramentas de tradução assistida por computador com o objectivo de traçar alguns critérios que possam servir como ajuda para decidir qual o melhor modelo de acordo com as nossas necessidades.



Exigências e desafios associados à produção de DTM

   
"The distinction between what is product, what is marketing, and what is technical material is becoming increasingly blurred" (Brooks: 1997)


As exigências do mercado mundial modificaram-se nos últimos anos no contexto da Sociedade da Informação, tornando absolutamente imprescindível a adaptação da capacidade técnica às novas necessidades da comunicação global. Contudo, ainda é preciso superar o uso do inglês como língua franca e incorporar outras línguas determinantes em diferentes mercados com o objectivo de a informação não ter fronteiras.


A crescente produção de documentação técnica multilingue não é simplesmente consequência da vontade de algumas instituições e empresas de estar em todos os mercados através de, por exemplo, sítios web multilingues. Em muitos casos, deve-se aos requerimentos legais dos mercados internacionais.


A União Europeia, por exemplo, já há vários anos exige que todos os produtos comercializados dentro do continente tenham a etiqueta CE, de certificação de qualidade, que corresponde ao cumprimento da normativa estipulada para cada produto. Além dos requisitos de qualidade impostos, é obrigatório que todos os produtos introduzidos no mercado europeu contenham as suas especificações descritivas e técnicas na língua do país.


Esta nova perspectiva não afecta unicamente os países da União Europeia, mas também outras comunidades económicas internacionais como os países integrantes do Tratado de Livre Comércio norte-americano, assinado pelos Estados Unidos, Canadá e México, ou o Mercosul, acordo entre os países do Cone Sul-americano (Argentina, Uruguai, Chile, Paraguai e Brasil), por exemplo.


Esta crescente exigência de documentação técnica multilingue faz com que as empresas, organizações e instituições de carácter regional e internacional possuam estratégias e ferramentas para a gestão de imensos volumes de informação que devem ser sistematizados para sua posterior tradução.


Uma análise prévia dos aspectos que confluem e afectam a produção de DTM na actualmente permitirá estudar as dificuldades que esta representa, no sentido de delinear uma possível estratégia que ajude a optimizar essa produção.


Em primeiro lugar, a gestão corporativa das empresas deve entender a geração de DTM como parte do desenvolvimento dos seus produtos, devido às já mencionadas exigências legislativas impostas por alguns mercados que têm incidência nos prazos previstos para o lançamento dos produtos no mercado.


Contudo, além de cumprir prazos cada vez mais curtos, a gestão documental opera com volumes enormes de informação muito repetitiva. A produção de especificações técnicas descritas em detalhe cumpre a norma legislativa, além de permitir que o utilizador explore todas as possibilidades funcionais de qualquer produto. Não se pode pressupor que o utilizador tenha qualquer conhecimento relacionado com o produto com o qual se deve familiarizar. A informação constrói-se, então, sempre com base em alguma coisa básica e, com o tempo, vão-se encadeando instruções infinitamente repetidas na documentação.


Para poder operar com estes grandes volumes de informação em pouco tempo é preciso ter os recursos linguísticos estruturados, especialmente os terminológicos, com o objectivo de favorecer a coerência do conteúdo para a sua posterior tradução.


Outro dos desafios que enfrenta a produção de DTM está relacionado com os numerosos formatos e plataformas de armazenamento incompatíveis entre si nos quais a informação que deve ser tratada é armazenada de forma digital. O fluxo de produção pode sofrer interrupções quando aparecem formatos que o utilizador desconhece e que ele deverá traduzir, ou simplesmente quando ele não possui os programas específicos que permitam editar os dados.


A convergência de diferentes tipos de documentação e a participação conjunta de canais de distribuição é outro dos desafios que apresenta a produção de DTM. Nas empresas de estrutura tradicional, cada departamento, como por exemplo o de marketing, o de vendas e o de serviço pós-venda, tem seu próprio tipo de documentação, o seu próprio formato de armazenamento e diferentes canais para a distribuição de informação e para a comunicação com o cliente. O aproveitamento da informação vê-se dificultado pela falta de comunicação documental entre os diferentes departamentos, provocando problemas de coerência estilística e terminológica, às vezes difíceis de resolver.


A necessidade de publicar a documentação técnica em diferentes meios é cada vez maior: em papel, em rede, nas ajudas em linha, em CD-ROM ou em microfilmes. Embora o seu valor informativo se entrecruze, o seu reaproveitamento é difícil não só por causa dos diferentes tipos de armazenamento usados, mas também pela diferença que existe na forma de estruturar a informação, por exemplo num sistema de ajuda ou numa página web.


No caso específico de produtos informáticos, um dos desafios da produção de DTM é que a tradução das suas especificações técnicas para outras línguas não afecte a engenharia do produto ou, pelo menos, que as alterações sejam mínimas. Esta tarefa, conhecida como internacionalização, é uma das condições para a optimização da DTM de um produto. De igual modo, simplifica a adaptação e tradução dos produtos num mercado específico, respeitando as convenções e os aspectos culturais, processo conhecido como localização.


A imersão dos aplicativos informáticos em muitos outros desenvolvimentos técnicos obriga a extrapolar estas considerações referentes à internacionalização destes produtos. Basta pensarmos, por exemplo, na tela interactiva dos telemóveis de última geração ou nos manuais de reparação em CD-ROM publicados pela maioria das multinacionais, por exemplo os que se relacionam com o mundo automóvel.


O cenário descrito mostra a complexidade dos factores que intervêm na produção de DTM. Esta situação criou a necessidade de produzir simultaneamente a documentação e as ferramentas para o tratamento multilingue dessa documentação em todos seus aspectos, da geração do documento à sua manipulação e publicação, como se comentará no item seguinte.



Condições para o desenvolvimento da engenharia linguística: as ferramentas de tradução assistida por computador

Entre as ferramentas integradas na engenharia linguística, são as ferramentas de tradução assistida por computador as que mais proliferaram nos últimos 15 anos, por serem decisivas na produção de DTM. Nesse sentido, não se pode esquecer a importância dos sistemas de tratamento de textos, que, sem dúvida, foram as primeiras ferramentas a beneficiarem das contribuições relacionadas com as disciplinas vinculadas à engenharia linguística (introdução de correctores ortográficos e de estilo, incorporação de módulos de sinónimos e antónimos, etc.). Contudo, consideramos que estes sistemas estão relacionados com a Tecnologia da Informação e não serão comentados no presente artigo.


Estas ferramentas encaixam na disciplina conhecida como engenharia linguística (também chamada informática aplicada à linguística e tecnologia da linguagem) que tem um carácter multidisciplinar. A engenharia linguística aproveita o conhecimento desenvolvido no contexto informático do processamento da linguagem natural (PLN) e do contexto linguístico que compõem as disciplinas da tradução, da terminologia e da linguística computacional, tanto no sentido teórico como prático.


O auge da engenharia linguística e das suas aplicações tecnológicas associadas, especialmente as relacionadas com a tradução assistida por computador e com a gestão de recursos linguísticos multilingues, sobretudo terminológicos, não é um acaso, é o resultado da previsão das empresas de serviços que souberam perspectivar a tradução e a engenharia linguística como um negócio próspero, graças à optimização do fluxo de trabalho com as ferramentas tratadas neste artigo. Estas empresas designadas indústrias da língua e os seus projectos de desenvolvimento recebem ajudas financeiras institucionais de até 50%. As ajudas de pesquisa que absorvem as indústrias da língua reflectem também a necessidade institucional de criar estratégias para solucionar os problemas de tempo e custos relacionados com a produção de DTM.



Vantagens das ferramentas de tradução assistida por computador

As ferramentas de tradução assistida por computador oferecem uma optimização da produtividade no processo de tradução graças à automatização dos processos repetitivos. Por outro lado, aumentam a produtividade graças à reciclagem (reutilização) da informação obtida mediante traduções prévias, pelo aproveitamento da estrutura e do formato dos documentos originais gerados automaticamente.


Dependendo do tipo de sistema de tradução assistida utilizado, a qualidade do produto final também pode ser optimizada. Estes sistemas podem integrar módulos e funções cuja aplicação afecta diretamente a qualidade de trabalho devido à melhoria da homogeneidade do estilo e da terminologia em grandes volumes de documentos. No item Comparação conceptual e funcional das ferramentas de tradução assistida, explica-se a importância da integração modular num ambiente ao serviço das necessidades da tradução.


Um dos problemas que já se mencionou quando se descreveram as características actuais da produção de DTM está relacionado com a diversidade dos formatos utilizados para a sua elaboração. As ferramentas de tradução assistida resolvem este problema mediante a incorporação de filtros de conversão num ambiente sempre familiar para o utilizador destes sistemas.


Os sistemas de tradução assistida facilitam o trabalho intelectual e mecânico relacionado com a tradução de uma forma tão eficaz que ultrapassa a capacidade dos humanos. A qualidade dos resultados é excelente, dado que o que se reaproveita são as traduções feitas por um profissional humano, ao contrário do que acontece com as ferramentas de tradução automática.


Além do uso destas ferramentas na produção de DTM, dá-se cada vez mais importância à gestão de memórias de tradução, devido às suas outras possíveis aplicações. Por exemplo, estão a ser elaborados projectos para a realização de dicionários bilingues baseados em corpus paralelos que, de facto, não passam de memórias de tradução. Também há projectos para integrar esses dados nos sistemas de tradução automática com futuro, baseados em corpus paralelos gerados com memórias de tradução. Já existem interfaces que integram os sistemas de tradução assistida com os de tradução automática. Por exemplo, a Logos, empresa de tradução automática, e a STAR criaram uma interface com estas características com a ajuda do sistema Transit, onde se constata que a independência de plataformas e o uso consequente de padrões contribui para uma melhor integração das memórias de tradução com os sistemas de tradução automática e vice-versa.



Intercâmbio de memórias de tradução e necessidade de padrões

Quando foram descritas as características associadas à DTM, indicámos a necessidade de os fluxos de informação entre os diferentes departamentos de uma empresa ou de uma organização serem multidirecionais, ou seja, que houvesse uma ligação entre os diversos tipos de documentação e os seus canais de distribuição. Também mencionámos que a DTM é, hoje em dia, publicada em diferentes meios: em papel, na rede, em ajudas em linha, em CD-ROM e em microfilmes.


É evidente que é necessária uma ferramenta para a reutilização, a integração e o intercâmbio de informação.


Numa corporação, como por exemplo uma agência de tradução, cujo capital está baseado na disponibilidade de seu conhecimento, qualquer erro na gestão dos dados pode ser devastador. Portanto, é rentável o investimento numa tecnologia que garanta o reaproveitamento dos dados já processados, neste caso das memórias de tradução e das bases de dados terminológicas, com capacidade para serem permutados independentemente da plataforma.


Tais requisitos foram atingidos nos últimos anos graças aos imensos desenvolvimentos das tecnologias de informação e da Internet. A transferência de informação no contexto da comunicação global conta com um meio revolucionário e de fácil acesso destinado ao intercâmbio comercial, cultural e científico do mundo inteiro. Para isso, foi utilizado um formato de intercâmbio de informação em HTML que é uma Definição de Tipo de Documento (DTD) desenvolvida a partir da metalinguagem SGML.


O conceito de DTD tem uma marca descritiva específica das características de um determinado grupo de interesse; isto é, utiliza-se para representar de forma intuitiva as etiquetas disponíveis para o tratamento da informação com uma demarcação temática e funcional determinada.


A metalinguagem de marcas SGML é uma das respostas às necessidades criadas pela Sociedade da Informação. Trata-se de uma gramática universal para organizar a estrutura geral de um documento. Esta metalinguagem internacional padrão para linguagens etiquetadas incorpora-se como norma ISO em 1986 com o objetivo de administrar a informação publicamente, sem se restringir a um modelo ou a um fabricante determinado, já que todos entendem esta codificação, que é reutilizada e que permite optimizar o processo de digitalização dos recursos linguísticos.


Com esta solução de linguagem de etiquetas comuns, também é possível o intercâmbio de informação das intranets e das extranets, facilitando a sincronização dos conteúdos.


As estratégias técnicas usadas na rede crescem continuamente em função dos aplicativos, cada vez mais integrados, que os utilizadores encontram nesse meio. Devido à crescente necessidade, o HTML já é insuficiente para representar, por exemplo, a informação com arquivos multimédia incluidos. Por isso, em 1996, um grupo de trabalho contratado pelo consórcio do WWW desenvolveu o XML, uma forma simplificada do SGML, ou seja, uma metalinguagem com possibilidades abertas de criar DTD para fins específicos. O formato XML foi pensado para cobrir as necessidades de transferência de informação tanto na rede como em todos os ambientes.


Desta forma, a informação codificada em XML, por exemplo, pode ser publicada em qualquer formato sem perder dados e sem a necessidade de fazer conversões complexas, além de poder ser armazenada para uma posterior manipulação.


O uso de formatos padrão de intercâmbio é a estratégia de trabalho da Indústria da Língua em que se está a apostar mais nos últimos três anos, graças aos resultados que oferece na reutilização, integração e intercâmbio de informação.


Em 1998, com o apoio do consórcio LISA (Localisation Industry Standards Association), no qual participam os fabricantes e utilizadores mais importantes das ferramentas para a tradução assistida e outros relacionados com a engenharia linguística, nasceu a especificação do formato Translation Memory eXchange (TMX). Este formato standard de intercâmbio de memórias de tradução é um DTD escrito utilizando XML. Hoje em dia, os produtos mais importantes deste sector dão suporte a este padrão, embora nem todos o façam de igual forma.


A gestão terminológica afecta o processo de redacção e de tradução. Conscientes disso, os membros do consórcio LISA também trabalham na criação de um formato de intercâmbio de bases de dados terminológicas, chamado TBX. Esse DTD, também escrito em XML, possui o DTS standard MARTIF (ISO 12200) para o intercâmbio de bases de dados terminológicas orientadas para humanos, no qual se inscreve o formato OLIF, nascido do projecto Otelo com o objectivo de se tornar o padrão de intercâmbio de bases de dados de lexicais orientadas para a tradução automática.


A consequente aplicação de normas no desenvolvimento das ferramentas de tradução assistida é um dos grandes desafios actuais, não só das empresas que desenvolvem estes sistemas, mas também de todas as empresas que geram documentação ou que a traduzem e adaptam a outras línguas em benefício da comunicação global.


Mediante um padrão comum que garanta um reaproveitamento de todas as memórias de tradução com independência da ferramenta utilizada para sua geração e gestão, observa-se um aumento do valor capital da informação devido às suas possibilidades de permuta e à sua manipulação simplificada, por se tratarem de arquivos com o mesmo tipo de formato.


O processo total desta produção de documentação técnica, no qual participam tradutores para diferentes línguas, correctores, técnicos especialistas nas matérias, editores, designers gráficos, beneficia destas especificações, conseguindo mais agilidade no fluxo de trabalho e tornando mais transparente e inequívoco o intercâmbio de informação.


Mediante o uso de padrões de intercâmbio, no futuro, o cliente terá mais liberdade para decidir quem gerirá, por exemplo, as actualizações dos seus produtos, e as empresas de tradução ou os tradutores autónomos não estarão obrigados a adquirir todos os sistemas de tradução assistida do mercado, podendo optar por qualquer um que admita pelo menos o TMX e o MARTIF.


Em resumo, as empresas devem considerar o seu arsenal de informação como um capital inerente à própria empresa, com uma capacidade de rendimento crescente em função do nível de intercâmbio dos seus recursos linguísticos com outras plataformas, e também devem ter em conta o facto de que eles podem ser reutilizados para serem publicados em diferentes suportes.



Comparação conceptual e funcional das ferramentas de tradução assistida

No início, acreditava-se que todas as ferramentas de tradução assistida eram iguais, e embora os diferentes sistemas de tradução assistida tenham introduzido paulatinamente desenvolvimentos cada vez mais similares, é importante analisar as ferramentas que existem no mercado e avaliar criteriosamente as suas vantagens e inconvenientes.

  • Integração do editor no sistema de tradução assistida

O editor de tradução pode ser independente de qualquer programa de processamento de textos e integrado no sistema de tradução assistida, como acontece na maioria dos sistemas de tradução assistida. Também pode acontecer estar integrado num processador de textos comum, como o programa de tradução assistida da empresa TRADOS.

  • Integração do programa de gestão terminológica no sistema de tradução assistida

O gestor terminológico pode estar totalmente integrado no editor de tradução, como acontece com o programa TermStar integrado no Transit. O sistema procura constantemente termos, de forma sincronizada com a unidade de tradução na qual está o tradutor. A procura pode ser de equivalências para termos na mesma língua de destino ou multilingues. Assim, por exemplo, se o tradutor está a traduzir um texto do inglês para o catalão e não possui um termo na língua de destino, mas sim o equivalente no espanhol ou no francês, poderá derivar por associação linguística o termo correspondente em catalão. O tradutor, além de incorporar no editor de tradução os termos encontrados nos dicionários especializados, carregando simplesmente numa tecla, também pode introduzir uma nova terminologia com o rato.

  • Motor usado pela memória de tradução

Em relação ao tipo de motor usado pela memória de tradução existem no mercado três classes de gestores de memórias de tradução: o estático, que identifica somente as equivalências que coincidem na sua totalidade, ou seja, 100%; o interactivo, que identifica equivalências parciais conforme a percentagem de coincidência definida; e a combinação de estático e interactivo. É óbvio que o modelo combinado oferece os melhores resultados.

  • BD em comparação com o método aberto XML

Outro dos aspectos que pode ser importante ao adquirir uma ferramenta de tradução assistida é saber qual o tipo de armazenamento que utilizam as memórias de tradução, conhecendo sempre as vantagens e as desvantagens dos que se usam actualmente. A maioria dos sistemas de tradução assistida funciona com uma base de dados, exectuando a Transit, que funciona com arquivos XML e que usa o standard XML com Unicode para o formato de texto.

O standard Unicode com uma codificação de 16 bits é a solução para que as máquinas do mundo inteiro possam comunicar entre si. É independente da plataforma, do programa e da língua usados. Os fabricantes mais importantes de hardware e de software (Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP e Sun) já trabalham com este sistema de codificação que se tornou o requisito para os standards modernos como o XML e o Java.

A forma de armazenamento utilizada pode afectar o fluxo de trabalho. A possibilidade de as bases de dados se alterarem com o consequente risco de perda de dados, é bastante frequente; porém, os arquivos em XML não correm esse perigo.

O modelo XML oferece dados independentemente de qualquer plataforma, tornando viável qualquer manipulação desses dados para outros fins. Essa linguagem permite, no nível meta-semântico, incluir dados lógicos de classificação dos conhecimentos no fluxo de dados, por exemplo, para utilizar as memórias de tradução codificadas em XML, integrando-as noutros sistemas de objectivos linguísticos diferentes dos da tradução; além de ser a linguagem do futuro imediato na Internet, como já comentámos anteriormente. Portanto, oferece uma maior liberdade para agrupar pacotes de dados, como pistas de áudio ou vídeo, de dados gráficos, etc., em arquivos de texto ou vinculá-los para facilitar os efeitos multimédia.

A administração e a gestão das bases de dados requerem um perfil especial, já que, por um lado, a estruturação das bases de dados pode ser bastante complexa para um utilizador e, por outro, complica-se a actualização no caso de se querer retirar as más traduções das memórias de tradução armazenadas em bases de dados. Outra das desvantagens do modelo de bases de dados está relacionada com a impossibilidade de se aceder ao contexto original das memórias de tradução armazenadas, enquanto o modelo XML permite o acesso directo às memórias de tradução contextualizadas.

A velocidade do fluxo de trabalho é consideravelmente maior com o modelo XML do que com o modelo de bases de dados. Tratando-se de arquivos abertos independentes da plataforma, estes podem integrar-se em outras das tarefas que se repercutem directamente em todo o processo de trabalho, como por exemplo na administração ou na gestão.


Conclusão

A análise sistemática do ambiente específico da DTM ajuda a estabelecer o contexto no qual se enquadra a actividade e constata a relação cada vez mais estreita com as outras actividades vinculadas à comunicação multilingue, assim como a necessidade de se aplicar a ideia de
reutilização, integração e intercâmbio de informação em todos os âmbitos. Para poder levar estas tarefas a bom termo é preciso estruturar a informação com formalismos padrão de grande flexibilidade pela sua independência em relação à plataforma e ao fabricante, e de grande difusão. O XML é a solução para homogeneizar todas as estruturas de informação. O TMX e o MARTIF são os DTD de XML específicos que descrevem as estruturas que participam no processo da DTM.


As indústrias da língua têm tendência a incorporar os padrões para estruturar a informação nas ferramentas de tradução assistida. Estes sistemas são uma das soluções mais eficazes para as necessidades actuais de DTM. A eficácia da sua produção levou a considerar a aplicação das memórias de tradução como estratégia a utilizar nos processos de tradução automática ou na criação de dicionários bilíngues baseados em corpus paralelos.


O grau de integração de todos os processos que interferem na produção de DTM e, por conseguinte, com a possibilidade de serem automatizados será um dos mais ambiciosos desafios na avaliação do sistema de tradução assistida no âmbito da produção profissional.

   
Outubro 2001

Voltar ao início



Lidia Cámara | Karl Heinz Freigang | Sílvia Fustegueres | Ingemar Strandvik
Jorge Marcos | Pilar Sánchez-Gijón | Gemma Capellas
Josu Gómez | Joseba Abaitua