Centro de Recursos de Tradumática

Apresentação

Tecnologias e tradução

Recursos em linha

Universidades

Número 0: Sistemas de gestão de memórias de tradução

Memórias de tradução em TMX partilhadas na Internet
Joseba Abaitua, Grupo DEli - Universidade de Deusto

Introdução

Na tradução automática, é comum afirmar-se que a qualidade é incompatível com a abrangência, ou seja, que o desenvolvimento de sistemas que traduzam textos em âmbitos restringidos (como as informações meteorológicas) é mais ou menos viável, mas a ampliação do âmbito sem perca de qualidade é muito complicada, senão impossível. A maioria dos analistas sustenta que este problema é praticamente irremediável devido à variedade de estilos, registos, interpretações, etc. que podem existir nos textos mais generalistas. O mercado actual de software de tradução reflecte também esta situação perfeitamente. Contudo, a comunidade científica dispõe dos conhecimentos teóricos e tecnológicos para que esta limitação termine brevemente. O problema a ser resolvido não é de natureza científica nem tecnológica, mas logística. A solução foi sugerida recentemente em Language International 10.6 por Minako O'Hagan, autora de The coming industry of teletranslation, e consiste em converter a Internet numa imensa memória de tradução.

Neste artigo, vou tratar das condições que deveriam ocorrer para que isto seja possível. Para isso, em primeiro lugar, vou analisar o conceito de equivalência em tradução. Vou contradizer alguns supostos mal-entendidos entre os especialistas para propor uma visão alternativa mais ampla. A seguir, serão apresentadas as noções básicas da tecnologia de memórias de tradução em TMX com alguns exemplos. Concluirei revendo os conceitos surgidos na área de desenvolvimento de software livre e copyleft, que devem ser adoptados para que a proposta possa superar impedimentos de ordem legal, relacionados com a propriedade intelectual de textos originais e traduções.

O problema da equivalência

Uma das premissas mais enraizadas na história da tradução automática é a consideração de que a tradução é fundamentalmente um problema de equivalência semântica. Esta premissa, que remonta a Leibniz e que adoptaram Frege e Montague, pais da semântica contemporânea, baseia-se no pressuposto de que todas as línguas do mundo partilham uma mesma sub-estrutura lógica. Também é considerado que se fôssemos capazes de descobrir e formalizar esta subestrutura, o problema da tradução estaria resolvido.

Movida por esta crença durante várias décadas, a comunidade científica internacional centrou a sua atenção no problema da equivalência conceptual, fosse mediante representações neutras e comuns - técnica da interlíngua - ou projectando representações intermédias entre pares de línguas - técnica de transferência. Entre os modelos mais utilizados para o tratamento computacional da semântica é preciso destacar: redes semânticas (Simmons e Slocum, 1972), preferências semânticas (Wilks, 1973), gramáticas de caso e valências (Somers, 1987), representações conceptuais (Carbonell et al, 1981; Nirenburg et al, 1985), transferência léxica (Melby, 1988; Alonso,1990), semântica léxica (Dorr, 1993) e desambiguação léxica (Masterman, 1957; Amsler e White, 1979).

Estas referências são somente uma amostra da vasta produção científica que, embora com aplicações em outras áreas da linguística computacional, foi na tradução automática provada de forma mais intensa. Contudo, apesar da excelência atingida no plano teórico, os resultados práticos dos sistemas desenhados têm sido insatisfatórios. Trata-se de uma situação que só alguns observadores autorizados dentro da comunidade científica, como Melby (1995) ou Kay (1997), tiveram a coragem de assinalar, como crítica encoberta aos seus próprios colegas. Com diferentes matizes, ambos os autores defendem que a metodologia empregada é inapropriada, mas foi Melby quem de forma mais explícita questionou a hipótese da universalidade conceptual entre as línguas. Melby duvida da existência de unidades conceptuais universais, comuns a todas as línguas, e conclui que este método é utópico para a tradução automática.

Os tradutores profissionais sempre duvidaram destes métodos, como se observa em alguns dos concorridos fóruns da Internet (Lantra-I). Além do mais, no campo da tradutologia, existem estudos recentes que descrevem outros níveis de equivalência de não menos importância que o semântico. Nord (1993), como autora mais destacada no estudo da equivalência em tradução, propõe mais duas dimensões: a equivalência estilística e a equivalência pragmática. Por outro lado, Hatim e Mason (1990) insistem na importância de considerar que a tradução é uma questão principalmente pragmática, mais do que simplesmente linguística, e propõe um nível mais abstracto de equivalência, no plano dos símbolos sociais e culturais, isto é, da semiótica.

A unidade de tradução

Este debate sobre a equivalência introduz outra questão polémica, a unidade de tradução. Se considerarmos que a tradução consiste fundamentalmente em relacionar representações semânticas de textos em diferentes línguas, parece óbvio que a unidade de tradução deveria ter uma dimensão conceptual. Essa foi a crença que prevaleceu durante anos, como se pode observar na bibliografia especializada (Bennett, 1994). No âmbito da tradução humana, Vinay e Darbelnet (1958) e Vázquez Ayora (1977) são duas referências obrigatórias que já incluíam, sob outras definições, padrões de categorização, construções colocativas, lexias complexas e expressões idiomáticas como unidades. A definição de Vinay e Darbelnet estabelece a unidade como "o menor segmento do enunciado, no qual os sinais apresentam tanta coesão que se fossem traduzidos por separado, não se entenderiam". Ou seja, equipara a unidade de tradução à unidade de significado, que ao mesmo tempo se corresponde com a unidade lexicográfica. Todavia, esta abordagem é limitada e não pode dar conta de unidades maiores ou mais complexas, nem de dimensões diferentes da semântica.

Com o propósito de pôr um pouco de ordem na variedade, eu costumo sugerir aos meus alunos a seguinte classificação de unidades de tradução:

a. Categorias morfossintácticas: a unidade básica em todos os sistemas de tradução automática, geralmente é a palavra (também chamada de lexia simples). As categorias morfossintáticas permitem estabelecer abstracções sobre as palavras (the/o > Det; eye/olho > N; happy/feliz > A; eat/comer > V; over/sobre > P) e são a base das gramáticas de estrutura sintagmática: SN = Det N.

b. Subcategorias: dentro de cada categoria existe uma grande variedade de comportamentos, a maior parte dos quais diverge entre uma língua e outra. Os modelos de subcategorização permitem identificar estas divergências: subj(x) likes obj(y) / subj(y) gosta obj(x).

c. Colocações: as categorias e as subcategorias mostram, com frequência, a prática de colocação sintagmática como em fast waltz, rapid movement, quick action, speedy recovery.

d. Lexias complexas (palavras compostas): combinações de palavras que lexicalizam, como comida rápida/fast food; movimentos oculares rápidos/rapid eye movement (REM).

e. Locuções: grupos preposicionais ou conjuntivos fixos como after all/när allt kommer omkring, still/apesar de tudo.

f. Locuções idiomáticas: são grupos sintagmáticos com flexibilidade sintáctica como Estava passada da carola/She was as nutty as a fruitcake.

g. Fórmulas: inclui provérbios, Deus ajuda a quem madruga; títulos de obras, filmes Monthy Pyton and the Holy Grail / Monthy Pyton e o Santo Graal; e outros elementos fixos do discurso, como este extracto de uma escritura inglesa To do all such other things as are incidental or conductive to the above objects or any of them.

Perante esta classificação surgem diversas questões. A primeira é decidir se todas as unidades propostas podem ser recolhidas nos dicionários tradicionais, já que a sua função é estabelecer equivalências, pelo menos do ponto de vista semântico. O problema é que as fórmulas, pelo seu tamanho e pela sua variedade, tornam essa tarefa impraticável; as expressões idiomáticas, no geral, estão pouco representadas e não existe nenhum dicionário bilingue conhecido que recolha de forma sistemática e homogénea toda a informação lexicográfica, necessária para a tradução. De entre a grande quantidade de dicionários bilíngues que existe, alguns oferecem informação sobre a subcategorização, as colocações mais frequentes, as lexias complexas (principalmente as especializadas) ou as expressões idiomáticas, embora nenhum deles seja exaustivo. O problema da exaustividade dos dicionários é um problema antigo e difícil de resolver. Os dicionários são concebidos como depósitos estáticos, exigem um complicado trabalho de compilação e validação, sempre activo e dinâmico, perante a formação de novas palavras, locuções e outras expressões.

Outra questão é a composicionalidade. Do ponto de vista puramente semântico da tradução, a noção de composicionalidade desempenha um papel importante. Considera-se que a tradução de um texto deve ser um processo composicional, no sentido em que a tradução de uma expressão complexa é uma função das partes constituintes da tradução. Na classificação de unidades de tradução mencionada reflecte-se uma série de unidades simples e complexas. Internamente, as mais complexas não são composicionais e por isso devem ser tratadas como unidades. As colocações ocupam um lugar intermédio; alguns autores defendem que são composicionais (Pustejovsky 1993, Viegas et al 1998), permitindo, em teoria, tratá-las de forma eficiente nos dicionários. Não obstante, na prática, não estão convenientemente contempladas. Mais problemático ainda é o tratamento das fórmulas, que fundamentalmente são unidades semióticas e que, segundo a tese de Hatim e Mason (1990), não se submetem às regras da semântica nem entram no jogo da composicionalidade. Por isso, um sistema de tradução deve resolver o problema da equivalência tratando primeiro da identificação de unidades não composicionais e mais complexas e, só depois, passar às simples.

Corpora multilingues em TMX

Uma alternativa aos dicionários como única fonte de informação são os corpora multilingues. Estes são colecções de textos em diferentes línguas, cujo valor se multiplica quando devidamente processados e registados. Para um determinado par de línguas, se o corpus for suficientemente grande e representativo, a informação que oferece pode ser tão completa, ou até mais, do que a que possam conter os melhores dicionários. A crescente disponibilidade de textos em formato electrónico torna relativamente simples o trabalho de compilação de corpora e já existem grandes avanços no que diz respeito ao seu tratamento informático (Abaitua, 2000). Se os corpora são paralelos, é possível obter percentagens próximas dos 100% para o alinhamento tanto de palavras como de orações (Catizone et al. 1989; Gale e Church, 1993; Kay e Rscheisen, 1993; Martínez, 1999).

Um corpus alinhado e registado constitui uma memória de tradução. As memórias de tradução (MT) são uma tecnologia alternativa à tradução de base semântica e a sua origem encontra-se na proposta de Nagão (1984) entitulada tradução "por exemplos". Os sistemas que utilizam esta tecnologia não traduzem mediante regras que equiparam representações conceptuais, mas mediante analogias ou comparações entre o texto a ser traduzido e os que já foram traduzidos e estão armazenados em memória. Estes sistemas oferecem excelentes resultados nos textos que contêm uma alta percentagem de fórmulas e de expressões idiomáticas, como acontece nos textos de especialidade. Não obstante, não servem para os textos criativos ou expressivos, aos quais, de qualquer forma, os métodos baseados em regras também não oferecem bons resultados e requerem tradução humana.

Nos campos onde são frequentes os textos repetitivos, como os manuais de uso, os documentos administrativos ou informativos (bolsa, meteorologia, ocorrências), mas especialmente no campo da tradução e da adaptação de produtos de software (localização), as memórias de tradução supõem uma opção interessante. Isto reflectiu-se no mercado do software, que viu aumentar significativamente o número de ofertas dos sistemas comerciais: Déjà-Vu (ATRIL), Translator's Workbench (TRADOS), Transit (STAR), SDLX, etc. Grandes empresas, instituições e muitas agências de tradução adquiriram alguns desses sistemas para mecanizar parcialmente os seus projectos de tradução e de localização.

Porém, os sistemas de MT têm o inconveniente de antes de serem produtivos e rentáveis, antes de começarem a oferecer resultados operativos, precisarem de um laborioso processo de alimentação, ou seja, de construção e optimização da memória. Esta tarefa pode requerer consideráveis doses de dedicação e esforço. Um segundo problema, derivado em certa medida do anterior, é a dependência do software utilizado. O custo de aquisição dos sistemas MT é muito alto e sua iniciação é muito trabalhosa, fazendo com que, consequentemente, seja muito complicado migrar de um sistema para outro. Para superar este inconveniente foi desenhado o formato TMX (translation memory exchange format; 1998). Actualmente, a maioria dos sistemas MT tem filtros de importação e exportação para TMX.

O formato TMX está baseado na metalinguagem XML e consta de uma colecção muito simples de etiquetas para marcar os elementos básicos de uma memória de tradução. Nesse sentido, é uma alternativa a outras propostas de etiquetagem conhecidas, como o TEI (Erjavec, 1997). O TEI é um modelo de etiquetagem mais genérico e mais rico; não é complicado passar de um corpus TEI para uma memória em TMX.

<TU>
<TUV lang="EN" creationdate="1600" creationid="William Shakespeare" changedate="1951" changeid="Peter Alexander/Collins">
<SEG>
Hamlet
The Scene: Denmark.
Act One
Scene I. Elsinore. The guard-platform of the Castle. Francisco at his post. Enter to him Bernardo
[...]
Exeunt marching. A peal of ordance shot off.</SEG></TUV>
<TUV lang="ES" creationdate="1929" creationid="Luis Astrana Marín/Aguilar" >
<SEG>
Hamlet, príncipe da Dinamarca
Cena: Elsinor
Primeiro acto
Cena I.- Elsinor.- Esplanada diante do castelo
Francisco, sentinela no seu posto.- Entra Bernardo dirigindo-se a ele
[...]
Marcha fúnebre. Eles saem, levando os cadáveres. Depois ouve-se uma descarga de artilharia.</SEG></TUV>
<TUV lang="ES" creationdate="1994" creationid="José María Valverde/Planeta">
<SEG>
Hamlet
A acção, em Elsinor
Primeiro acto
Cena Primeira
Elsinor. Diante do castelo
Entram Bernardo e Francisco, sentinelas
[...]
Eles vão-se embora marchando; depois, disparam-se salvas de artilharia.</SEG></TUV>
<TUV lang="ES" creationdate="1994" creationid="Ángel-Luis Pujante/Espasa">
<SEG>
A tragédia de Hamlet, príncipe da Dinamarca
I.i Entram Bernardo e Francisco, dois sentinelas
[...]
Eles saem em marcha solene, seguida de uma salva de canhão.</SEG></TUV>
</TU>

Tabela 1. Traduções de Hamlet: exemplos em TMX

No TMX a definição de uma unidade de tradução é muito simples: qualquer cadeia de caracteres entre as etiquetas <TU>...</TU>. Uma <TU> pode ser formada por tantas variedades linguísticas ou estilísticas <TUV> quantas for necessário, estando cada uma delas devidamente documentada (Tabela 1). O tamanho da unidade de tradução não está limitado, de maneira que nada impede que toda uma obra literária possa ser tratada como unidade de tradução - isto é o que Bennett (1994) chamaria de macrounidade - ou que tal macrounidade seja segmentada em tantas partes quanto se pretenda. Se o corpus estiver correctamente etiquetado, o tamanho dos segmentos não é importante. Hatim e Mason (1990) são a referência mais importante da defesa de que a unidade de tradução é o texto completo, face à habitual consideração das unidades semânticas, ou lexicológicas, que Bennett (1994) chama de átomos de tradução. A vantagem de utilizar corpora registados como recurso de tradução consiste em ser muito mais fácil compatibilizar ambas as opções.

O nosso exemplo simplificado de TMX (Tabela 1) permite contrastar distintas traduções do Hamlet de Shakespeare. Faz bastante sentido tomar toda a obra como uma unidade de tradução, especialmente quando a versão adquire a categoria de tradução canónica, como aconteceu durante muitos anos com as versões de Astrana Marín (Rupérez, 1998). É também possível ajustar mais ainda a segmentação, por cenas, actos, estrofes ou versos, de maneira a poder optar pela tradução que for considerada mais apropriada conforme o caso.

O TMX proav ser interessante por três razões: a) a flexibilidade que oferece para segmentar os textos em unidades variáveis de tradução; b) a disponibilidade de software que permite aumentar as memórias de tradução com facilidade; c) a possibilidade de compartilhar e trocar memórias entre as diferentes plataformas e utilizadores. Trataremos deste último caso no item seguinte.

Copyleft e copyright

A progressiva implantação do XML, unida à disponibilidade de traduções em TMX, permite prever que nada impedirá que a Internet se converta num imenso depósito aberto de traduções. É fácil imaginar motores de pesquisa similares ao Google, em relação à abrangência e à potência, mas com um campo de acção especializado na procura de corpora multilingues. Traduzir seria tão simples como encontrar uma equivalência na língua desejada.

Antes de tal facto poder ser uma realidade, dever-se-iam resolver algumas questões que, como já se comentou, não são de índole tecnológica, mas logística:

1. O tradutor humano é anterior à máquina.

2. Autores, tradutores e editores devem permitir a livre circulação dos seus trabalhos.

3. Os textos e as traduções devem estar disponíveis na Internet.

A primeira condição é óbvia. Isso não quer dizer que não possamos dispor de sistemas de tradução automática para realizar um rascunho da tradução sem a intervenção humana. O que queremos dizer é que quando um texto não foi traduzido anteriormente e desejamos uma tradução de qualidade, quando a unidade de tradução requerida supera os limites da unidade lexicológica ou quando os factores estilísticos e pragmáticos adquirem importância, será necessário primeiro encomendar o trabalho a um tradutor humano. A reutilização dessa tradução poderá ser feita mecanicamente, sem intervenção humana, mediante uma memória de tradução. Idealmente - esta seria a terceira condição - isto deveria ser possível através da Internet. Mas, para isso, antes é necessário cumprir a segunda condição.

A segunda condição é a mais complicada das três. Numa discussão recente num fórum da Internet moderado por Antonio S. Valderrábanos (2000), a postura que defendia que as memórias de tradução deveriam ser compartilhadas recebeu um reduzido apoio. Isso parece querer dizer que os tradutores defendem a prática do copyright, o que não surpreende se tivermos em consideração o esforço por parte das associações profissionais para que se reconheçam os direitos de propriedade intelectual das traduções. No entanto, com a mudança do modelo económico e a passagem do papel ao meio eletrónico, estas reticências para compartilhar o próprio trabalho serão, a longo prazo, contraproducentes. A própria lógica dos factos imporá que se adopte uma opinião diferente.

Qual o modelo que melhor pode servir os objectivos do depósito aberto de traduções que queremos alcançar? Em primeiro lugar, é preciso deixar bem claro que permitir a livre circulação e a utilização dos textos traduzidos não implica necessariamente deixar de lado os direitos da propriedade intelectual sobre eles. No campo do desenvolvimento de software surgiram métodos de protecção de direitos de autor que podemos adoptar para o nosso caso. Após o copyright de que se servem os autores de software em propriedade para restringir a distribuição dos seus programas, surgiu a prática do copyleft, que expressamente protege a livre circulação. A Fundação de Software Livre definiu os seguintes conceitos-chave:

Software livre: refere-se à liberdade dos utilizadores para copiar, utilizar, estudar, mudar, melhorar e redistribuir o software. Os utilizadores podem redistribuir cópias, modificando-as ou não, a qualquer pessoa e em qualquer lugar, seja de forma gratuita ou com cobrança. Ter essa liberdade significa, entre outras coisas, que não é preciso solicitar nem pagar permissões. Mas a condição mais importante é a de que o código fonte deve estar disponível.

Copyleft: o software protegido pelo copyleft impõe uma garantia sobre o software livre, que consiste em que ninguém possa alterar a condição de livre distribuição do software, mesmo quando sejam introduzidas alterações ou melhorias. Portanto, o termo copyleft garante a distribuição mediante termos legais que dão o direito de utilizar, modificar e redistribuir o código do programa ou qualquer programa derivado do mesmo, com a condição de que não sejam alterados os próprios termos de distribuição. Assim, o código e as liberdades tornam-se legalmente inseparáveis.

Estes dois termos não podem ser confundidos com o de software de domínio público, que tem um valor legal muito preciso e significa literalmente "sem copyright''. No que nos diz respeito, o método mais apropriado é o que protege a livre distribuição de traduções mediante copyleft. As vantagens são tão evidentes que mais cedo ou mais tarde acabará por se impor. Para ilustrar isto, mostro uma resenha de Francis Pisani no Ciberp@ís (10 de maio de 2001) sobre a obra de Eric Raymond, La catedral y el bazar. Comenta Pisani:

Raymond acreditava que o modelo de elaboração de um projecto informático se deve parecer com a construção de uma catedral, "cuidadosamente elaborada por sábios individuais e pequenos grupos de magos trabalhando num esplêndido isolamento e sem publicar nenhuma versão beta antes da hora".

Mas o sucesso do Linux e da comunidade que o alimenta obrigou o autor a considerar a superioridade do bazar, "aberto até à promiscuidade", no qual as melhorias são publicadas quanto antes e tantas vezes quanto possível [...] Raymond mostra que pode ser mais eficaz o desenvolvimento de um software numa comunidade aberta do que numa fechada: a colaboração e a revisão crítica do código produzido garantem uma qualidade incomparável.

Na Internet existem alguns precedentes interessantes de compilações de obras literárias e traduções, como o projecto Gutenberg ou a Biblioteca Virtual Cervantes. Estas iniciativas recolhem obras clássicas, cujos direitos de autor já caducaram. A proposta que se faz aqui não se afasta muito disso, embora necessite da generosa colaboração de uma grande quantidade de autores e tradutores, com os seus direitos de propriedade ainda vigentes. Gostaria de concluir com as palavras de John Perry Barlow, impulsor da Electronic Frontier Foundation, sobre a propriedade intelectual:

O termo propriedade intelectual é contraditório. A informação é uma relação, é um intercâmbio de significado que existe como um laço no espaço entre as mentes. O motivo para se ter copyright é estarmos a tratar de depósitos nos quais se introduz informação. Desde Gutenberg, a única forma de fazer com que a informação pudesse ser transportada foi colocando-a num objecto físico que pudesse ser vendido. Trata-se do mesmo modelo económico para uma torradeira ou qualquer objecto físico. Se a embalagem for retirada, acaba o modelo económico.

Agradecimentos

Este trabalho tem o apoio do Departamento de Educação, Universidades e Pesquisa (projecto XML-Bi PI1999-72) e do Departamento de Indústria (projecto XTRA-Bi OD-00UD05) do Governo Basco. O autor fica em dívida com os membros de ambos os projectos: Arantza Casillas, Josuka Díaz, Thomas Diedrich, Arantza Domínguez, Alberto Garay, Josu Gómez, Carmen Isasi, Inés Jacob, Idoia Madariaga, Raquel Martínez, Koldo Ocina e José Luis Ramírez. Em particular, o autor agradece a Josu Gómez pela sua contribuição com citações sobre o TMX.

Referências bibliográficas

Alan K. Melby 1995. The possibility of language. A discussion of the nature of language with implications for human and machine translation. John Benjamins.
Alan K. Melby. 1988. Lexical transfer: between a source rock and a hard target. COLING: 145-154.
Alan K. Melby. 1998. Data exchange standards from the OSCAR and MARTIF projects. First International Conference on Language Resources and Evaluation: 3-8. http://www.lisa.unige.ch/tmx/.
Ángel Rupérez. 1998. Shakespeare revisto. Babelia-El País 8.8.1998:12.
Anna Trosborg. 1997. Text typology: register, genre and text types. Text typology and translation: 3-23. John Benjamins.
Antonio S. Valderrábanos. 2000. Yahoo! Groups: catmt: Messages: Message 181, http://groups.yahoo.com/group/catmt/message/181
Basil Hatim e Ian Mason. 1990. Discourse and the translator. Longman.
Biblioteca Virtual Miguel de Cervantes: http://cervantesvirtual.com/
Bonnie J. Dorr. 1993. Machine translation: A view from the lexicon. MIT Press.
Christiane Nord. 1993. Traduciendo funciones. Amparo Hurtado (comp.) Estudis sobre la traducció: 97-112. Universitat Jaume I.
Eric S. Raymond. 2001. The cathedral & the bazaar. O'Reilly .
Evelyne Viegas, Stephen Beale e Sergei Nirenburg. 1998. The computational lexical semantics of syntagmatic relations. Proceedings of the 36th Annual Meeting of the Association of Computational Linguistics: 1328-1332.
Fundação de Software Livre: http://www.fsf.org/
Gerardo Vázquez-Ayora. 1977. Introducción a la traductología. Georgetown University Press.
Harold L. Somers. 1987. Valency and case in computational linguistics. Edinburgh University Press.
J.P. Vinay e J. Darbelnet. 1958. Stylistique comparée du français et l'anglais. Didier, Paris.
Jaime G. Carbonell, R.E. Cullingford y A.V. Gershman. 1981. Steps towards knowledge-based machine translation. IEEE Transactions on Pattern Analysis and Machine Intelligence 3:376-392.
James Pustejovsky. 1993. Type coercion and lexical selection. Semantics and the Lexicon. 73-94. Kluwer Academic Publishers.
John Perry Barlow: http://www.eff.org/~barlow/
Joseba Abaitua. 2000. Tratamiento de corpora bilingües. La ingeniería lingüística en la sociedad de la información. Fundación Duques de Soria.
Juan A. Alonso. 1990. Transfer InterStructure: designing an interlingua for transfer-based MT systems. Proceedings of the Conference on Theoretical and Methodological issues in Machine Translation of Natural Languages: 189-201.
Lantra-l. Can humans help MT? http://www.geocities.com/Athens/7110/MTHUMANS.HTM
M. Masterman. 1957. The thesaurus in syntax and semantics. Mechanical Translation 4:1-2.
Martin Kay e M. Roscheisen. 1993. Text-translation alignment. Computational Linguistics 19-1: 121-142.
Martin Kay. 1997. The proper place of men and machines in language translation. Machine Translation 13:3-23.
Minako O'Hagan. 1996. The coming industry of teletranslation: Overcoming communication barriers through telecommunication. Clevelon.
Minako O'Hagan. 1997. The coming age of teletranslations.
Paul Bennett1994. Translation units in human and machine. Babel 40:12-20.
Project Gutenberg: http://sailor.gutenberg.org/
R. A Amsler e J. S. White. 1979. Development of a computational methodology for deriving natural language semantic structures via analysis of machine-readable dictionaries. Final report on NSF project MCS77-01315. University of Texas at Austin.
R. Catizione, G. Russel e S. Warwick. 1993. Deriving translation data from bilingual texts. Proceedings of the 1st International Lexical Acquisition Workshop. Detroit.
R. Simmons e J. Slocum. 1972. Generating English discourse from semantic networks. Communications of the ACM 15-10: 891-905.
Raquel Martínez. 1999. Alineación automática de corpus paralelos: una propuesta metodológica y su aplicación a un dominio de especialidad. Tese de doutorado. Universidad de Deusto.
Sergei Nirenburg, Victor Raskin e A. Tucker. 1985. Interlingua design for TRANSLATOR. Proceedings of the Conference on Theoretical and Methodological issues in Machine Translation of Natural Languages: 224-244.
Tomaz Erjavec. 1997. The ELAN Slovene-English aligned corpus: http://nl.ijs.si/et/Bib/MT99/
W. A. Gale e K. W. Church. 1993. A program for aligning sentences in bilingual corpora. Computational Linguistics 19-1: 75-102.
Yorick Wilks. 1973. An artificial intelligence approach to machine translation. R.C. Schank e K.M. Colby (comp.). Computer models of thought and language: 114-151. Freeman.

Outubro 2001

Lidia Cámara | Karl Heinz Freigang | Sílvia Fustegueres | Ingemar Strandvik

Jorge Marcos | Pilar Sánchez-Gijón | Gemma Capellas

Josu Gómez | Joseba Abaitua