Logotipo do Centro Virtual Camões
Apresentação
Tecnologias e tradução
Recursos em linha
Universidades
Bibliotecas
Revista Tradumática
Normas de qualidade
Aspectos legais
Consultoria



Número 1: A localização

Localização e internacionalização de sítios web
Noelia Corte Fernández MSc em Electronic Publishing,
City University, Londres


Introdução

Desde o seu início, o inglês
tem sido o idioma predominante da World Wide Web, já que esta era domínio exclusivo dos mercados norte-americano e britânico. Contudo, nos últimos anos houve um aumento no número de utilizadores cuja primeira língua não é o inglês. Embora o inglês seja aceite como a língua franca da Internet, e a maioria dos seus utilizadores o domine, é natural que um sítio web na sua língua materna lhes pareça muito mais atraente e fácil de utilizar.


Os potenciais clientes que navegam diariamente na Internet passam mais tempo e estão mais dispostos a comprar produtos nos sítios que estão na sua língua materna. Desta maneira, toda a empresa deverá em primeiro lugar superar as barreiras de língua se deseja obter o maior proveito do imenso potencial que a Internet oferece para aceder a diferentes mercados.



1. Terminologia


Três termos são importantes para entender no que consiste o processo de localização de um sítio web:


1.1 Internacionalização


Consiste na identificação de toda a informação local que aparece num sítio web, ou seja, aquela informação que vem ditada pela língua e a cultura do país onde este foi desenhado originalmente. São exemplos: datas, números, moeda, informação de contacto, etc. Estes elementos deverão ser isolados e guardados de forma independente para que seja possível adaptá-los às especificações de qualquer língua.


1.2. Localização


É o processo de adaptação de um sítio web a uma língua e cultura diferentes. Isto implica muito mais do que simplesmente traduzir o conteúdo das páginas. O conteúdo de uma página web é formado por texto e imagens que devem ser traduzidos e submetidos a uma adaptação cultural. O utilizador nunca se deverá aperceber de que o sítio foi originalmente criado noutra língua.


1.3. Globalização


A globalização combina os processos de internacionalização e localização. Consiste no desenvolvimento de sítios web que podem ser utilizados em diferentes países com um mínimo de alterações. É um conceito que pertence mais à área de marketing do que à área técnica.


A internacionalização e a localização de sítios web são processos complicados e caros, daí que muitas empresas receiem levá-los a cabo. Contudo, os benefícios a longo prazo ultrapassam em larga medida os custos iniciais: criação de novos mercados, aumento de vendas, simplificação do processo de actualização da informação, maior rapidez no momento de introdução em novos mercados, etc.


De seguida, serão analisados, de maneira geral, os diferentes passos a seguir para localizar e internacionalizar com sucesso um sítio web.



2. Análise do mercado de destino e do sítio web original

Antes de iniciar o processo de localização é importante conhecer a fundo o mercado de destino.


- Quem são os utilizadores.
- O que esperam obter do sítio.
- O que espera obter a empresa do sítio localizado (Simplesmente oferecer mais informação? Criar uma presença em mercados estrangeiros com o objectivo de abrir novas filiais? Aumentar as vendas? Nesse caso oferece a possibilidade de comprar artigos em linha?).
- Quem é a concorrência no mercado de destino.
- Requisitos legais específicos de um determinado país.
- Características culturais, religiosas ou sociais que possam afectar a apresentação do conteúdo (pode ser benéfico contratar os serviços de um antropólogo se a cultura for muito diferente da original).
- Requisitos técnicos, largura de banda disponível, preços de ligação à Internet.
- Requisitos para registar nomes de domínio.
- Legislação em matéria de protecção da informação pessoal e copyright.


Os departamentos jurídico e de marketing deveriam colaborar estreitamente com os especialistas do país de destino e preparar um documento que cubra todas estas áreas para cada uma das línguas nas quais o sítio web será localizado. O chefe do projecto de localização deve possuir um conhecimento profundo do que se espera do sítio web, já que estes requisitos iniciais determinarão a duração e o custo do projecto.


No mundo do comércio electrónico não é suficiente realizar um estudo de mercado no sentido tradicional. Também se deverá investigar quantas pessoas possuem computador e qual o nível de utilização da Internet no mercado de destino, quantos utilizadores possuem banda larga, os preços da ligação nos diferentes países, se os utilizadores têm acesso às últimas tecnologias, níveis de vendas de hardware e de software, etc.


Com os objectivos bem estabelecidos e um conhecimento detalhado dos mercados em que se deseja trabalhar, chega o momento de analizar o sítio a localizar, tanto no seu conteúdo como na sua funcionalidade. Actualmente, a maioria dos sítos web é construída para ser utilizada numa só língua, o que levanta mais obstáculos à sua localização.


Antes de começar a localização, o sítio deverá ser internacionalizado para facilitar possíveis futuras localizações em outros idiomas.



3. Internacionalização


Todos os elementos locais do sítio deverão ser identificados e isolados. O processo de internacionalização em muitos casos requer alterações drásticas no desenho e na funcionalidade do sítio. Isto pode ser caro e demorado, mas uma vez internacionalizado, o sítio poderá ser facilmente localizado em qualquer outra língua. O processo de internacionalização só deverá ser realizado uma vez e, a longo prazo, suporá uma grande economia nos planos de expansão de qualquer empresa no estrangeiro.


Outras considerações a levar em consideração neste ponto são:


- Quais as línguas a utilizar e a que países queremos chegar. É mais fácil trabalhar com línguas europeias ocidentais, por exemplo, do que com o russo, que usa um alfabeto diferente, ou com o árabe, que se escreve da direita para a esquerda.


- Como serão realizadas as actualizações do conteúdo. Um sítio web que não actualiza os seus conteúdos nunca terá sucesso, os utilizadores da Internet procuram informação rápida e actual. A melhor forma de controlar as actualizações de conteúdo e a gestão diária do sítio é mediante a utilização de um sistema de workflow e de gestão de conteúdos.


Os gráficos deverão ser analisados, e todos aqueles que tenham texto sobreposto deverão ser eliminados, ou as versões originais deverão ser armazenadas num directório central para poder traduzir o texto.


Todos os símbolos, cores e imagens deverão ser contrastados na cultura de destino. Os ícones deverão ser tão neutros e genéricos quanto seja possível para que possam ser reutilizados.


Neste ponto, os arquivos da interface de utilizador, o conteúdo e o código deverão ser separados em diferentes arquivos de recursos. Podem ser utilizados os Server Side Includes (SSIs) para facilitar a tarefa de actualizar o conteúdo sem que isso afecte o design gráfico da página.


Uma vez que os arquivos de recursos tenham sido criados, é fácil calcular a magnitude do projecto, o número de arquivos, o número de palavras (essencial para estimar os custos e a duração das traduções), etc. .


A funcionalidade do sítio web, que será comum em todas as línguas, e a interface de usuário deverão ficar claramente separadas. É importante diferenciar entre o texto que deve ser traduzido (aquele que o utilizador pode ver) e a funcionalidade do sítio, que no geral permanece oculta, e que, portanto, não precisa de ser localizada. Todo o conteúdo localizável será extraído do código fonte e será salvo nos arquivos de recursos como Dynamic Link Libraries (DLL) com um único arquivo executável. Este é simplesmente um exemplo da forma que este sistema pode adoptar:


app.exe
Ing_res.dll
Ale_res.dll
Fra_res.dll
Esp_res.dll
etc.


Nesta etapa do projecto é muito importante que os programadores trabalhem conjuntamente com os tradutores e adicionem tantas explicações quanto seja possível no código fonte. Do mesmo modo, os programadores nunca deverão fazer suposições no que diz respeito às regras gramaticais de uma língua ou sobre como é interpretada a informação numa certa língua.


A estrutura do sitio deverá ser planificada antes de começar o processo de localização. Um dos maiores problemas é decidir como serão combinadas as diferentes versões. O método mais comum consiste em salvar cada língua no mesmo servidor, já que isso permitirá sincronizar as actualizações em todas as línguas ao mesmo tempo. Normalmente, este tipo de sítio terá um enlace para cada uma das línguas na sua página inicial, por isso só precisará de ter uma URL que será utilizada de forma global.


Outra possibilidade é salvar cada sítio localizado no seu próprio país de destino. Este processo torna mais lenta a manutenção, porém diminui o tempo de descarga. Uma terceira opção consiste em criar sítios diferentes para diferentes países. Isto acontece quando os nomes do domínio ficam totalmente diferentes quando são traduzidos, quando o conteúdo é totalmente independente de uma determinada cultura ou quando se utiliza um design diferente.


O objectivo final é criar um sítio com uma infra-estrutura global que será gerida centralmente por uma única equipa técnica, com módulos localizáveis que deverão ser traduzidos e adaptados às diferentes línguas.



4. Localização

O primeiro passo no processo de localização é a identificação dos diferentes elementos que devem ser localizados:


- A interface de utilizador;
- A funcionalidade técnica;
- O conteúdo.


Estas três áreas estão estreitamente relacionadas e é importante dar uma atenção adequada a cada uma delas se se deseja conseguir uma localização completa e satisfatória. Não serve de nada um sítio web com o texto perfeitamente traduzido, se a sua funcionalidade estiver comprometida.


4.1. Interface de utilizador


As Folhas de Estilo (CSS) podem ser utilizadas de forma muito eficaz para mudar a imagem visual de uma página. Uma das suas melhores características é que permitem alterar o tipo de letra de um sítio web com uma única alteração num documento. É recomendável escrever uma folha de estilo para cada uma das línguas que não tenham alfabeto latino e descobrir se essas línguas contam com tipos de letra similares aos utilizados no sítio original.


Os gráficos e as tabelas deverão ter bastante espaço livre para acomodar com facilidade as diferentes longitudes dos diferentes idiomas.


Outro aspecto que deve ser considerado é a quantidade de gráficos que serão incluídos na página. Uma página fantástica, com animações, fotografias e complicados gráficos, pode ser descarregada em alguns segundos com uma ligação de banda larga, mas pode demorar vários minutos e até horas com um modem de 56k, ou mesmo ser totalmente impossível num país com péssimas ligações telefónicas.



4.2. Funcionalidade técnica


Embora a localização de software seja uma actividade habitual na indústria de Tecnologias da Informação, a localização de sítios web é muito mais recente e ainda se encontra em processo de desenvolvimento. Não obstante, muitos conceitos usados na localização de software também se aplicam nos sítios web.


Os sítios web actuais são estruturas multidimensionais com conteúdos estáticos e dinâmicos suportados por bases de dados e utilizam uma combinação de várias linguagens de programação. Esta complexidade aumenta graças à produção de computadores mais potentes e às possibilidades que oferece a banda larga.


Os problemas técnicos vêm, em larga medida, de questões impostas pelas línguas em que vai ser localizado o sítio.


4.2.1. Representação de caracteres


Um dos principais problemas técnicos que a localização de sítios web apresenta é a representação de caracteres. O básico American Standard Code for Information Interchange (ASCII) cobre somente 128 caracteres, os necessários para representar todos os caracteres do inglês, mas claramente insuficientes para o resto das línguas.


Na actualidade, o Unicode oferece uma cobertura muito maior e mais sofisticada, que é independente do Sistema Operativo utilizado.


O HTML utiliza um sistema mais completo denominado Universal Character Set (UCS). Foi definido pela ISO10646 e é equivalente, carácter a carácter, ao Unicode. Ambas as normas são actualizadas regularmente para adicionar novos caracteres.


Os Transformation Formats (UTFs) foram criados para superar os problemas de compatibilidade que apresentava o UCS com muitas aplicações e muitos protocolos. Existem diferentes versões; a mais utilizada na web é o UTF-8, que é compatível com o ASCII sempre que não houver mais de 127 caracteres. Um documento de HTML em UTF-8 continua a ser um documento ASCII / ISO-8859-1 normal (inglês, línguas europeias ocidentais, suaíli e havaiano). Se contiver caracteres Unicode acima da posição 255, estes devem ser indicados como unidades "&", por exemplo "é" seria representado como é.


O protocolo "http" também oferece o parâmetro "charset" que identifica um método de conversão de uma sequência de bytes numa sequência de caracteres. O parâmetro "charset" ajusta o navegador de utilizador para que mostre os caracteres correctos. A maioria dos navegadores selecionam a ISO-8859-1 por defeito, por isso é obrigatório incluir o parâmetro correcto para todas as línguas que a ISO-8859-1 não contempla.


O ideal seria utilizar o Unicode ou o UTF-8, mas isso faria com que em alguns casos fosse preciso realizar uma reprogramação do servidor; por outro lado, nem todos os navegadores suportam o UTF-8.


4.2.2. Línguas com requisitos especiais


- Línguas asiáticas


Embora na maioria das línguas um único carácter possa ser expresso com um único byte (1-256), existem tantos caracteres únicos em chinês ou em japonês que o sistema precisa de 2 bytes (1-65.536) para encontrar um. Estes caracteres são guardados em várias tabelas, o primeiro byte serve para informar o sistema operativo de qual a tabela que deve procurar, e o segundo informa qual o lugar que esse carácter ocupa na tabela. Isto constitui o Double Byte Character Set (DBCS). Ao localizar para o chinês, o japonês ou o coreano, por exemplo, o servidor deveria estar programado para reconhecer o DBCS.


Outro aspecto a ser levado em consideração com estas línguas, é que eles não têm espaços entre os diferentes caracteres. Isto pode causar problemas como, por exemplo, a utilização de saltos de linha.


- Línguas que se escrevem da direita para a esquerda


A etiqueta DIR (Algoritmo Direccional Unicode) indica a direcção em que um texto deve ser lido. Esta etiqueta é necessária para línguas como o árabe, o hebreu ou o urdu.


Por vezes é necessário combinar textos da direita para a esquerda com textos da esquerda para a direita. Quando isto acontece, é preciso utilizar o algoritmo bidirecional (BIDI).


4.2.3. HTML


Todo o conteúdo localizável de uma página deverá ser enviado para o tradutor. A maneira mais segura de evitar que, por erro, um tradutor altere a funcionalidade da página é bloqueando todos aqueles elementos que não seja necessário traduzir. Isto é possível na maioria dos editores de HTML e das ferramentas de tradução assistida por computador.


Um aspecto a ter em consideração é que o sistema operativo usado para realizar a localização afectará alguns dos comandos de HTML. Por exemplo, num formulário, os botões "Enviar" e "Apagar" aparecerão como "Submit" e "Clear" num computador com sistema operativo inglês.


4.2.4. Ordem alfabética


Cada língua utiliza um algoritmo de sequência diferente para ordenar a informação. As listas alfabéticas são diferentes segundo a língua. A melhor solução é que os programadores alterem a ordem alfabética como parte da localização da funcionalidade.



4.3 Conteúdos


Este é o elemento chave de qualquer sítio web. A principal funcionalidade da web é a informação, portanto, esse é o elemento principal de qualquer projecto de localização.


4.3.1. Texto


É vital que o texto seja traduzido por tradutores nativos do idioma para o qual o sítio vai ser localizado e que sejam especialistas no tema a tratar para utilizar a terminologia correcta. Além de serem linguistas, também devem ter um conhecimento profundo da cultura do país.


Os sítios web proporcionam dois tipos de conteúdos:

Estático: É permanente e não precisa ser actualizado com regularidade, normalmente aparece em páginas web em HTML, ASP, etc. com funcionalidade limitada. A localização pode ser realizada com um editor de HTML ou com uma ferramenta de tradução.

Dinâmico: A melhor forma de salvar este tipo de texto é numa base de dados que facilite a sua manutenção e actualização. O processo ideal de localização será realizado com um sistema que identifique automaticamente o conteúdo actualizado e o envie através de um sistema de workflow pré-definido.


Regra geral, é aconselhável evitar coloquialismos, regionalismos, jogos de palavras ou piadas, que podem ser difíceis de reproduzir noutro idioma ou noutra cultura.


Uma vez finalizado o processo de tradução, será necessário realizar uma correcção de provas em todas as páginas, para garantir a melhor qualidade possível. Este controle de qualidade deverá manter-se com controles regulares periódicos, e dever-se-ão identificar as secções que irão ser actualizadas com frequência.


4.3.2. Imagens gráficas


Todas as imagens gráficas devem ser contrastadas culturalmente. Todos os símbolos que sejam dependentes de uma cultura específica devem ser evitados.


Regra geral, seria recomendável evitar todos o símbolos religiosos ou festivos, partes do corpo, gestos com a mão, imagens que simbolizem um significado textual (por exemplo utilizar a imagem de uma tabela como ícone simbolizando uma tabela gráfica), símbolos nacionais, mapas com fronteiras polémicas. Deve ter-se especial cuidado com o uso das cores (por exemplo, o preto, considerado como uma cor neutra e elegante no Ocidente, simboliza a morte na China) ou com imagens de pessoas e animais (totalmente inaceitáveis nos países muçulmanos, por exemplo).


4.3.3. Aspectos legais


A legislação sobre copyright ou sobre a protecção de dados pessoais, nomes de domínios, condições de uso, etc. varia de um país para outro. É importante dispor de uma consultoria adequada para evitar problemas de tipo legal.


Uma vez que a interface de utilizador tenha sido localizada, o conteúdo e o código terão de ser integrados no sítio web localizado. A maneira de o realizar dependerá do modo com que tenham sido extraídos o conteúdo e o código fonte. O mais importante é que a estrutura do sítio facilite uma simples integração do conteúdo e que existam processos adequados para comprovar a integração antes da publicação do sítio.



5. Controlo de qualidade


Uma vez localizado, o sítio deverá passar um estrito controlo de qualidade. Se os utilizadores não gostarem do que aparecer na tela, só demorarão uns segundos para sair do sítio e não voltarão jamais. Alguns dos piores problemas que aparecem em sítios que supostamente já foram localizados são:


- Texto no idioma original, sobretudo em mensagens de erro ou quadros de diálogo;
- erros de ortografia;
- erros gramaticais;
- terminologia errada (especialmente nos sítios web técnicos ou especializados);
- imagens incongruentes.


A melhor solução para evitar estes problemas e manter os custos baixos é realizar uma versão geral. Uma vez que a sua funcionalidade tenha sido comprovada, o texto poderá ser adaptado nos mercados particulares.


Existem quatro tipos de controlo de qualidade:

Linguística
Comprova a qualidade da tradução, a consistência do texto, a terminologia e o seu estilo. Inclui a criação e a manutenção de glossários e bases de dados terminológicas, a criação de guias de estilo e estratégias de edição e correcção de provas.

Técnica
Consiste na verificação do funcionamento do sítio, utilizado-o com diferentes sistemas operativos e comprovando cada um dos arquivos, verificação do código, de hiperligações, das etiquetas de HTML, do funcionamento de formulários e bases de dados, etc..

Visual
Comprovação do design de página, dos quadros de diálogo e dos textos gerados dinamicamente.

Funcional
Verifica o correcto funcionamento do sítio localizado em diferentes redes, com diversas bases de dados, navegadores, etc..


Quando o sítio web cumprir todos os requisitos de qualidade e funcionamento, proceder-se-à à sua publicação. Uma vez lançado, o sítio deverá ser mantido e actualizado. A solução ideal é dispor de um webmaster que fale a língua de destino, para que assim se possa realizar a manutenção diária do sítio. Para realizar as actualizações, será necessário implementar um sistema adaptado ao tamanho e ao tipo de sítio. Na actualidade não existe nenhum standard no mercado para gerenciar a manutenção e a actualização de sítios localizados, embora existam milhares de ferramentas e de opções.



6. Conclusão


Os Estados Unidos e o Reino Unido já não são os únicos utilizadores da Internet. O aumento do seu uso noutros países apresenta novos desafios e requer novas soluções para oferecer informação noutras línguas. Este processo não só significa traduzir, mas também fazer uma adaptação cultural e superar vários problemas técnicos. Deve-se adoptar uma nova forma de desenhar e criar sítios web que permita uma fácil adaptação a outras línguas. O processo de localização de sítios web ainda está em desenvolvimento e todos os dias aparecem novas ferramentas no mercado. Nestes momento, cada projecto de localização é único. Para poder localizar perfeitamente um sítio web em várias línguas deve-se adoptar uma perspectiva flexível, utilizando diferentes ferramentas e métodos baseados num robusto sistema de workflow.


Outubro 2002

Voltar ao início




Bert Esselink | Feliciano Donoso | Jordi Mas i Hernàndez | Marta Pagans
Michael Scholand | Noelia Corte Fernández | Olga Torres
Roula Sokoli | Xavier Arderiu i Monnà