O sistema DISPARA

Descrição técnica: O sistema DISPARA

Diana Santos

Esta página fornece alguns pormenores técnicos, explicando o que está envolvido em pôr o COMPARA na rede. Além disso, apresenta uma panorâmica do sistema DISPARA, um sistema genérico para DISponibilizar acesso a corpora PARAlelos na rede (Web).

De facto, embora um utilizador apenas veja a interface DISPARA, esta é indissociável de um sistema computacional complexo nos bastidores, que determina, aliás, uma dada forma, ou processo, de produzir o corpus.

O processo seguido na criação do COMPARA

Dados os textos em formato electrónico, podemos identificar várias fases distintas na criação do COMPARA:

  1. Como descrito em Construção do COMPARA, os textos são manualmente alinhados por parágrafo, ao mesmo tempo que alguma anotação é adicionada: marcação de títulos, ênfase, notas (de tradutor ou de autor), palavras ou expressões estrangeiras, etc.
  2. É depois aplicado um conjunto de ferramentas de corpora desenvolvidas no âmbito do projecto AC/DC para separar as frases e identificar as unidades básicas (os átomos). Cada par de textos é então alinhado, por frase, pelo EasyAlign (v.1.0), um alinhador integrado no IMS Corpus Workbench.
  3. O resultado do alinhamento é traduzido automaticamente para uma versão mais legível, para ser revisto cuidadosamente e lhe ser aplicado o seguinte princípio: uma frase apenas no lado do original. Nos casos em que uma frase do original corresponde apenas a partes de uma frase maior na tradução, essa informação é anotada manualmente (<s3> significa 1-1/3), assim como adições (frases adicionadas pelo tradutor) ou mudanças de ordem (que são reordenadas na tradução mas cuja posição original se marca também). Em suma, todos os casos mais complexos do que 1:0, 1:1 e 1:n são explicitamente indicados.
  4. É então executado um programa que adiciona automaticamente mais informação:
    • o tipo de alinhamento, nos casos em que ainda não conste
    • o identificador do par de textos em questão, assim como um identificador único por cada unidade de alinhamento
    • a variante do original e da tradução
    • se o texto é traduzido ou original
    • as datas da primeira edição do original e da tradução usada
  5. Dois corpora, um para cada língua, são criados no formato de entrada (veja-se um exemplo) do IMS CWB, dando especial atenção à codificação de
    • reordernação de traduções
    • frases sem tradução
    • notas de tradução
    • correcção humana do tipo de alinhamento automaticamente descoberto pelo programa
  6. Os corpora são outra vez alinhados, desta vez impondo que o programa use o alinhamento fornecido pelo passo anterior.
  7. Os dois corpora são então codificados no formato interno do IMS CWB usando as ferramentas correspondentes, e ficam assim passíveis de consulta nesse ambiente.
  8. O passo final é executar alguns programas complexos que contam discriminadamente o conteúdo do corpus e produzem as duas páginas Resumo quantitatico e Informações bibliográficas automaticamente.

Chegados a este ponto, e após copiar os corpora (e as novas páginas de interface) para o servidor da Linguateca, qualquer pessoa ligada à Internet pode interrogá-los através da interface DISPARA.

A interface DISPARA

A interface DISPARA foi concebida, em primeiro lugar, para dar acesso ao corpus COMPARA, mas considerámos desde o princípio a possibilidade de a aplicar a outros corpora paralelos.

Por isso, distinguimos no que se segue entre o que chamamos a arquitectura genérica do DISPARA e a sua aplicação ao COMPARA.

A arquitectura genérica do DISPARA

O DISPARA foi concebido para trabalhar com o IMS Corpus Workbench, considerado, no contexto da Linguateca o melhor sistema de processamento e codificação de corpora existente. Várias descrições deste sistema e de algumas das suas vantagens e motivação existem (veja-se por exemplo exemplos).

O DISPARA baseia-se no conceito de unidade de alinhamento (ou seja, uma frase do texto fonte, o que quer que corresponda a essa frase no texto traduzido), o que significa que os corpora são codificados com o atributo estrutural ua, em vez de usar por exemplo um atributo f para frase. Para identificar cada ua, associamos-lhe um atributo id e um atributo tipo (de alinhamento) (como em <ua id="PBMA4-37" tipo="1-2"> ).

Como já mencionado, a cada palavra (forma) são associadas várias informações diferentes, como valor dos atributos posicionais fonte (qual o texto), varport (variante do português), varing (variante do inglês) e oritrad (indicando se o texto é original ou traduzido). Nenhum destes atributos é necessário para o DISPARA funcionar, e outros diferentes podem ser adicionados ao sistema. Contudo, é importante esclarecer que é a existência destes atributos que permite (e determina) que tipos de distribuição, e que tipos de restrição, é possível o utilizador especificar.

Mencionamos aqui as características mais salientes do DISPARA:

  • O DISPARA permite produzir vários tipos de informação como resultado de um pedido do utilizador: Concordância, distribuição das formas que satisfazem o pedido, e distribuição da informação que esteja adicionalmente codificada, como exemplificado acima (fontes, variantes, etc.)
  • Além disso, uma potencialidade única é a "Distribuição combinada das expressões de busca em português e inglês", que corresponde a uma interrogação complexa construída a partir de um conjunto de perguntas mais simples, e cujo propósito é apresentar uma visão de conjunto da distribuição dos items nas duas línguas
  • Outra funcionalidade chave do DISPARA é permitir a procura pelo tipo de alinhamento (adição de frases pela tradução, divisão de frases ou junção pela tradução, reordenamento, etc.)

Qualquer pessoa com dois corpora codificados no IMS-CWB, alinhados com base num atributo ua, pode fazer uso do DISPARA com um mínimo de adaptação: De facto, basta reescrever as páginas HTML assim como as mensagens de erro e ajuda, a formatação dos resultados, além de, evidentemente, substituir o nome dos corpora. E, naturalmente, outras opções pertinentes ao corpus em questão poderiam ser adicionadas.

Aplicação do DISPARA para servir o COMPARA

O uso do DISPARA que nos interessa especialmente aqui, que é o de servir o COMPARA na Rede, apresenta um conjunto amplo de opções, devido ao desenho do COMPARA e da forma como a interacção com ele foi concebida:

  • Permite ao utilizador ver as notas de tradução (internamente codificadas como o valor do atributo estrutural note), e procurar especificamente uas que as tenham
  • Oferece a possibilidade de procurar marcações criadas pelos compiladores do COMPARA, tais como palavras estrangeiras, entidades mencionadas, títulos de obras ou simples ênfase tipograficamente marcada
  • Essa marcação é, aliás, visualizável na própria interface: emph, foreign, title e named são mostrados em itálico; e o conteúdo de uma note (quando o utiluizador escolheu a opção "Mostrar notas") aparece em negrito.

Convém contudo notar que nem sempre é fácil distinguir entre o que faz parte da arquitectura genérica e as características particulares do COMPARA, visto que a arquitectura do DISPARA e a sua aplicação ao COMPARA foram evoluindo a par e passo.

Uma ilustração desta verdade é o facto de termos começado a anotar sintacticamente o COMPARA, e como tal ao mesmo tempo expandindo todo o sistema DISPARA. (Veja-se a página sobre a sequência de tarefas envolvida na anotação para mais pormenores.)

Atomização do COMPARA

Para o português, usámos toda a panóplia de ferramentas desenvolvida em torno do projecto AC/DC para tratarmos corpora de língua portuguesa.

Para o inglês, usámos o atomizador para o português adicionando algumas funcionalidades e pormenores.

Como é sabido, as questões mais flagrantemente problemáticas da atomização inglesa são: as contracções, o marcador de possessivo, e as plicas (ou aspas simples).

Para facilitar o subsequente processamento e tornar facilmente identificáveis os diferentes usos do caracter ', e visto que os textos do COMPARA são passados por uma revisão manual, foi decidido que as plicas (abrir e fechar) fossem codificadas respectivamente como os caracteres "abre-plica" e acento agudo, deixando a plica normal como marcador de contracção e/ou de possessividade.

Isto permite simplificar bastante a atomização (que é diferente para plicas e para a ') e, além disso, procurar separadamente este tipo de objectos no COMPARA. O mesmo foi feito para as aspas (double quotes) que foram internamente transformadas nas aspas portuguesas « e », cuja vantagem é que distinguem entre abrir e fechar. Para o utilizador incauto, contudo, todas estas modificações são transparentes, visto que ao produzirmos a concordância repomos o sabor mais inglês usando sempre ' e ".

Quanto à atomização propriamente dita, consideramos plicas e aspas como átomos diferentes, mas caracteres ' dentro de contracções ou marcando possessivos são incluídos dentro do átomo a que se acoplam. Exemplificando, isto significa que no COMPARA don't, o'clock, Peter's e students' são considerados UM átomo.

Quanto a diferentes convenções quanto a números e valores monetários, a nossa política foi a seguinte: considerar um átomo quando a unidade monetária precedia o valor (que é o caso das libras, £60 ou dólares, $300.00), e dois átomos caso contrário (como em 30 réis, 40,000 francs, por analogia com as outras medidas, 600 miles per hour, 4 átomos).

Além disso, também se juntaram algumas abreviaturas inglesas e retiraram algumas portuguesas que entravam em conflito com o inglês.