Construção do COMPARA
Ana Frankenberg-Garcia, Diana Santos & Rosário Silva.
Esta página contém uma descrição das diferentes etapas de construção do corpus.
- Direitos de autor
- Digitalização dos textos
- Alinhamento por parágrafo
- Separação de frases
- Alinhamento por frase: alinhamento automático, revisão e etiquetagem do alinhamento.
- Anotação gramatical
- Anotação semântica
Direitos de autor
O COMPARA é um corpus publicamente acessível em rede e, como tal, torna-se necessário obter autorização para guardar os textos do corpus no nosso servidor. Após seleccionar os textos que desejamos incluir no corpus, temos que identificar quem são os detentores dos direitos de autor das obras em questão. Os textos cujos autores morreram há 70 anos ou mais encontram-se no domínio público e não necessitam de autorização. Todos os outros textos precisam. Por exemplo, um original de Eça de Queirós não precisa de autorização, mas se a sua tradução para inglês for recente, esta terá de ser autorizada.
Os pedidos de autorização devem ser encaminhados a quem detém os direitos das obras em questão. Podem ser autores, tradutores, editoras ou uma combinação destes actores. No caso dos detentores dos direitos já terem falecido, o pedido deverá ser encaminhado a seus herdeiros. Sempre fazemos os nossos pedidos primeiro para a obra original, e só depois de obter uma resposta positiva encaminhamos o pedido para utilizar a tradução.
Nos pedidos de autorização para a utilização de obras no COMPARA, o mais importante talvez tenha sido explicar, numa linguagem acessível e não técnica, o que é, para que serve e como funciona um corpus. Desde os primeiros contactos com autores, tradutores e editoras, foi importante esclarecer que os textos utilizados no COMPARA - geralmente excertos de 30% de uma obra - apesar de disponíveis para consulta na Internet, não poderiam ser recuperados integralmente pelos utilizadores do corpus. Um outro factor que pode ter contribuído para uma boa aceitação dos pedidos de autorização foi mencionar, sempre que se fazia um novo pedido, quais editoras, autores e tradutores já estavam a colaborar com o projecto. No caso das editoras que vendem os seus livros em rede, também oferecemos incluir uma ligação para os seus catálogos. Para obter um modelo das nossas cartas com pedidos de autorização, clique aqui.
Apesar de o processo de contactar os detentores de direitos de autor e obter autorização para o uso dos textos no corpus ser bastante lento e trabalhoso, os pedidos feitos foram na generalidade bem recebidos. Houve, no entanto, casos em que alguns detentores de direitos de autor nunca chegaram a responder-nos, mas foram muito poucos os autores e as editoras que nos apresentaram recusas explícitas.
Digitalização dos textos
Os textos que não estão disponíveis em formato electrónico são digitalizados e submetidos a um programa de reconhecimento óptico de caracteres, cujo resultado é revisto manualmente. Estes textos e os textos obtidos já em formato electrónico recebem então o seguinte tratamento:
Numeração de páginas, colunas, figuras, diagramas e outros elementos extra-linguísticos são removidos.
Os títulos e subtítulos de capítulos são etiquetados com <chaptitle>antes do título e</chaptitle>depois. Se estiverem em letras maiúsculas, estas são passados para minúsculas (apenas a primeira letra da primeira palavra dos títulos e a letra inicial de eventuais nomes próprios neles contidos deve permanecer maiúscula). Por exemplo, o capítulo intitulado LOOKING-GLASS INSECTS passa a : <chaptitle>Looking-glass insects</chaptitle>
Os erros tipográficos óbvios detectados são corrigidos e identificados num ficheiro à parte.
Os textos digitalizados a partir de edições antigas são actualizados ortograficamente.
Hífens, travessões, dashes e bullets
Travessões portugueses e dashes ingleses são grafados com hífens duplos (--) ; hífens e bullets são grafados com hífens simples (-).
Aspas, quotation marks, plicas e apóstrofos
As aspas portuguesas e os double quotes ingleses são grafados com com as teclas («) e (»), respectivamente para abrir e fechar. Os single quotes ingleses são grafados com o acento grave (`) para abrir e agudo(´) para fechar. Os apóstrofos e as plicas são grafados com a tecla recta (').
As notas de autor são preservadas, identificadas com a etiqueta <anote>, e introduzidas imediatamente após a frase onde aparece o sinal que as identifica no texto.
As notas de tradução são mantidas, identificadas com a etiqueta <tnote>, e inseridas no lugar do símbolo a que se reportam.
Texto tipograficamente saliente
Às partes do texto sublinhadas, em maiúsculas, ou salientadas em itálico, negrito ou por tipo de letra ou formatação diferente são atribuídas etiquetas <title>, <foreign>, <named>, <voice> e <emph>. Note-se que as aspas não são consideradas texto tipograficamente saliente e que, portanto, as expressões entre aspas não se encontram etiquetadas.
Os substantivos comuns, verbos, adjectivos, preposições, etc salientados com maiúsculas (em vez de itálico, negrito, letra diferente, etc.), são convertidos para letras minúsculas. Esta regra não se aplica aos acrónimos, que permanecem em letras maiúsculas. Também no caso de nomes próprios tipograficamente salientes (por exemplo, nos títulos e nas entidades mencionadas), a primeira letra de cada palavra permanece em letra maiúscula.
As maiúsculas usadas nos acrónimos (por exemplo, UNESCO, FAO, ONU, etc.) não são consideradas "tipograficamente salientes". Assim sendo, só são etiquetados os acrónimos que também estiverem em negrito, itálico, tamanho de letra diferente, etc. Etiquetados ou não, os acrónimos nunca passam para letras minúsculas.
A etiqueta <title> identifica títulos de livros, jornais, filmes, peças de teatro, canções, programas de televisão etc. citados nos textos (sejam eles verdadeiros ou fictícios), por exemplo:
PBRF1 - Li <title>Os Sertões</title>, essa obra prima de Euclides da Cunha, inúmeras vezes e na quinta vez já não sentia o menor prazer com a leitura.
Note-se que esta etiqueta indica apenas os títulos citados nos textos, e não os títulos ou sub-títulos dos textos em si.
A etiqueta <foreign> identifica palavras numa língua diferente da língua principal do texto, por exemplo:
PPSC1 - Falou-se de modas, discutiu-se teatro e <foreign>music-hall</foreign> , com muita arte à mistura.
Os nomes próprios só são considerados <foreign> se forem compostos de substantivos comuns, por exemplo:
PBRF1 - Kubrick dirigiu <title><foreign>Killer' s Kiss</foreign></title> , quase dez anos depois.
Não se utiliza a etiqueta <foreign> para nomes próprios como Macbeth, mas a etiqueta é utilizada para nomes próprios que são constituídos por ou incluem nomes comuns, tal como Bouvard et Pécuchet, que é considerado foreign porque a conjunção francesa et pode dar origem às traduções Bouvard and Pécuchet (En) e Bouvard e Pécuchet (Pt). Da mesma forma, num texto português, Benson and Hedges é considerado foreign porque a conjunção inglesa and pode gerar a tradução portuguesa Benson e Hedges. Note-se, porém, que um nome próprio como Luís de Camões, que contém a preposição portuguesa de, não é marcado <foreign> porque a sua tradução inglesa jamais seria *Luís of Camões.
A etiqueta <named>identifica nomes próprios utilizados para designar marcas, estabelecimentos comerciais, hotéis, empresas, produtos, doutrinas, etc., por exemplo:
PPEQ1 - Por outro lado, há sobre este globo coisas prodigiosas: há vinhos de Borgonha, como por exemplo o <named>Romanée-Conti</named> , de 58 e o <named>Chambertin</named> , de 61, que custam, cada garrafa, de dez a onze mil réis; e quem bebe o primeiro cálice, não hesitará, para beber o segundo, em assassinar seu pai...
A etiqueta <voice> identifica citações e mudanças de voz na narrativa, o que normalmente acontece quando o narrador se põe a pensar, escrever, recordar, ou quando a voz de uma outra personagem se intromete no texto principal, por exemplo:
EBDL2 - A raposa parou, virou a cabeça e olhou para Vic por um momento, como que dizendo <voice>Sim?</voice>, e depois continuou calmamente o seu caminho, com a cauda atrás dela a abanar ao vento.
A etiqueta <emph> identifica expressões e palavras realçadas por motivo de ênfase; dado o seu elevado grau de subjectividade, só se marca <emph> nos casos em que não há sobreposição com mais nenhuma etiqueta, por exemplo:
EURZ1 - -- A <emph>sua</emph> morte!
Nas listas de títulos, palavras estrangeiras, entidades mencionadas, etc., utilizam-se etiquetas separadas para cada elemento da lista. Por exemplo:
PBPM1 - <foreign> Urutus </foreign>, <foreign> jararacas </foreign>, <foreign> cascavéis </foreign>, <foreign> jararacuçus </foreign>, <foreign> surucutingas </foreign>, <foreign> cotiaras </foreign> -- I saw these and many other serpents in the slides that Melissa projected during her talk.
Os títulos, as palavras estrangeiras, os nomes próprios, a ênfase e as mudanças de voz que o autor ou tradutor não tiver salientado tipograficamente não se encontram etiquetados.
As palavras e expressões em grafia normal inseridas dentro de trechos salientes, onde se usou a grafia normal para indicar um contraste dentro de um contraste, também foram consideradas salientes, por exemplo:
EBLC1 - E não me vais fazer mal, apesar de eu <emph>ser </emph>um insecto.
Os textos são guardados em formato ISO Latin 8859-1 (Western European)
Alinhamento por parágrafo
Depois de um texto de partida e a respectiva tradução terem passado pelo processo de digitalização descrito acima, os dois textos são alinhados parágrafo a parágrafo. Nos casos em que os parágrafos dos dois textos não coincidem, o alinhamento baseia-se sempre nas divisões de parágrafo do texto de partida.
As mudanças de linha removidas das traduções durante o alinhamento são etiquetadas <Pout>. As mudanças de linha introduzidas nas traduções durante o alinhamento são etiquetadas <Pin>. Isto permite, na fase seguinte -- de separação de frases -- que o sistema, de forma automática, reconstitua e introduza as marcas de <p> correctas no corpus final.
Parágrafos completos divergentes
Nos casos excepcionais em que a equipa do COMPARA detectou divergências substanciais entre original e tradução a nível de parágrafo (nomeadamente, parágrafos inteiros não traduzidos ou parágrafos completos a mais na tradução sem texto correspondente no original), optou-se por eliminar quer do texto de partida quer da tradução as partes do texto afectadas. Este procedimento não põe em causa o espírito do corpus, uma vez que a unidade de alinhamento final do COMPARA é a frase e não os textos completos.
Separação de frases
O texto de partida e a tradução são atomizados e separados em frases através das ferramentas de processamento de corpora desenvolvidas no âmbito do projecto AC/DC (ver Atomização). Contudo, houve algumas alterações à definição de frase próprias do COMPARA, como se indicará em seguida.
Entende-se por frase uma palavra ou sequência de palavras iniciada por letra maiúscula e terminada em ponto final, reticências, ponto de exclamação ou ponto de interrogação, seguida de uma nova sequência de palavras iniciada por letra maiúscula, ou sem seguimento nenhum, no caso de fim de parágrafo. A título de exemplo, veja-se, no parágrafo abaixo, a separação de frases segundo os critérios adoptados (início de frases assinalados com <s>):
PPJP1 (três frases)
<s>Elias está sem óculos, tem pálpebras pisadas e rugosas como as dos perus.<s> Mastiga em seco fitando sempre (através das pálpebras? por uma réstea sumida?) aqueles retratos desfalecidos em sépia de antepassado. <s>Depois levanta-se e atravessa o corredor, há aqui um cheiro que não engana: ratos?
Nos casos de discurso directo seguido de ou precedido por verbos dicendi (tais como dizer, segredar, gritar, perguntar, etc.), é de notar que podem haver palavras iniciadas por letra maiúscula a seguir aos sinais de pontuação definidos acima sem que isso implique em separação de frase. Por exemplo:
EBJT1 (uma frase)
<s>`You OK?´ Robin's daughter said, standing close to him, but not touching.
Note-se que nos casos em que o discurso directo não é usado antes ou depois de um verbo dicendi, a separação frásica mantém-se. No exemplo abaixo, há uma nova frase a seguir ao segundo ponto de interrogação porque realise não é um verbo dicendi:
PBCB2 (três frases)
<s>Then asks `What happened to Osbenio? <s>And to Clauir?´ <s> I realise he was expecting someone else, a relative, someone or other.
As sequências de palavras terminadas em dois pontos só são consideradas frases separadas nos casos coincidentes com os de fim de parágrafo:
PMMC1 (duas frases)
<s>De repente, gritou-se num desespero:
<s>-- Mulher, ajuda-me.
Se não houver mudança de parágrafo, não há separação de frase, quer a sequência seguinte comece com letra maiúscula ou não:
PPEQ2 (uma frase)
<s>Até eu disse ao Padre Eugénio: «O Eugeninho, o Senhor hoje tem desgosto!»
PPSC1 (uma frase)
<s>De Paris, amo tudo com igual amor: os seus monumentos, os seus teatros, os seus bulevares, os seus jardins, as suas árvores...
É de notar também que podem existir casos de mudança de linha sem que haja separação de frase, como é notório nos excertos que incluem poesia, mas não só. Nesses casos, assinala-se a mudança de linha com <br> para uma melhor visualização das concordâncias:
EBLC1 (três frases)
<s>«Humpty Dumpty sentou-se num muro.
<s>Humpty Dumpty caiu de muito alto.
<s>Todos os cavalos do rei e todos os homens do rei
<br> Não conseguiram pôr Humpty Dumpty outra vez no seu lugar.»
Casos excepcionais
Há autores que utilizam travessões seguidos de palavras que começam com letras maiúsculas de maneira idiossincrática. Para efeitos de alinhamento, casos como estes são tratados como frases separadas. Por exemplo:
ESNG4 (duas frases)
<s>-- There -- there -- <s> The herdsman draws back from his own hand as if to hold something at bay.
EBJT2 (duas frases)
<s>It's your baby -- ´
<s>` Yes, but you're my niece and we've always been particular friends.
Para efeitos de alinhamento, também optámos por tratar como frases separadas as partes dos textos de José Saramago em que o autor utiliza vírgulas seguidas de palavras que começam com letras maiúsculas para sinalizar início de discurso directo. Por exemplo:
PPJSA1 (duas frases)
<s>A mulher guiou o marido para uma cadeira livre, e, por não sobrar outro assento, ficou de pé ao lado dele, <s> Vamos ter de esperar, murmurou-lhe ao ouvido.
Alinhamento por frase
Alinhamento frásico automático
A seguir, os textos são alinhados automaticamente através do EasyAlign 1.0, um programa de alinhamento desenvolvido para o IMS Corpus Workbench (para mais informações acerca do EasyAlign, contactar Stefan Evert).
Com a ajuda de um processador de texto, adaptam-se os resultados do alinhamento automático de modo a que se coadunem com os critérios de alinhamento do COMPARA, em que uma unidade de alinhamento consiste numa frase do texto original (ver alínea 3) e o texto correspondente na tradução, seja ele uma, mais do que uma ou apenas parte de uma frase. As frases não traduzidas encontram-se alinhadas com entidades vazias. As frases introduzidas pelo tradutor sem texto correspondente no original são identificadas com a etiqueta <add> e inseridas na unidade de alinhamento imediatamente precedente. Exemplos:
Frase mantida na tradução (1:1)
EBJT21 (original) | EBJT2 (tradução) |
<s>He still said, though less angrily now, that she had deceived him. | <s>Ele ainda afirmava, embora menos encolerizado, que ela o tinha desiludido. |
Frase dividida na tradução (1:2)
EBDL3T1 (original) | EBDL3T1 (tradução) |
<s>«Spare me the narrow misses, Bill, what have you got?» | <s>«Não me fale do que perdi, Bill. <s>O que é que ainda tem? » |
Frases unidas na tradução (1:½)
PBPM1 (original) | PBPM1 (tradução) |
<s>Muito bem. | <s2>So then, |
<s>O casal vem chegando, dentro do automóvel. | <s2>the couple arrives in the automobile. |
Frase suprimida na tradução (1-0)
PBAD1 (original) | PBAD1 (tradução) |
<s>A cara impenetrável, os olhos não diziam nada. | <s>Zito's face was inscrutable, his eyes said nothing. |
<s>Não estava mais ali quem falou. | <s> |
<s>Ele agora atendia uma freguesa que queria três metros de morim. | <s>Now he was serving a customer who wanted three metres of cambric. |
Frase acrescentada na tradução (1:1+1ad)
PPCP1 (original) | PPCP1 (tradução) |
<s>«Porquê, acha que é assim de deitar fora?» | <s>«But why should we waste them? <add>Why?</add>» |
As frases reordenadas na tradução seguem as mesmas regras de alinhamento, sendo a mudança na ordem codificada separadamente. Utiliza-se a etiqueta <reord> para identificar a frase cuja ordem foi alterada e <place> para identificar o ponto onde o tradutor a inseriu:
Frase reordenada na tradução
EBOW1 (original) | EBOW1 (tradução) |
<s>The picture had to be concealed. | <s><reord 3> Era preciso esconder o retrato.</reord> |
<s>There was no help for it. | <s> Não havia remédio. <place 3> |
As etiquetas que identificam as frases unidas, adicionadas e reordenadas na tradução requerem interpretação humana, e são inseridas manualmente. As etiquetas de alinhamento relativas às frases preservadas, suprimidas e divididas na tradução são inseridas automaticamente. Estas últimas são posteriormente conferidas manualmente, uma vez que a contagem automática para alguns casos de discurso directo nem sempre coincide com os critérios de separação de frases adoptados.
Anotação gramatical
A anotação gramatical do COMPARA processa-se em dois passos: primeiro, uso de um analisador sintáctico automático e, depois, sua revisão humana.
Utilizou-se o analisador automático PALAVRAS para português e o CLAWS para inglês.
Para detalhes sobre a revisão manual da anotação, veja-se Documentação da anotação da parte portuguesa do COMPARA e Anotação inglesa do COMPARA com o CLAWS C7: critérios de revisão, em constante actualização.
Para mais pormenores sobre como a informação sintáctica é incorporada, veja-se a sequência de tarefas envolvida na adição de mais textos ao corpus.
Anotação semântica
Como não existem anotadores semânticos automáticos para o português, a abordagem de anotação semântica que seguimos no COMPARA é a seguinte: circunscrevemos lexicalmente o campo em que estamos interessados, anotamos automaticamente todas as palavras pertencentes a esse campo, e depois fazemos a revisão humana, com consequente eventual refinamento da análise.
Informação semântica sobre os textos do COMPARA encontra-se no atributo "sem". Iniciámos esta anotação pela categoria da cor, dividindo as palavras que denotam cor em cinco categorias: cor, cor:original, cor:raça, cor:humana e cor:vinho. Além disso, também marcámos parcialmente casos de raça e de madureza, sem="raça" e sem="naomaduro".
Para as palavras de cor marcadas como "cor" apenas, ainda criámos uma outra classificação, a de grupo de cor, com os seguintes possíveis valores para o lado português: Amarelo, Azul, Branco, Castanho, Cinzento, Creme, Dourado, Laranja, Prateado, Preto, Rosa, Roxo, Verde, Vermelho, assim como Outras, Multipla e Naoespecificada, que constituem os valores do atributo "cor".
Para o lado inglês o atributo correspondente, "colour" pode ter os seguintes valores: Blue, Red, Yellow, Green, Orange, Brown, Beige, Black, White, Grey, Pink, Purple, Gold, Silver, Other, Multiple e Unspecified.
Veja-se a Documentação da anotação relativa à cor no COMPARA (Silva et al.) para mais pormenores.
Esperamos que investigadores interessados noutros campos semânticos nos ajudem a incorporar no COMPARA mais informação semântica, através do fornecimento inicial das listas de lexemas relevantes para esse campo e da ajuda na revisão humana do resultado da anotação automática com base nessas listas.
Dessa forma, enriqueceremos colaborativamente o COMPARA como um recurso muito mais abrangente que permita comparações de semântica contrastiva entre o português e o inglês.