A etiqueta <sic> </sic>

Susana Afonso, Eckhard Bick & Ana Raquel Marchi

logo temporário da FS
Projecto Floresta sintá(c)tica
Última actualização: 28 de Fevereiro de 2001


1. Criação da etiqueta

A necessidade de introdução de uma nova tag / etiqueta, <sic>, surge duranteo processo de revisão da separação automática de frases que compõem o primeiro milhão de palavras do CETEMPúblico. Ao longo do processo de revisão da separacão das frases, os anotadores encontraram ocorrências de segmentos específicos integrados no que, por critérios definidos (http://cgi.portugues.mct.pt/treebank/CriteriosSeparacao.html) foi considerado como sendo uma unidade frásica. Por diferentes razões (explicitadas em 2.), desconsideraram-se esses segmentos como tendo uma papel relevante na frase, em termos sintácticos e semânticos, em alguns casos.

Por isso, a etiqueta <sic> </sic> indica /marca segmentos inseridos numa frase que não são analisados sintacticamente. Em termos práticos e de desempenho do parser, esses segmentos são ignorados pelo analisador sintáctico.

2. Uso de <sic> no CETEMPúblico

Apenas as sequências etiquetadas como <s> </s> foram submetidas a esta decisão de exclusão de segmentos não passíveis de serem analisados sintacticamente.

Estes segmentos são de natureza distinta e desconsiderados por diferentes razões:

i)PARCIAIS / RESULTADOS DE ENCONTROS DESPORTIVOS

Os resultados de encontros desportivos, quando integrados na unidade frásica e não tendo qualquer relação argumental /dependencial com os restantes elementos da frase, ou seja, funcionando apenas como itens de uma lista, não serão analisados sintacticamente. Desconsiderou-se por exemplo o seguinte segmentona frase:

<ext n=4361 sec=des sem=95b>
<s>Outra nota digna de destaque vai para a vitória que a Académica de Espinho obteve, no recinto do Nacional de Ginástica:<sic> 3-2 (11-15, 15-12, 15-6, 12-15 e 15-12)</sic>.</s>
No entanto, casos em que o resultado é sintacticamente relevante, os segmentos não foram etiquetados, como é o caso do seguinte exemplo: 1) Complemento de preposição:

<ext n=3718 sec=des sem=96b>
<s>O FC Porto entrou melhor no jogo e ao intervalo já vencia por 3-0.</s>

ii) OCORRÊNCIA DE SEGMENTOS EM LÍNGUA ESTRANGEIRA

Neste ponto há a considerar duas questões:
  1. segmentos em língua estrangeira integrados numa frase;
  2. frases <s> </s> em língua estrangeira;
Quanto ao primeiro ponto, os nomes próprios como autores, filmes, locais ou expressões (como por exemplo, "very british" ou "american style") não foram etiquetados com a tag <sic>.

Segmentos frásicos em língua estrangeira inseridos na frase foram, por outro lado, etiquetados <sic>, mas respeitaram critérios de separação de frases.

Assim, veja-se os seguintes exemplos:

<ext n=3640 sec=clt sem=95b>
<s>No fim do primeiro set da noite de 28 de Julho, ao apresentá-lo, Art disse o que pensava:<sic> «...and the bass player, who joined the band today; unbelievable!»</sic></s>

<ext n=3640 sec=clt sem=95b>
<s>E quando os discos saíram, os ouvidos deram razão às primeiras palavras gravadas de Art Pepper:</s>
<s> <sic>«you have come to see history made».</sic></s>

Relativamente à segunda questão, toda a frase foi etiquetada <sic> </sic>. Um exemplo ilustrativo:

<ext n=5320 sec=soc sem=92a>
<s><sic>Quatre écoles de Mantova se livrent, en coopération et dans le cadre de leur enseignement normal, à une analyse périodique des eaux souterraines et de surface des communes voisines.</sic></s>

iii) VERSOS

Optou-se por numa primeira fase de constituição da floresta sintáctica não se analisar versos de poemas. Deste modo, toda a sequência de versos, divididospor barra (/), foram desconsiderados. Consequentemente, não se procedeu à revisão da separação de frases.

<ext n=3810 sec=clt sem=92b>
<s></sic> «sentado à porta da escola / onde a instrução o deixou/o professor pede esmola / aos alunos que ensinou».</sic></s>

No entanto, casos houve em que por não estar indicada a marca delimitatóriade versos (/), mas outro sinal de pontuação relevante em termos de separação frásica, alguns versos foram separados:

<ext n=3872 sec=clt sem=92a>
<s> <sic> «Ora olha os amantes e o que eles sentem: / mal vêm as confissões / quão breve mentem! </sic> </s>
<s> (...) Por nunca te abraçar é que tetenho agora» . </s>¶

iv) INDICAÇÃO DE ALÍNEAS, PONTOS

Do ponto de vista sintáctico-semântico, não pareceu relevante incluir numa análise sintáctica elementos extratextuais, de estruturação de texto, como numeração de itens, por pontos ou alíneas ou semelhantes.

Da mesma forma, a tag <sic> foi apenas utilizada nos casos em que a numeração não tem função sintáctica (dependencial) relevante.

Os seguintes exemplos ilustram o exposto:

<ext n=2967 sec=nd sem=98a>
<s><sic>2 --</sic> O primeiro e gigantesco desafio que se coloca, no futuro, ao homem, é o de como explorar e aproveitar os recursos oceânicos, em especial os recursos vivos.</s>

<ext n=3200 sec=soc sem=92a>
<s><sic>9.</sic> Um equilíbrio mais próximo da justiça social.</s>

<ext n=3526 sec=eco sem=96a>
<s><sic>c)</sic> margem do revendedor / concessionário -- varia de companhia para companhia, mas situa-se entre os 500 e os 550 por litro.</s>

v) ACTORES DE DISCURSO: ENTREVISTADOR/ ENTREVISTADO

No contexto específico da entrevista em que estão especificados o entrevistador (entidade ou pessoa individual) ou o entrevistado (nome próprio, abreviadoou não) ou em que se indica que unidades frásicas correspondentes à pergunta ouà resposta, apenas o texto do entrevistador e do entrevistado em si. Assim, sequências como R. / P.; P- / R-; PÚBLICO-, etc., foram etiquetadas com a tag <sic>, como ilustram os exemplos seguintes:

<ext n=2757 sec=pol sem=91a>
<s><sic>P --</sic> Voltando ao Rafael Barbosa; os seus detractores acusam-no de ter colaborado com o Marechal Spínola, nos últimos anos do regime colonial ...</s>
<s><sic>B. P. B. --</sic> É difícil julgar as pessoas desenquadrando-as da sua época, do momento em que se estava a viver.</s>

<ext n=2943 sec=nd sem=97a>
<s><sic>PÚBLICO --</sic> Não há contradição entre esse sorriso e a apreciação que as pessoas fazem da Saúde?</s>
<s><sic>MARIA DE BELÉM ROSEIRA --</sic> Não considero que exista uma contradição, porque sabemos que as pessoas têm tendência a responder pela negativa.</s>

vi) ENDEREÇOS ELECTRÓNICOS

A título de exemplo, veja-se o caso:

<ext n=2979 sec=com sem=97b>


<s></sic>URL: http://www.propellerheads.se/.</sic></s>

v) METACOMENTÁRIOS

A questão dos metacomentários é mais complexa e não tão linear como os pontos anteriores em que não houve praticamente dúvida quanto a identificar e etiquetar <sic> os elementos descritos. O mesmo não ocorreu com as sequências que foram consideradas metacomentários.

Durante a fase de revisão da separação de frases, os anotadores depararam com situações dentro das frases em que, entre parênteses, ocorria texto que nãoparecia estar sintáctica ou semanticamente relcionada com o período imediatamente anterior. Tais situações, expostas em baixo, foram etiquetadas de <sic>.

(A) Sequências que remetem o leitor para outras realidades que não o texto que lê, por exemplo, imagens que acompanham o texto. Veja-se a título de exemplo os seguintes casos:

<ext n=3730 sec=soc sem=94a>
<s>Não compareceu na primeira sessão, segundo confessou ao PÚBLICO, porque nessa altura não tinha consigo os «amigos» que trouxe para a protegerem <sic>(ver caixa)</sic>.</s>

<ext n=4093 sec=soc sem=95b>
<s>Recorde-se que o PDM de Amarante é o último da Região Norte do país a ser concluído <sic>(ver PÚBLICO de 16/8/95)</sic>, uma situação cuja responsabilidade política já foi assumida pelo presidente da Câmara Municipal, Francisco Assis.</s>

<ext n=3076 sec=eco sem=98a>
<s>Na base deste comportamento esteve o anúncio de mais uma falência, desta vez de um dos maiores bancos de investimento independentes do Sudeste asiático, o Peregrine Investment Holdings <sic> (ver página 32) </sic>.</s>

<ext n=4797 sec=nd sem=94b>
<s>Mas, embora sendo sinal do relativo avanço da tecnologia, apresentava limitações que foram por ventura uma das razões que levaram ao seu esquecimento, tendo a sua existência sido revelada apenas neste século, quando foi descoberta a correspondência entre Kepler e Schickard <sic> (ver fig. 1) </sic>.</s>

<ext n=3816 sec=nd sem=93a>
<s>As sugestivas intervenções do famoso bispo do Porto, António Ferreira Gomes <sic> (Cf.«Ecumenismo e os Direitos do Homem na Tradição Portuguesa Antiga», Porto, Telos, 1974) </sic>, têm o defeito de saber a pouco.</s>

(B) Informação extratextual, impossível de ser percepcionada simultaneamente com a leitura num dado momento, devido ao desfazamento espácio-temporal; a sua função é basicamente a mesma das didascálias num texto dramático, como se constata pelos seguintes exemplos:

<ext n=3861 sec=des sem=95a>
<s>(...) Para acabar com esta especulação e com as dúvidas vou apresentar neste momento ao presidente da assembleia geral o pedido para que convoque, para de hoje a 15 dias, uma assembleia para discutir o património do clube <sic> [ muitas palmas ] </sic>.</s>

<ext n=4845 sec=des sem=93a>
<s> <sic> R. -- [ Pausa ] </sic> Não me lembro ...</s>

(C) Outra informação extratextual mas com referência ao conteúdo das frases:

<ext n=3109 sec=clt sem=94b>
<s>Em Português, estão publicadas «As Confissões Verdadeiras de um Terrorista Albino» <sic>(ed.Presença)</sic> e «Enquanto Houver Água na Água e outros poemas» <sic> (tradução de Mário Cesariny -- ed. Dom Quixote) </sic>.</s>

<ext n=2852 sec=clt sem=94b>
<s>Temos esperança de mais História e menos mito, mais exactidão e menos romance, no segundo episódio de Histórias que o Tempo Apagou <sic> (hoje, na TV2, às 20h45) </sic>.</s>

Houve casos que suscitaram dúvida, por conterem verbos finitos, como o seguinte:

<ext n=3512 sec=clt sem=91b>
<s>«...O número e a variedade de locais em que decorre a acção; as mutações bruscas de ambientes; uma cenografia às vezes quase de mágica; (...) aliberdade fantasista e o propositado abandono a uma como que lúdica improvisação» exigiam um espaço multiforme <sic> (o texto entre aspas é de Guilherme de Castilho e vem na p. 22 da «Vida e Obra de Raul Brandão», Ed. Bertrand, 1979) </sic>.</s>

A questão aqui levantada é a seguinte: o que prevalece, os critérios de separação de frases estabelecidos ou, por outro lado, a consideração sobre a natureza das sequências frásicas? Optou-se, nestes casos, por se privilegiar a natureza da sequência entre parênteses como metacomentário, independentemente de conter um verbo finito.

vi) OUTROS CASOS

Também foram etiquetados <sic> casos pontuais de frases que, identificadas como tal pela presença da tag <s> </s>, não seriam relevantes de serem analisadas sintacticamente, como é exemplo o seguinte caso:

<ext n=3889 sec=des sem=92b>


<s><sic>9h00: 11 m barreiras, séries 1ª eliminatória.</sic></s>
<s><sic>9h05: Heptatlo, salto em comprimento.</sic></s>
<s><sic>9h30: Lançamento do disco (fem., qualificação 1º grupo.</sic></s>
<s><sic>10h00: 400 m (fem., séries 1ª eliminatória.</sic></s>
<s><sic>10h30: Disco (fem., qualificação 2º grupo.</sic></s>
<s><sic>15h30: Lançamento do martelo, final.</sic></s> (...)

Detectou-se ao longo do processo de revisão da separação de frases algumas situações de atribuição de tags não muito precisas. Este é um caso em que talvez a tag relativa a lista <li> fosse mais apropriada e daí não ser necessário a junção da tag <sic>.

Alguns dos problemas detectados com a etiquetação foram já resolvidos (nomeadamente a tag para autores e títulos). Outros poderão ser de futuro, através da possível criação de uma nova tag <retirar> que implicará a decisão sobre o que deve constar (ou não) na floresta sintáctica.

Agradecimentos

Queremos agradecer a Miguel Oliveira pela participação activa na discussão inicial que deu origem ao presente documento, assim como pela revisão incial de um terço do material.

[Página da floresta | Critérios de separação | Revisão do primeiro milhão ]


Por favor, envie os seus comentários e sugestões para a lista floresta@corpora.portugues.mct.pt