Critérios de separação de sentenças/frases

Susana Afonso, Eckhard Bick & Ana Raquel Marchi

logo temporário da FS
Projecto Floresta sintá(c)tica
Última actualização: 28 de Fevereiro de 2001


Como entrada para o projecto Floresta Sintá(c)tica tomou-se o primeiro milhão de palavras do corpus CETEMPúblico, que é distribuído com a indicação de separação de frases, marcas de parágrafo, títulos e autores.

Visto que essa marcação foi feita baseada em critérios heurísticos e visto que a criação da floresta prossegue através da revisão da análise sintáctica, considerou-se como desejável evitar todos os erros provenientes de uma deficiente separação em sentenças. Além disso, os critérios de separação de frases eram baseados exclusivamente na pontuação e na ortografia, o que foi considerado pela equipa da Floresta como não sendo uma boa fundação para um projecto preocupado sobretudo com a sintaxe.

Foram então criados os seguintes critérios de revisão da separação originalmente distribuída com o corpus, baseados no seguinte princípio fundamental: algumas marcas de pontuação (consideradas pelos programas automáticos como intra-frásicas) passariam a ser consideradas separadores de frases, dependendo da existência de um (ou mais) verbos finitos.

A separação de frases do primeiro milhão do CETEMPúblico revisto pela equipa da floresta obedece assim aos critérios descritos no presente documento. Casos complicados como poemas, assim como partes de frases que por uma razão ou por outra foram consideradas não interessantes para um analisador sintáctico, foram marcadas manualmente com a etiqueta <sic>, cuja utilização se encontra pormenorizadamente descrita em documento à parte: Critérios de utilização da etiqueta <sic>.

1. SEPARADORES ABSOLUTOS

a) ponto final

O ponto final marca separação em qualquer circunstância, tendo sido revistos e modificados todos os casos em que o ponto de abreviatura foi erradamente interpretado como ponto final. Assim, no exemplo seguinte, e ainda que apenas a primeira frase contenha um verbo finito, foi mantida a separação em três frases:

<ext n=2779 sec=pol sem=94a>
<s> E, ao que se sabe, foi mais uma noite de balanço para as novas batalhas à volta da (re )liderança da televisão do Estado.</s>
<s> Desilusão, pois, para a legião de bajuladores do (continuadamente) mais poderoso casal da RTP.</s>
<s> E, claro, para os outros, também.</s>

b) ponto de exclamação e interrogação

Os pontos de exclamação e interrogação marcam sempre a separação entre frases, independentemente de ocorrer ou não um verbo finito na frase, se se tratar de frases absolutas, isto é, se estes sinais de pontuação não ocorrerem integrados numa outra sequência frásica (cf. Interacção entre vários critérios). A título de exemplo vejam-se os seguintes exemplos:

(b1) Sem verbo finito:

<ext n=207 sec=clt sem=97b>
<s> Se sim, BINGO! </s>

<ext n=4081 sec=pol sem=93a>
<s> E depois? </s>

(b2) Com verbo finito:

<ext n=4015 sec=soc sem=93a>
<s> «Então sempre disse mais! </s>

<ext n=4030 sec=soc sem=96a>
<s> Quem disse que os ingleses são cinzentões, frios e nada românticos? </s>

Nota: As aspas não foram consideradas como critério de separação frásica. No entanto, no caso de delimitadoras de títulos mencionados no interior de uma frase e que contenham sinais de pontuação relevantes para a separação frásica (como ponto de exclamação ou interrogação, por exemplo), a unidade daquele foi mantida.

Veja-se o seguinte exemplo:

<ext n=1675 sec=clt sem=97a>
<s> Os responsáveis da Abril em Maio escolheram para este ano o lema «O Que Resta De? Da Arte, da Guerra, do Romance, da Europa, do 25 de Abril, das Cumplicidades» . </s>

2. NÃO SEPARADORES

Os não separadores, como a vírgula, nunca separam sentenças.

<ext n=6025 sec=nd sem=93b>
<s> Esta sucessão de desafios abre um novo capítulo no confronto que, desde o fim da guerra fria, voltou a opor, nos Estados Unidos, internacionalistas e isolacionistas.<s>

3. SEPARADORES RELATIVOS

Certos sinais de pontuação foram considerados como separadores de frases apenas quando

a) ponto e vírgula

(a1) Caso em que se separa:

<ext n=35 sec=pol sem=93b>
<s> Alguns especialistas defendem que o Estado judaico deverá privilegiar as relações económicas com o Ocidente, ao contrário dos palestinianos; </s>
<s> outros defendem precisamente o contrário . </s>
 

(a2) Caso em que não se separa:

<ext n=3102 sec=clt-soc sem=94a>
<s> Há uma escolha a fazer em cada momento: fazer tratamento ou não; operar ou não; ventilar ou não . </s>

b) dois pontos

(b1) Casos em que se separa:

<ext n=5423 sec=nd sem=91a>
<s> Esta atracção por África tem, segundo o Presidente do INIP, uma explicação bastante simples:</s>
<s> a produção portuguesa de peixe não ultrapassa as 200 ou 300 mil toneladas por ano e o consumo é o dobro.</s>

<ext n=3155 sec=des sem=92b>
<s> E esta noite disse:</s>
<s> Obrigado por me trazeres aqui em relativa boa forma, e por me dares a oportunidade de competir.</s>

<ext n=5173 sec=clt sem=94b>
<s> O que os preservativos dizem é:</s>
<s> «Nunca morras por amor, nem nada que se pareça com isso.»</s>

(b2) Caso em que não se separa:

<ext n=6078 sec=des sem=91b>
<s> Dava para tudo: até para Ivkovic vir à entrada da sua área ganhar uma bola de cabeça a colegas e adversários.</s>

c) reticências

(c1) Caso em que se separa:

<ext n=2993 sec=pol sem=91b>
<s> «Não sei se o desporto nacional dos quatro imbecis que estão acima é matar miúdos (até agora 26 foram as crianças vítimas da ETA) ... </s>
<s> se hoje fazer a luta armada já é questionável, muito mais se torna quando se matam putos de qualquer maneira ... </s>
<s> os de cima são uma quadrilha de atrasados mentais» . </s>

(c2) Casos em que não se separa:

<ext n=3256 sec=pol sem=95a>
<s> Jorge Sampaio está convencido «há quase um ano (...) que Cavaco Silva vai ser candidato à Presidência e já está em campanha» . </s>

<ext n=3779 sec=soc sem=92b>
<s> «Hum ... Simples, não? </s>

d) parênteses

(e1) Casos em que se separa:

<ext n=2852 sec=clt sem=94b>
<s> Um bandido que não ocultaria a «imoralidade» de, no fim da vida, se ter viciado em negras </s>
<s> («nativas», chamar-lhes-ia, ainda hoje, José Hermano Saraiva, com esse léxico metropolitano que usou, ao recordar a sua excursão de estudantes, em 1961, à zona de Xissa, distrito de Lunda, e o encontro com a campa do herói) . </s>

(e2) Casos em que não se separa:

<ext n=2857 sec=soc sem=96b>
<s> Questionado também sobre o caso, o presidente da Câmara local, Fernando Ruas (PSD), declarou que o que viu nos jornais «envergonha Viseu» . </s>

<ext n=4102 sec=clt sem=93a>
<s> Portanto, em relação à segunda venda, se antes tinha 4, depois ficou com 3 (para dar aos vizinhos!) </s>

e) travessão único

Casos em que se separa:

<ext n=5953 sec=opi sem=98b>
<s> Por fim, deixe que lhe diga que, apesar de o não conhecer, pela sua escrita o acho preconceituoso (e muito) --</s>
<s> a forma de expor pela alegoria do exército deixa muito a desejar.</s>

<ext n=4150 sec=nd sem=92b>
<s> O fundamental é que Selznick, que na altura não tinha filmes para a sua contratada mas estava evidentemente interessado em reforçar a sua imagem pública (mesmo em produções de outros), concordou em ceder Bergman, recebendo em troca Olivia de Havilland (que aliás não veio a utilizar, «subalugando-a» à RKO -- </s>
<s> este era o regime de Hollywood, sendo os actores uma das mercadorias na «linha de produção») , apenas depois de saber que ela não fora escolhida para o papel que o produtor pretendia, o de Maria em «Por Quem os Sinos Dobram» . </s>

Casos em que não se separa:

<ext n=3106 sec=soc sem=95b>
<s> Aquela aposta deve, também, contemplar uma actividade fundamental para a região -- o turismo . </s>

<ext n=4102 sec=clt sem=93a>
<s> Notemos que antes da segunda venda, a senhora Conceição deveria ter um número de ovos tal que, subtraído um quinto deles e ainda mais 1/5, ficasse um número inteiro -- para não ter que partir ovos! </s>

f) travessão duplo (...--...--...)

Casos em que se separa:

<ext n=4024 sec=clt sem=97b>
<s> Fica tudo como está -- a mesma trama, as mesmas situações, os mesmos personagens, coisa e tal -- </s>
<s> só que agora é um musical . </s>

Casos em que não se separa:

<ext n=6 sec=soc sem=97a>
<s>O balanço -- a que o PÚBLICO teve acesso -- traçado pela comissão revela que o número de pessoas abrangidas pelo RMG aumentou 36 por cento relativamente ao último balanço de 30 de Março . </s>

4. INTERACÇÃO ENTRE REGRAS E SINAIS DE PONTUAÇÃO

Este ponto relaciona-se com a ocorrência de vários sinais de pontuação distintos seguidos. Para situações de ocorrência de sinais de pontuação contíguos, considerou-se que certos sinais de pontuação tinham prioridade sobre outros:

(a) Separadores relativos seguidos de separadores absolutos

Esta regra aplica-se aos casos de travessão ou parêntesis seguido de vírgula. A frase nunca é separada, considerando os casos em que é o último sinal de pontuação contíguo e sendo a vírgula por definição um não separador frásico. Exemplos:

<ext n=3619 sec=nd sem=91a>
<s> Não digo que não possa repetir alguma destas coisas -- não fecho portas, mas não as abro --, digo apenas que, de momento, não está no meu horizonte.»</s>

<ext n=2995 sec=soc sem=94b>
<s> Concorda que nos últimos tempos vende menos -- «é por causa do balão» --, no entanto continuam a sair trinta litros por dia.</s>

<ext n=6024 sec=clt sem=92a>
<s> Compõem-na um grupo de intelectuais velhotes e decrépitos, um conjunto de associações ligadas ao antigamente (antigamente havia associações?), uns políticos que já deram o que tinham a dar, uns independentes como sempre convém nestas situações e até, para cúmulo, fala-se do apoio discreto do Presidente da nação.</s>

Veja-se um exemplo paradigmático

<ext n=3999 sec=clt sem=96b>
<s> O testemunho que nos é dado pelo seu neto, o engenheiro Hugo da Paz dos Reis -- que na conversa com o PÚBLICO começou por lamentar que na edição comemorativa que dedicaram ao seu avô os CTT tenham errado o seu nome, escrevendo no selo o nome Pais dos Reis! ...--, é naturalmente difuso . </s>

b) vários sinais de pontuação separadores unários

Têm prioridade aqueles sinais de pontuação que não necessitam da ocorrência de verbo finito para formar frases: ponto final, ponto de interrogação, ponto de exclamação. Exemplos:

<ext n=3619 sec=nd sem=91a>
<s> Ambição? ...</s>
<s> Já realizei aquilo que poderia ser a minha ambição na política: fui secretário de Estado, ministro, deputado ... </s>

c) sinais de pontuação contíguos incluindo separadores binários

Tem prioridade o último sinal de pontuação que ocorre na sequência de sinais contíguos (seguindo sempre a regra da existência ou não de verbo finito). Exemplo de ponto de exclamação ou de interrogação seguido de travessão duplo ou parênteses:

<ext n=5909 sec=nd sem=95a>
<s> Marcou -- caramba! -- a diferença da sua abissal estatura política para a boçalidade política de um Reagan.</s>

Em "caramba!", sequência integrada numa outra sequência frásica, o último sinal de pontuação contíguo é o travessão (duplo). Visto que a expressão interior aos travessões não contém um verbo finito, não há separação.

Agradecimentos

Queremos agradecer a Miguel Oliveira pela participação activa na discussão inicial que deu origem ao presente documento, assim como pela revisão incial de um terço do material.

[Página da floresta | Critérios para introduzir a etiqueta <sic> | Revisão do primeiro milhão ]


Por favor, envie os seus comentários e sugestões para a lista floresta@corpora.portugues.mct.pt