Resultado da revisão do primeiro milhão de palavras do CETEMPúblico
Projecto Floresta
sintá(c)tica Última actualização: 20 de Abril de 2001
Um dos primeiros passos na criação da floresta sintáctica foi a
revisão do primeiro milhão do CETEMPúblico, primordialmente em relação
ao critério de separação de frases, mas também resolvendo outros gatos
na atribuição de atributos estruturais (títulos, autores, elementos de
lista), na correcção de problemas de digitação e deficiente separação
em unidades básicas.
A um conjunto de 127 alterações em relação às marcações <t> e <a> (título e autor, respectivamente)
dando origem ao aparecimento ou desaparecimento de marcas de frase <s> (51)
apenas substituindo <t> por <a> ou vice-versa (76)
amalgamando partes de títulos que se encontravam em linhas
separadas seguidas (esta acção foi considerada como junção de duas
frases/títulos diferentes e não foi portanto contabilizada na
presente rubrica)
Um grande número frases com alterações na
própria separação, cuja contabilização é a seguinte:
Tipo
Número
Junção de frases
401
Separação de frases
1745
Outras diferenças
82 relativo a 191 frases
Frases iniciais alteradas
2831
Frases finais alteradas
4175
Um conjunto de frases com etiquetas intra-frásicas
<sic> para indicar partes da frase que não vale a
pena submeter a escrutínio sintáctico: veja-se os
critérios utilizados para as marcar em A etiqueta <sic> </sic>. No
total foram introduzidas 1133 destas etiquetas.
Um conjunto de critérios seguidos na separação de frases, juntamente com a ilustração e discussão de casos problemáticos: Critérios de separação de sentenças/frases.
O primeiro milhão revisto (já com os extractos
inválidos retirados) e anotado encontra-se disponível
para interrogação através do projecto AC/DC
Algumas notas sobre a metodologia e interpretação dos dados