Resultado da revisão do primeiro milhão de palavras do CETEMPúblico

logo temporário da FS
Projecto Floresta sintá(c)tica
Última actualização: 20 de Abril de 2001
Um dos primeiros passos na criação da floresta sintáctica foi a revisão do primeiro milhão do CETEMPúblico, primordialmente em relação ao critério de separação de frases, mas também resolvendo outros gatos na atribuição de atributos estruturais (títulos, autores, elementos de lista), na correcção de problemas de digitação e deficiente separação em unidades básicas.

Resumo dos resultados

Essa revisão deu origem:
  1. A uma lista de 129 extractos a retirar, por serem considerados não interessantes para a floresta sintáctica:
    30, 49, 51, 70, 100, 136, 244, 298, 671, 688, 699, 781, 840, 841, 1201, 1222, 1548, 1580, 1654, 1845, 1865, 1877, 1943, 1961, 2052, 2074, 2318, 2326, 2335, 2498, 2567, 2633, 2657, 2681, 2977, 2979, 3060, 3357, 3423, 3481, 3500, 3538, 3606, 3740, 3927, 3962, 3981, 3982, 3986, 4023, 4519, 4589, 4666, 4673, 4690, 4692, 4728, 4992, 5007, 5059, 5105, 5129, 5159, 5202, 5391, 5526, 5566, 5667, 5709, 5710, 5722, 5730, 5842, 5896, 5917, 5980, 6010, 6027, 6042, 6055, 6106, 6138, 6161, 6250, 6264, 6271, 6279, 6294, 6438, 6518, 6550, 6564, 6630, 6633, 6713, 6736, 6745, 6757, 6924, 6952, 6981, 7002, 7006, 7049, 7077, 7124, 7161, 7171, 7195, 7197, 7277, 7292, 7342, 7393, 7395, 7552, 7623, 7632, 7639, 7642, 7685, 7686, 7718, 7799, 7804, 7805, 7861, 7920, 7921, 6522
  2. A um conjunto de 127 alterações em relação às marcações <t> e <a> (título e autor, respectivamente)
  3. Um grande número frases com alterações na própria separação, cuja contabilização é a seguinte:
    Tipo Número
    Junção de frases 401
    Separação de frases 1745
    Outras diferenças 82 relativo a 191 frases
    Frases iniciais alteradas 2831
    Frases finais alteradas 4175
  4. Um conjunto de frases com etiquetas intra-frásicas <sic> para indicar partes da frase que não vale a pena submeter a escrutínio sintáctico: veja-se os critérios utilizados para as marcar em A etiqueta <sic> </sic>. No total foram introduzidas 1133 destas etiquetas.
  5. Um conjunto de critérios seguidos na separação de frases, juntamente com a ilustração e discussão de casos problemáticos: Critérios de separação de sentenças/frases. O primeiro milhão revisto (já com os extractos inválidos retirados) e anotado encontra-se disponível para interrogação através do projecto AC/DC

    Algumas notas sobre a metodologia e interpretação dos dados

    Em breve aqui.
    Redacção: Diana Santos