Projecto Floresta
sintá(c)tica
A Selva foi criada para ser um corpus parcialmente revisto por linguistas. A parcialidade da revisão se deve não à quantidade de revisão feita, mas sim à qualidade. A ideia é que algumas características sejam linguisticamente revistas, e que portanto a revisão não seja feita árvore a árvore, mas caso a caso.
Estruturas envolvendo sintagmas nominais, pela frequencia na língua, e pela quantidade de funções em que estão envolvidas, foram as escolhidas para iniciar a correção.
O processo de revisão da Selva é feito com o auxílio do Milhafre , uma ferramenta de busca desenvolvida especialmente para a Floresta Sintáctica.
Assim, para escolher por onde começar, já que “sintagmas nominais” são abrangentes demais, o primeiro passo foi uma busca no corpus pelas funções mais comuns exercidas por sintagmas nominais. A função mais comum dos sintagmas nominais (np) é serem argumentos de preposições (função P<, cerca de 46% dos np), ou seja, constituírem sintagmas preposicionados:
Além da alta frequência, ainda um outro motivo justifica o início da revisão por este tipo de estrutura: sua potencial ambiguidade da posição do sintagma preposicional (pp) com relação ao núcleo substantivo (“caixa de lápis de cera” vs “caixa de lápis da Maria”), e portanto há mais chances de haver erros do analisador automático.
Naturalmente, algumas vezes, ao revisar / corrigir uma determinada estrutura, acaba sendo necessário rever a árvore toda. Por isso, talvez seja mais correto afirmar que a revisão foi majoritariamente feita caso a caso.
Foram revistas 131 estruturas, dentre as quais 14 são árvores completas.
Além do tipo de correção já previsto (troca do nível do sintagma preposicional “alvo”), os seguintes outros problemas foram detectados e parcialmente corrigidos:
Foram inseridos um total de 202 complementos nominais de sujeito (N<ARGS) e 812 complementos nominais do objecto (N<ARGO), num total de cerca de 1.300 etiquetas revistas
Foram corrigidas estruturas coordenadas que envolvem sintagmas preposicionais (PP). Frequentemente, o parser analisa como coordenação entre um np e um pp (o reconhecimento d [a historicidade] e [da instabilidade])
==H:n("reconhecimento" M S) reconhecimento ==N<ARGO:pp ===H:prp("de" ) de ===P<:cu ====CJT:np =====>N:pron-det("o" F S) a =====H:n("historicidade" F S) historicidade ====CO:conj-c("e") e ====CJT:pp =====H:prp("de") de =====P<:np ======>N:pron-det("o" F S) a ======H:n("instabilidade" F S) instabilidadequando a análise correcta seria como um NP contendo dois PPs (o reconhecimento [da historicidade] e [da instabilidade])
==H:n("reconhecimento" M S) reconhecimento ==N<ARGO:cu ===CJT:pp ====H:prp("de") de ====P<:np =====>N:pron-det("o" F S) a =====H:n("historicidade" F S) historicidade ===CO:conj-c("e") e ===CJT:pp ====H:prp("de") d ====P<:np =====>N:pron-det("o"F S) a ====H:n("instabilidade" F S) instabilidade