PANTERA: Informação técnica
PANTERA, Linguateca
Norsk
Este projeto é uma nova instanciação do sistema DISPARA (Santos, 2002) para o par norueguês-português.
- Do ponto de vista da estrutura informática, usa o Open CWB como sistema de codificação dos corpos, assim como o seu alinhador.
- Do lado português, segue a anotação gramatical e semântica da Linguateca como o resto dos seus corpos, que é baseada no anotador gramatical PALAVRAS de Eckhard Bick (Bick, 2000). Documentação extensiva desta anotação pode ser encontrada (entre outras) na página sobre anotação do AC/DC.
- Do lado norueguês, usa por enquanto o Oslo-Bergen-tagger (Johannessen et al., 2012) na sua versão de 2008, sem a desambiguação estatística, escolhendo cegamente a primeira análise.
- A partir de maio de 2021 foi adicionada anotação de emoções também ao lado norueguês, financiada pelo TextHub da Universidade de Oslo. Regras de anotação do norueguês: formato VISLcg formato corte-e-costura.
Procuras do lado norueguês:
A categoria pos pode ter os seguintes valores:
subst (também inclui nomes próprios), verb, pu (pontuação), prep, pron-pers, adj, adv, det, konj, sbu (conjunções subordinativas), ukjent (desconhecido), pron-sp (pronome interrogativo), pron-res, fork (abreviatura), symb (símbolo), e pron-poss (pronome possessivo).
Os advérbios formados por um adjetivo neutro aparecem infelizmente como adjetivos.
O género (gen) pode ter três valores, além de zero:
nøyt (neutro), mask e fem.
O número e a pessoa (pessnum) só aparecem em pronomes, e podem ter os seguintes valores:
1ent, 2ent, 3ent, 1fl, 2fl, 3fl.
Referências
- Bick, Eckhard. The Parsing System "Palavras": Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Dr.phil. thesis. Aarhus University. Aarhus, Denmark: Aarhus University Press. November 2000.
- Johannessen, Janne Bondi, Kristin Hagen, André Lynum & Anders Nøklestad. 2012. OBT+stat. A combined rule-based and statistical tagger. In Andersen, Gisle (ed.), Exploring Newspaper Language. Corpus compilation and research based on the Norwegian Newspaper Corpus. John Benjamins Publishing Company, 2012, pp. 51-65.
- Santos, Diana. "DISPARA, a system for distributing parallel corpora on the Web". In Elisabete Ranchhod & Nuno J. Mamede (eds.), Advances in Natural Language Processing (Third International Conference, PorTAL 2002, Faro, Portugal, June 2002, Proceedings), LNAI 2389, Springer, 2002, pp. 209-218.
Última alteração: 19 de maio de 2024.