PANTERA: teknisk informasjon
PANTERA, Linguateca
Português
Dette er en ny utgave av DISPARA-systemet (Santos, 2002) for språkparet portugisisk-norsk.
- Infrastrukturmessig: vi bruker Open CWB for korpus-koding og for "alignment".
- På portugisisk følger vi den vanlige prosedyre når det gjelder korpus i Linguateca, basert på bruk av PALAVRAS av Eckhard Bick (Bick, 2000) for syntaks og egenutviklet programmer for semantikk. Documentasjonen finnes på siden anotação til AC/DC-prosjektet.
- På norsk bruker vi foreløpig en gammel versjon (2008) av Oslo-Bergen-tagger (Johannessen et al., 2012) uten statistiske entydiggjøring og med valg av første analyse.
- I mai 2021 ble det lagt til anotasjon om følelser på i den norske delen også, finansiert av TextHub ved Universitetet i Oslo. Reglene til norsk annotering: VISLcg format corte-e-costura format.
Hva kan man søke på i den norske delen:
Den omfatter følgende kategorier for ordklasse (pos): subst (som også omfatter egennavn), verb, pu (tegnsetting), prep, pron-pers, adj, adv, det, konj, sbu ("subbordinate conjunctions"), ukjent, pron-sp, pron-res, fork (forkortelse), symb, pron-poss.
Adverb som kommer fra adjektiver, som sterkt eller høyt, er dessverre klassifisert som adj.
Kjønn (gen) kan ha 3 verdier i tillegg til null:
nøyt, mask og fem.
Tall og person (pessnum) finnes bare i pronomene, og kan ha følgende verdier: 1ent 2ent 3ent 1fl 2fl 3fl.
Referanser
- Bick, Eckhard. The Parsing System "Palavras": Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Dr.phil. thesis. Aarhus University. Aarhus, Denmark: Aarhus University Press. November 2000.
- Johannessen, Janne Bondi, Kristin Hagen, André Lynum & Anders Nøklestad. 2012. OBT+stat. A combined rule-based and statistical tagger. In Andersen, Gisle (ed.), Exploring Newspaper Language. Corpus compilation and research based on the Norwegian Newspaper Corpus. John Benjamins Publishing Company, 2012, pp. 51-65.
- Santos, Diana. "DISPARA, a system for distributing parallel corpora on the Web". In Elisabete Ranchhod & Nuno J. Mamede (eds.), Advances in Natural Language Processing (Third International Conference, PorTAL 2002, Faro, Portugal, June 2002, Proceedings), LNAI 2389, Springer, 2002, pp. 209-218.
Siste oppdatering: 19. mai 2024.