Formato de codificação interno das Morfolimpíadas

Primeiras morfolimpíadas, uma iniciativa de avaliação conjunta para o português, organizada pela Linguateca

Esta página descreve o formato interno utilizado nas Morfolimpíadas para permitir comparar os resultados dos vários sistemas entre si e com a lista dourada. Este formato foi também utilizado no envio das análises das formas para a lista dourada a serem revistas pelos membros da Comissão Científica.

Um ficheiro com análises tem as formas separadas pelo separador ×.

O conjunto de análises de uma dada forma é portanto algo com o seguinte formato:

×
forma÷PoS÷lema÷tempo÷número÷pessoa÷género÷grau÷D/A÷outros
×

Os campos forma e lema como os respectivos nomes indicam devem conter a forma e o respectivo lema. Descrevemos os outros campos com mais detalhe em seguida.

PoS

Este campo corresponde à categoria gramatical da palavra. Pode ter os seguintes valores:

ADJAdjectivo
ADVAdvérbio
GRAMClassificação gramatical
INTERJInterjeição
NUMNumeral
PROPNome Próprio
SUBSubstantivo
VVerbo
CLClítico (só aparece depois de V...)
XIndica uma palavra que não existe (segundo o julgamento dos revisores, no caso da lista dourada, ou do sistema, no caso da tradução da sua saída)
A+BContracção de uma palavra com PoS A com uma palavra com PoS B ou verbo com clíticos
.Não houve consenso quanto ao PoS a atribuir (tal só pode ocorrer na lista dourada)

tempo

Este campo é utilizado para os verbos e corresponde ao tempo verbal. Pode ter os seguintes valores:

.Não tem
CONDCondicional
FT_CFuturo do Conjuntivo/subjuntivo
FT_IFuturo do Indicativo
GERGerúndio
INFInfinitivo Impessoal
INFPInfinitivo Pessoal
IMPImperativo (apenas conjugações na 2ª pessoa, ex. Previne tu)
PPParticípio Passado
PR_CPresente do Conjuntivo/subjuntivo
PR_IPresente do Indicativo
PSI_CPretérito Imperfeito do Conjuntivo/subjuntivo
PSI_IPretérito Imperfeito do Indicativo
PSP_IPretérito Perfeito
PSM_IPretérito Mais que Perfeito

número

Este campo corresponde ao número da palavra. Pode ter os seguintes valores:

.Não tem
PPlural
SSingular
A+BUtilizado nas contracções ou verbos com clíticos.

pessoa

Este campo é utilizado para os verbos e corresponde à pessoa verbal. Pode ter os seguintes valores:

.Não tem
11ª pessoa
22ª pessoa
33ª pessoa
A+BUtilizado nas contracções ou verbos com clíticos.

género

Este campo corresponde ao género da palavra. Pode ter os seguintes valores:

.Não tem
FFeminino
MMasculino
IInvariável - indica que a mesma palavra pode ser utilizada nos dois géneros, tal como ´turista´ (SUB) ou ´inteligente´ (ADJ). Não é o caso por exemplo da palavra 'capital' que deve ter duas análises diferentes para indicar dois substantivos não relacionados (capital M e capital F).
A+BUtilizado nas contracções ou verbos com clíticos.

grau

Este campo é utilizado para os adjectivos e corresponde ao grau do adjectivo. Pode ter os seguintes valores:

COMPComparativo e Superlativo (ex. maior)
SUPSuperlativo absoluto (ex. espertíssimo)

D/A

Este campo indica se a palavra é um diminutivo ou aumentativo. Pode ter os seguintes valores:

AUMAumentativo
DIMDiminutivo

outros

Este campo permite indicar outras particularidades que não são possíveis de codificar com os campos anteriores. Alguns valores por nós utilizados, que dividimos em três categorias distintas: Subcategorizações, Variante/Derivação , Informação qualitativa.

Note-se que não estamos a pressupor que a informação nestes campos será necessariamente produzida pelos analisadores, mas sim que a associamos no caso da inspecção manual da lista dourada.

Subcategorizações
ABREVAbreviatura
CARDCardinal (Numeral)
CONTRContracção
FRACFraccionário (Numeral)
LETRANome de letra
ORDOrdinal (Numeral)
QUIMIdentifica um símbolo químico
SIGLAIdentifica uma sigla

Variante
afrApenas usada em África
brasApenas usada no Brasil
lusApenas usada em Portugal

Derivação
alt XIndica que a forma é um erro e X é a forma correcta
deriv XIdentifica uma derivação. X pertence ao conjunto de denominações para os tipos de derivação (ainda provisório), por ex. o prefixo 'in'

Informação qualitativa
desvianteIdentifica uma forma desviante
estrangPalavra estrangeira usada em português
inventadoPalavra inventada
raroAnálise rara para a forma a que se refere

Informação contextual (apenas associada às saídas dos sistemas)

Para podermos executar estudos associados a tipos de texto diferente, associamos também, através de um processo automático, a seguinte informação às análises nos ficheiros ts e uul, em campos seguintes aos descritos anteriormente:
...÷outros÷tx=...÷va=...÷ge=...÷me=...

Por exemplo, para a primeira palavra do conjunto de textos
A÷GRAM÷.÷.÷.÷.÷.÷.÷.÷.÷.÷÷tx=1÷va=bras÷ge=ind÷me=web


Última alteração: 12 de Março de 2009.
Perguntas, comentários e sugestões