Ensaio das morfolimpíadas:
Relato do encontro presencial

Dia 1 de Outubro de 2002, sala Batel, Hotel Tuela, Porto.
Presentes: Cristina Mota e Jorge Baptista (Label), José Carlos Medeiros (Porto Editora) como observador [apenas durante a manhã], Paulo Rocha, Susana Afonso (VISL), Alberto Simões e José João Dias de Almeida (Jspell) e Diana Santos.

O encontro iniciou-se por uma apresentação curta -- para situar os quatro presentes (CM, SA, AS e JJ) que não tinham estado em Faro -- sobre a Linguateca e o que era entendido por avaliação conjunta. Fez-se um ponto da situação, do ponto de vista da organização, em que vários factores foram apresentados para explicar o facto de não ter sido possível apresentar resultados

O resto do relato é uma compilação de tudo o que foi discutido durante o encontro, sem tentar reproduzir a ordem seguida. Os participantes debruçaram-se, em primeiro lugar, sobre o processo seguido, tendo sempre em vista, contudo, o planeamento do processo a seguir nas verdadeiras morfolimpíadas.

Discussão e clarificação sobre o processo seguido

a) Lista dourada

Grande parte da discussão centrou-se no significado da lista dourada. Era representativa dos problemas da morfologia do português? Era um conjunto de "armadilhas", cada qual reflectindo as capacidades de sistemas diferentes? Era pensada para testar tanto "sobregeração" como "subgeração", ou seja, se um sistema daria análises a mais ou a menos?

Qual o estatuto dos próprias formas? Insubstituíveis? Facilmente repetíveis/multiplicáveis? Instâncias de tipos gerais? (JCM apontou que qualquer caso de clíticos servia para testar se o sistema tratava correctamente os clíticos ou não)

O que fazer à lista dourada? Deitar fora? Tornar pública? Dar apenas aos (novos) participantes?

De qualquer maneira, ficou claro que a compilação cooperativa da lista dourada tinha sido muito útil, tanto para detectar problemas e divergências entre os participantes, como para criar as zebras -- programas que transformam a saída dos diversos programas no formato interno usado para comparação.

Foi feito um apanhado das questões para as quais havia diferenças sistemáticas - notando que a lista dourada, claro, estava ou era um objecto, por agora, inconsistente (vai haver uma nova versão, cf. abaixo):

  1. Alguns sistemas tratam derivação, outros não. (E quando um sistema trata derivação tem tipicamente mais saídas por forma)
  2. Quando uma palavra é considerada derivada, há variações significativas no lema, e na forma de especificar o processo de derivação
  3. Alguns sistemas usam uma subcategorização de nomes e adjectivos que substitui / refina as categorias nome e adjectivo. Por exemplo, A t3 indica, parcialmente, o que outros sistemas chamam de N e A
  4. Para formas como enganado enganada enganados enganadas, alguns sistemas apenas consideram particípio passado a forma masculina singular (nesse caso não contemplando género ou número no particípio), marcando as quatro formas como adjectivo, outros sistemas consideram as quatro formas apenas particípios passados e outros ainda consideram as quatro formas como sendo simultaneamente adjectivo e particípio passado
  5. Alguns sistemas consideram que um nome próprio pode ter qualquer número e género, outros que existe um género e número lexical (intrínseco), e que o resto são características sintácticas completamente separadas das lexicais (os Porto vs. o Porto). [Houve contudo um consenso de não considerar as quatro possibilidades como informação lexical ou morfológica.]
  6. Foi além disso argumentado pelo JJ durante o encontro, que género invariável não é o mesmo que a palavra dever ter duas saídas M e F (como a organização tinha feito), visto que I contém mais informação - indica que é a mesma palavra, enquanto duas saídas diferentes podem indicar duas palavras não relacionadas (tal como capital M e capital F)
Todas estas diferenças, para não penalizar ou favorecer diferentes abordagens, têm de ser levadas em conta nas zebras e sobretudo nas funções de comparação, estabelecendo o que chamamos de "comparação por cima" e "comparação por baixo".

Alguns exemplos de como tratar essas diferenças e compará-las foram apresentados no encontro (neste relato aumentámos o número de exemplos), e encontram-se na tabela seguinte. De notar que só se apresentam os casos em que há diferença entre a comparação por baixo e por cima, e não as entradas completas associadas a cada forma.

Forma e tipo de comparação Sistema A Sistema B Resultado
zairense ADJ t3 ADJ e N
Por cima ADJ e N (relacionado com ADJ) ADJ e N A tem mais inform.
Por baixo ADJ e N ADJ e N igual
física ADJ t3 e N ADJ e N
Por cima ADJ e N (relacionado com ADJ) e N ADJ e N A tem mais um N
Por baixo ADJ e N ADJ e N igual
amigavelmente ADV lema amigável lema amigavelmente
Por cima ADV (relacionado com ADJ) ADV A tem mais informação
Por baixo ADV ADV igual
revistas pp (rever) e adj (revisto) pp (rever)
Por cima pp (rever) e adj (revisto) pp (rever) e adj A tem mais informação
Por baixo pp (rever) pp (rever) igual

De notar também que este conhecimento das diferenças sistemáticas entre as várias abordagens, além de ser usado nas zebras e nas funções de comparação, vai ter de ser também incluído, levando à sua modificação, na própria lista dourada... que, como já indicámos, está de momento inconsistente.

Foi feita uma tentativa de identificar, em conjunto durante o encontro, os tipos de fenómenos contemplados na lista dourada. Do ponto de vista linguístico:

Em geral, de um ponto de vista de classificação

Os comentários registados, para os quais houve consenso entre os presentes no Porto parecem indicar que o fenómeno da pontuação devesse ser considerado na eventual comparação da atomização, e que a lista dourada não deveria conter transcrições da oralidade por não haver consenso sobre a sua transcrição. É evidente que estas questões podem e devem ser discutidas também pelos outros participantes.

Foi também identificado que faltavam os seguintes tipos de casos na lista dourada actual

e que havia falta de informação no que se refere a maiúsculas / minúsculas. Por exemplo: Foi além disso salientado que nem todos os sistemas devolvem a forma de entrada, o que significa que, pelo menos para esses sistemas, falta a informação de como a palavra foi grafada.

Foi considerado que devia haver uma coluna para cada campo na lista dourada -- e não uma amálgama de outras. Foram, além disso, identificadas mais uma quantidade de gralhas que tinham passado na dourada_18 e que ficaram para ser corrigidas. Finalmente, foi reiterada a promessa de produzir uma definição formal de todos os valores possíveis para cada categoria, para as categorias preenchidas por mais do que um participante.

b) Textos de teste

Quanto aos textos, foi detectado que, por FALHA DA ORGANIZAÇÃO, os textos na forma TS tinham ido com espaço entre a palavra e o sinal de pontuação, o que muito lamentamos. Isso tornou ainda mais difícil a compreensão, por parte dos participantes, da razão dos três formatos.

Ficou também esclarecido que, no caso do formato UUL, a hipótese de que era a organização a fornecer a atomização não era válida, visto que muitos sistemas ainda subatomizariam os nossos átomos, como era o caso dos clíticos ou dos dígitos entre parênteses, ou mesmo dos URLs. Poderá apenas dizer-se que a organização fornece PARTE da atomização.

Por outro lado, foi afirmado que a forma de apresentar os resultados não é boa para tratar unidades com mais de uma palavra -- nomes próprios, locuções e outros compostos --, tendo-se voluntariado o JJ para criar uma proposta de tratamento separado dessas unidades, para subsequente comparação.

De qualquer maneira, os resultados na aplicação dos sistemas aos vários formatos só poderão ser cabalmente discutidos quando se tiver uma medida das diferenças entre eles, o que ficou adiado até todas as zebras estarem correctas e a organização poder fornecer os resultados preliminares.

Dado que o conjunto de textos provém de um conjunto muito maior (à volta de 250 milhões de palavras...), o facto de ser público deixa de ser relevante quando é assim tão grande, como foi comentado pelo JJ, e daí os presentes não acharam necessário modificar a forma de obtenção dos textos. Mantivemos contudo aberta (pelo menos por agora) a possibilidade de os participantes que assim o queiram fornecerem texto (a ser tratado pela organização).

Quanto à identificação dos textos, foi sugerida a apresentação de um conjunto de categorias associadas a cada corpus, de forma a que cada texto possa ser automaticamente identificável sem ter de passar pelo próprio conhecimento do corpus. Essa informação ficou prometida pela organização (DS e PR).

c) Clarificação da definição das tarefas

Foi reiterada a definição das tarefas que serão comparadas nas Morfolimpíadas, por ordem de dificuldade (mas com ênfase nas três do meio)
  1. Verificação ortográfica
  2. Análise morfológica das palavras simples sem contexto (UTS)
  3. » em contexto já atomizado (UUL)
  4. » texto seguido (TS)
  5. Desambiguação
Foi feita a proposta de, como um possível subproduto das morfolimpíadas, analisar a atomização (documentar / criar um padrão? sobre lidar com URLS, referência bibliográficas, horas, datas, matrículas, ...) o que simplificaria, depois, a comparação do que tem a ver com a morfologia propriamente dita.

Além disso, como mencionado anteriormente, a comparação de termos multi-palavra será feita também em separado.

Todas as classificações / medidas são para ser obtidas, além de globalmente, em função de um conjunto de categorias desde variante, género, a cada texto específico.

d) Sistema de comparações

Apenas pudemos referir a intenção de fazer medidas que reflectissem comparações parciais, visto que infelizmente ainda não tinham sido desenvolvidos os programas de comparação. Em relação a este último tipo de comparação -- para o qual os participantes no encontro alertaram para a necessidade de esclarecimento do que é e porquê -- o seu objectivo é garantir que o que estamos a medir tem alguma relação com a realidade. Ou seja, as diferenças entre os sistemas são as mesmas quando só comparamos a saída em relação ao que devia lá estar (e não todas as saídas potenciais)?

De forma a não prejudicar ou favorecer nenhum sistema, além dos dois conjuntos de teste neste momento em progresso (para o português brasileiro - Violeta Quental, UFMRJ, para o português de Portugal - Maria João Barros e Daniela Braga, FEUP) e dos três conjuntos de corpora revistos já incluídos ou a incluir no conjunto de textos de teste (PAROLE, Floresta, AmostRA), foi discutida a hipótese de compilar mais um conjunto de textos por cada participante (da ordem das 1000 palavras).

Estamos, contudo, plenamente conscientes de que um esforço deste tipo (anotação conjunta) irá requerer bastante trabalho na definição das tarefas e de um consenso mínimo...

Discussão sobre como prosseguir

Estes resultados têm de ser validados e apoiados pelos participantes no ensaio que não estiveram no Porto. Por isso, não são CONCLUSÕES, mas apenas SUGESTÕES.

a) como aproveitar o ensaio para perder menos tempo com cada participante

Dado um novo participante, para integrar os novos sistemas sem necessidade de tanta interacção, pensamos que seria natural dar acesso ao tipo de questões e lista das formas e dos textos - em suma, correr o ensaio fora de tempo, para criar uma zebra nova.

Além disso tal poderá ser suplementado com um lista de questões a pôr a cada sistema.

b) Criação de nova lista dourada ?

Embora este fosse um assunto sobre o qual houve dúvidas, penso que a conclusão foi a de que deveríamos tentar criar uma nova lista dourada, admitindo que houve pessoas que guardaram ainda alguns bons exemplos na manga.

Contudo, ainda estão a faltar os resultados quantitativos do ensaio.

A haver novo esforço, terão se ser fornecidas mais directivas aos participantes (do tipo: forneça pelo menos um caso de ...; para uma dada forma forneça todas as análises que acha que deve ter; etc.), devendo contudo ser encorajadas as tentativas de incluir mais problemas!

Tal lista dourada seria complementada com uma lista prateada, compilada automaticamente através das diferenças entre os seis sistemas que participaram no ensaio. Uma primeira lista prateada será criada pela organização do ensaio (PR e DS) e mostrada aos participantes no ensaio -- que serão a organização das morfolimpíadas. Se este processo for considerado por todos como um bom complemento, outra lista prateada será compilada para as morfolimpíadas. [Isto é uma parte que ainda ficou por fazer e que faz evidentemente parte do ensaio.]

De forma a que esse novo conjunto -- a lista prateada -- contenha as respostas certas (para que se torne em (parte da) lista dourada), dividimo-lo em X partes, cada uma revista por um dos participantes.

Isto, aliás, é o fio condutor da cooperatividade: todos têm acesso a uma parte, mas ninguém tem acesso ao todo. O mesmo se poderia fazer à anotação manual dos textos, se for decidido executá-la -- cada 1/X parte revista por um dos X participantes.

c) Execução das próprias morfolimpíadas

Localmente? Ou apenas remotamente? Ainda que se tenha mencionado a possibilidade de trazer e instalar os sistemas in loco durante as morfolimpíadas, foi consensual que, de forma a se poder ter uma conferência de avaliação conjunta segundo o modelo americano -- em que cada participante apresentasse os seus sistemas e discutisse as razões das diversas classificações obtidas -- seria necessário que os participantes tivessem acesso aos resultados pelo menos um mês antes.

Os resultados globais só seriam tornados públicos durante as próprias morfolimpíadas, mas cada participante teria tido acesso aos seus.

Organização: Foi sugerido que se começasse imediatamente com o processo das verdadeiras e primeiras morfolimpíadas.

A 1 de Novembro seria lançada uma nova chamada, incluindo directivas muito mais precisas a cada participante. Esta chamada será publicitada em listas internacionais, assim como à APL, ABRALIN, ec.

Ponto da situação

A organização do ensaio ainda tem um conjunto imenso de coisas para fazer e apresentar aos participantes (a ordem é arbitrária):
Diana Santos
Data de publicação: 17 de Outubro de 2002.
Última revisão: 14 de Fevereiro de 2003.