Problemas com os domadores
Primeiras morfolimpíadas, uma iniciativa de avaliação conjunta para o português, organizada pela Linguateca
Nesta página apresentamos uma discussão de porque é que a questão dos domadores, ou a segunda fase das comparações, não parece poder simplesmente ser aplicada sem desvirtuar todo o processo de comparação.
Em teoria, teríamos a possibilidade de
- retirar a informação da lista dourada, e das análises dos sistemas, que um dado sistema não produzia - chamemos a isto a solução redutora
- adicionar a informação aos sistemas que a não produziam, chamando a isto a solução aditiva
Contudo, imediatamente nos deparamos com o seguinte:
- se retirarmos à lista dourada informação relevante que outros sistemas produzem, estamos a penalizar esses sistemas, e a favorecer aquele(s) que, por não tentarem produzir essa informação, não pode(m) errar
- se adicionarmos (meio cegamente, claro) informação aos sistemas que a não produzem explicitamente, podemos estar a adicionar lixo, e/ou ir contra aquilo que os sistemas tentam produzir
Mais concretamente, vejamos os alguns casos mais complexos, e os problemas que trazem para a solução aditiva:
- Se considerarmos que um tipo de adjectivos (marcado de uma dada maneira) é também substantivo, e em conformidade o desdobrarmos dessa forma, obtemos entradas para substantivos com lemas "estranhos" (não conistentes com o resto do sistema), tal como revisto para revistas ou índio para Índia, o que é um problema para a solução aditiva
- Se considerarmos que alguns adjectivos (femininos e/ou plurais) correspondem a particípios passados, não temos forma de os calcular (e portanto não há solução aditiva possível para os sistemas que não aceitam particípios passados com flexão em género e número
- Se considerarmos que os particípios passados podem ser sempre adjectivos e traduzimos a PoS de V para tanto V como ADJ, temos evidentemente problemas em recuperar o lema do adjectivo
- Se considerarmos que o género intrínseco de nomes próprios e o número de numerais são relevantes
Se, por outro lado, apostarmos na opção redutora, que corresponde, no limite, a criar uma lista dourada diferente para cada sistema, e retirarmos os casos que sabemos que os sistemas não produzem da lista dourada, estamos a prejudicar manifestamente os sistemas que produzem mais informação, porque terão mais possibilidades de errar.
Listamos aqui o processamento (ou opções) que foram considerados neste processo de domesticação, para cada sistema (por ordem alfabética):
- Jspell aditivo: adicionou-se uma análise de adjectivo a todos os particípios passados que ainda não tinham
- LabEL redutor: não se consideraram os particípios passados sem ser masculinos singulares na lista dourada
- PALMORF: não se considerou o género e número de nomes próprios.
PALMORF redutor: além disso, não se consideraram os adjectivos que tb eram particípios passados na lista dourada.
PALMORF aditivo: adicionou-se uma análise de adjectivo a todos os particípios passados que não a tinham já
- ReGra: não se consideraram INTERJ
- Smorph/Pasmo: não se consideraram INTERJ
Smorph/Pasmo aditivo: adicionou-se uma análise de adjectivo a todos os particípios passados que ainda não a tinham; adicionou-se uma análise de substantivo a todos os adjectivos marcados com t3
| Sistema | Sistema A | Sistema B | Sistema C | Sistema D | Sistema E | Sistema F |
| Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. | Rel. | Abs. |
| Formas comparadas | 628 | 655 | 599 | 655 | 590 | 655 | 648 | 655 | 639 | 655 | 640 | 655 |
| Análises na lista dourada | 1199 | 1255 | 1101 | 1228 | 1085 | 1228 | 1232 | 1247 | 1219 | 1255 | 1222 | 1239 |
| Análises do sistema | 1074 | 1080 | 1063 | 979 | 902 | 1058 |
| Análises comuns | 928 | 886 | 871 | 808 | 697 | 816 |
| Precisão | 86,41% | 82,04% | 81,94% | 82,53% | 77,27% | 77,13% |
| Cobertura | 77,40% | 73,94% | 80,47% | 72,15% | 80,28% | 70,93% | 65,58% | 65,21% | 57,18% | 55,54% | 66,78% | 65,86% |
Última alteração: 12 de Março de 2009.
Perguntas, comentários e sugestões