Razões para se avaliar o processamento computacional do português

Este documento foi preparado no contexto da preparação e motivação para uma avaliação conjunta do processamento computacional da língua portuguesa.

No que segue faremos uma breve exposição das razões por trás de uma avaliação conjunta. Começaremos examinando a necessidade de experimentação nas ciências em geral. Depois focaremos em PLN: o que medir, como comparar, quais as partes interessadas e como devem ser organizadas. Faremos isto a partir da experiência relatada em outras avaliações tais como a MUC e a TREC.

Desde já, frisaremos a principal mensagem contida neste texto: a avaliação é uma parte importante do processo científico.

1 - Sobre a importância dos experimentos científicos

Walter Tichy [Tichy, 1998] apresenta uma série de argumentos sobre a necessidade de experimentação em Ciência da Computação.

1.1 - Alguns dos pontos mais importantes

1.2 - Verificação da teoria

Ao se realizar qualquer tipo de experimento dois fatos devem ser levados em conta: Nem por isto os experimentos perdem sua importância pois eles permitem testar predições teóricas contra a realidade.

Uma teoria possui uma maior aceitação a medida em que todos os fatos conhecidos dentro de seu domínio podem ser deduzidos a partir desta teoria. Também, ela deve resistir a um grande número de testes e predizer corretamente novos fenômenos.

1.3 - Pesquisa exploratória

Os experimentos permitem explorar áreas onde a teoria e a análise dedutiva não alcançam:

1.4 - Repetição

Um requisito fundamental em qualquer experimento é a repetição. A repetição assegura que os resultados podem ser independentemente verificados e desta forma aumentam a sua confiabilidade e ajudam a eliminar erros, dolos e fraudes.

Como um último ponto lembramos que evitar a experimentação devido às dificuldades inerentes não é aceitável. A experimentação é difícil - para todos os pesquisadores em todas as disciplinas, não é uma característica apenas dos experimentos em PLN.

2 - Avaliação de PLN

Um lugar ideal para a ocorrência de experimentos em PLN são as conferências de avaliação conjuntas. Estas conferências permitem que vários sistemas e teorias sejam testadas na prática, de maneira explícita e na presença das várias partes interessadas.

Seguindo Hirschman [Hirschman, 1998] podemos identificar pelo menos quatro metas nas avaliações:

Alem disto, uma avaliação conjunta ideal seria aquela que possuísse [Hirschman, 1998]: A estas características Voorhees e Tice [Voorhees e Tice, 1998] acrescentam que a tarefa não deve ser nem muito fácil nem muito difícil para a tecnologia atual. Se ela for muito fácil todos os sistemas se sairão bem e muito pouco é aprendido. Por outro lado, se for muito difícil, todos os sistemas terão baixo desempenho e novamente muito pouco é aprendido.

2.1 - A quem interessa a avaliação?

São três os tipos de interessados nas avaliações conjuntas [Hirschman, 1998] : Os desenvolvedores e os pesquisadores estão interessados, entre outras coisas, em: Por outro lado, as agências de financiamento estão interessadas em: Finalmente, os usuários que desejam:

2.2 - Benefícios

Hirschman [Hirschman, 1998] aponta pelo menos dois frutos das conferências de avaliação:

3 - Como fazer?

Uma conferência de avaliação não está entre as coisas mais fáceis de se fazer. É necessário um grande esforço organizativo tanto para reunir as partes interessadas quanto para construir (ou juntar) os recursos utilizados durante a avaliação. Adicionalmente, é essencial definir o que se deseja medir e, consequentemente, as métricas a serem utilizadas e a metodologia comparativa baseada nestas métricas (como as medições serão tomadas, se a forma de julgamento será manual, automática ou uma mistura de ambas, etc.).

Esta conferência somente será possível se realizada por uma comunidade abrangente e necessariamente contando com apoio financeiro governamental e de grandes grupos comerciais. A questão de como fazer pode ser amenizada se levarmos em conta a existência de conferências de avaliação para outras línguas, principalmente para o inglês. Podemos aproveitar as métricas e metodologias já desenvolvidas, embora não necessariamente os recursos. Isto nos leva a duas outras questões:

A resposta à primeira questão ajuda também a responder à segunda. Entrentanto, para que a primeira seja respondida é imprescindível a participação efetiva da comunidade interessada em PLN.

Esta participação poderá se dar em um primeiro momento através de encontros onde cada grupo, dentro de sua especialidade, discutirá abertamente sobre as questões envolvidas na avaliação, seus problemas, vantagens de determinadas abordagens, assim como a definição do que é necessário fazer e principalmente de quem o fará.

Depois de se chegar a um mínimo denominador comum, será necessário por em prática todas as decisões tomadas. Prioritariamente, deve-se começar pelas tarefas que exigirão um maior esforço ou maior tempo para ser concretizada. Isto implicará quase certamente nos recursos materiais e humanos.

Alem disto, conforme [Hirschman, 1998], uma avaliação em grande escala e realizada por uma comunidade abrangente não é estática. Ela deve continuar a evoluir, adaptar e desafiar a comunidade de pesquisa, com os pés firmemente plantados em aplicações realísticas.

4 - Referências


Autor: Alexsandro Soares no âmbito da Linguateca.
Data da última revisão: 28 de Fevereiro de 2002
Perguntas, comentários e sugestões