Razões para se avaliar o processamento computacional do português

Este documento foi preparado no contexto da preparação e motivação para uma avaliação conjunta do processamento computacional da língua portuguesa.

No que segue faremos uma breve exposição das razões por trás de uma avaliação conjunta. Começaremos examinando a necessidade de experimentação nas ciências em geral. Depois focaremos em PLN: o que medir, como comparar, quais as partes interessadas e como devem ser organizadas. Faremos isto a partir da experiência relatada em outras avaliações tais como a MUC e a TREC.

Desde já, frisaremos a principal mensagem contida neste texto: a avaliação é uma parte importante do processo científico.

1 - Sobre a importância dos experimentos científicos

Walter Tichy [Tichy, 1998] apresenta uma série de argumentos sobre a necessidade de experimentação em Ciência da Computação.

1.1 - Alguns dos pontos mais importantes

Os experimentos servem a um duplo propósito: verificação da teoria e pesquisa exploratória.
Os experimentos auxiliam o raciocínio indutivo, permitindo que novas ou modificadas teorias sejam derivadas a partir da observação.
As ciências tradicionais usam a verificação e exploração de uma teoria interativamente pois as observações ajudam a formular novas teorias que serão posteriormente testadas.
Todo experimento deve ser, a princípio, passivel de repetição.

1.2 - Verificação da teoria

Ao se realizar qualquer tipo de experimento dois fatos devem ser levados em conta:

Nenhuma quantidade de experimentação é suficiente para fornecer provas com certeza absoluta.
Um experimento permite identificar somente a presença de erros em uma teoria, não a ausência deles.

Nem por isto os experimentos perdem sua importância pois eles permitem testar predições teóricas contra a realidade.

Uma teoria possui uma maior aceitação a medida em que todos os fatos conhecidos dentro de seu domínio podem ser deduzidos a partir desta teoria. Também, ela deve resistir a um grande número de testes e predizer corretamente novos fenômenos.

1.3 - Pesquisa exploratória

Os experimentos permitem explorar áreas onde a teoria e a análise dedutiva não alcançam:

Delimitando a influência das hipóteses;
Eliminando explicações alternativas para um fenômeno;
Revelando novos fenômenos cujas explicações se fazem necessárias.

1.4 - Repetição

Um requisito fundamental em qualquer experimento é a repetição. A repetição assegura que os resultados podem ser independentemente verificados e desta forma aumentam a sua confiabilidade e ajudam a eliminar erros, dolos e fraudes.

Como um último ponto lembramos que evitar a experimentação devido às dificuldades inerentes não é aceitável. A experimentação é difícil - para todos os pesquisadores em todas as disciplinas, não é uma característica apenas dos experimentos em PLN.

2 - Avaliação de PLN

Um lugar ideal para a ocorrência de experimentos em PLN são as conferências de avaliação conjuntas. Estas conferências permitem que vários sistemas e teorias sejam testadas na prática, de maneira explícita e na presença das várias partes interessadas.

Seguindo Hirschman [Hirschman, 1998] podemos identificar pelo menos quatro metas nas avaliações:

Comparar sistemas
Avaliar a maturidade da tecnologia
Orientar a pesquisa em desafios mais específicos
Fornecer um fórum para organizações interessadas em comparar resultados

Alem disto, uma avaliação conjunta ideal seria aquela que possuísse [Hirschman, 1998]:

Um baixo custo para os participantes e para as agências de financiamento;
Uma boa infraestrutura disponível, incluindo corpora anotados e procedimentos automáticos de avaliação de forma a aumentar a participação na avaliação;
Métricas intuitivamente compreensíveis e com aplicabilidade a problemas com importância comercial;
Habilidade de orientar a progresso de investigação com a evolução das métricas
Capacidade de motivar a comercialização de técnicas ou componentes bem sucedidos

A estas características Voorhees e Tice [Voorhees e Tice, 1998] acrescentam que a tarefa não deve ser nem muito fácil nem muito difícil para a tecnologia atual. Se ela for muito fácil todos os sistemas se sairão bem e muito pouco é aprendido. Por outro lado, se for muito difícil, todos os sistemas terão baixo desempenho e novamente muito pouco é aprendido.

2.1 - A quem interessa a avaliação?

São três os tipos de interessados nas avaliações conjuntas [Hirschman, 1998] :

Desenvolvedores e pesquisadores
Financiadores
Usuários

Os desenvolvedores e os pesquisadores estão interessados, entre outras coisas, em:

Métodos avaliativos centrados em tecnologia que possam ser utilizados em testes internos;
Avaliações diagnósticas que permita-os localizar precisamente e consertar as fraquezas de seus sistemas
Métodos avaliativos que posicionem bem a sua tecnologia

Por outro lado, as agências de financiamento estão interessadas em:

Demonstrar que o financiamento dado contribui para o avanço da área;
Avaliações centradas na aplicação que realcem a utilidade da tecnologia emergente. Isto implica em avaliações baseadas em desempenho e em tarefas;
Na criação de critérios avaliativos que visem o desenvolvimento de novas tecnologias

Finalmente, os usuários que desejam:

Avaliações centradas no usúario, utilizando usuários reais em ambientes realísticos;
Facilidade de uso e de integração em ambientes existentes;
Uma relação custo-benefício favorável

2.2 - Benefícios

Hirschman [Hirschman, 1998] aponta pelo menos dois frutos das conferências de avaliação:

Construção de corpora e desenvolvimento de métodos de avaliação. Estes fatos indicam que as partes interessadas poderão utilizá-los para posteriormente aperfeiçoar seus sistemas e também que os recursos gerados em uma avaliação poderão em grande parte serem reaproveitados em futuras avaliações;
Os sistemas avaliados ou seus componentes poderão se tornar produtos comerciais.

3 - Como fazer?

Uma conferência de avaliação não está entre as coisas mais fáceis de se fazer. É necessário um grande esforço organizativo tanto para reunir as partes interessadas quanto para construir (ou juntar) os recursos utilizados durante a avaliação. Adicionalmente, é essencial definir o que se deseja medir e, consequentemente, as métricas a serem utilizadas e a metodologia comparativa baseada nestas métricas (como as medições serão tomadas, se a forma de julgamento será manual, automática ou uma mistura de ambas, etc.).

Esta conferência somente será possível se realizada por uma comunidade abrangente e necessariamente contando com apoio financeiro governamental e de grandes grupos comerciais. A questão de como fazer pode ser amenizada se levarmos em conta a existência de conferências de avaliação para outras línguas, principalmente para o inglês. Podemos aproveitar as métricas e metodologias já desenvolvidas, embora não necessariamente os recursos. Isto nos leva a duas outras questões:

São estas métricas e metodologias adequadas para o processamento do português?
Porque não participar diretamente nestas conferências ou invés de criarmos uma outra?

A resposta à primeira questão ajuda também a responder à segunda. Entrentanto, para que a primeira seja respondida é imprescindível a participação efetiva da comunidade interessada em PLN.

Esta participação poderá se dar em um primeiro momento através de encontros onde cada grupo, dentro de sua especialidade, discutirá abertamente sobre as questões envolvidas na avaliação, seus problemas, vantagens de determinadas abordagens, assim como a definição do que é necessário fazer e principalmente de quem o fará.

Depois de se chegar a um mínimo denominador comum, será necessário por em prática todas as decisões tomadas. Prioritariamente, deve-se começar pelas tarefas que exigirão um maior esforço ou maior tempo para ser concretizada. Isto implicará quase certamente nos recursos materiais e humanos.

Alem disto, conforme [Hirschman, 1998], uma avaliação em grande escala e realizada por uma comunidade abrangente não é estática. Ela deve continuar a evoluir, adaptar e desafiar a comunidade de pesquisa, com os pés firmemente plantados em aplicações realísticas.

4 - Referências

Hirschman, Lynette. "Language Understanding Evaluations: Lessons Learned from MUC and ATIS", Proceedings of The First International Conference on Language Resources and Evaluation (Granada, 28-30 May 1998), Vol. 1, pp.117-122.
Hirschman, Lynette. "The evolution of Evaluation: Lessons from the Message Understanding Conferences", Computer Speech and Language 12 (1998), pp. 281-305.
Tichy, Walter F. "Should Computer Scientists Experiment More? 16 Reasons to Avoid Experimentation," IEEE Computer 31(5), May 1998, 32-40. HTML format, Postscript format.
Voorhees, Ellen M. & Dawn M. Tice. "The TREC-8 Question Answering Track", Proc. Second International Conference on Language Resources and Evaluation, LREC 2000 (Athens, 31 May 2000), Vol III, pp. 1501-8.

Autor: Alexsandro Soares no âmbito da Linguateca.
Data da última revisão: 28 de Fevereiro de 2002

Perguntas, comentários e sugestões