Disponibilização de recursos (nas suas múltiplas vertentes)
Até agora a comunidade de investigação na área da língua e do processamento de linguagem natural (PLN) tem guardado ciosamente os recursos (textos, dicionários, ferramentas) para si -- com honrosas excepções --, o que leva, entre outros inconvenientes, a
- falta de comunicação entre os investigadores
- impossibilidade de avaliação/comparação dos resultados
- repetição escusada de trabalho, sem aproveitamento dos recursos e da competência nacional
- atraso em relação a outras línguas
É preciso mudar este estado de coisas, sem prejudicar contudo aqueles que desenvolveram esses mesmos recursos,
criando um enquadramento em que a partilha é encorajada -- e recompensada -- ao mesmo tempo que se garante a
flexibilidade de esquemas de remuneração baseados na utilização.
Mais do que disponibilizar recursos que já existem, é preciso criar muitos outros inexistentes na
nossa língua, e garantir que essa criação seja acompanhada pelos interessados,
evitando assim que a sua disponibilização seja comprometida.
Alguns exemplos do que seria preciso desenvolver para a nossa língua:
- corpora anotados
- corpora analisados
- corpora alinhados
- terminologias na maior parte dos domínios
- dicionários com informação de subcategorização
- tesauros
- estudos de frequência
- gramáticas baseadas em corpora
- dicionários baseados em corpora
- redes semânticas
- dicionários de expressões
- dicionários contrastivos entre variantes do português
Como consegui-los? Algumas sugestões:
- Tornar a disponibilização uma condição necessária para o financiamento público;
- Tornar a colaboração entre várias instituições uma condição preferencial;
- Se a instituição encarregada não seguir o plano (e não tornar portanto públicos os recursos que prometeu), permitir a sua substituição por outras;
- Comprar, ou sustentar, os recursos já existentes com a condição de serem disponibilizados;
- Criar leis que impeçam a posse da língua portuguesa, não impedindo, contudo, a sua exploração comercial (como é o caso das editoras, por exemplo);
- Lançar concursos centrados precisamente na criação destes recursos;
- Desenvolver um enquadramento legal e técnico que permita a "assinatura" de recursos "on-line" (em linha?) e um enquadramento financeiro que permita contabilizar este tipo de custos no orçamento dos grupos de investigação.
Convém também referir que seria muito útil uma postura arquivística respeito dos recursos, ou seja, para poder distribuir e descrever os recursos, há necessidade de criação (e de uso) de estruturas classificativas (taxonomias, tesauros classificativos); assim como se devia fomentar a codificação da informação em formatos partilháveis (tais como XML, TEI), ou pelo menos bem documentados.
Voltar a Processamento computacional da língua portuguesa: documento de trabalho