Miguel Filgueiras
DCC-FC & LIACC, Universidade do Porto R. do Campo Alegre 823 / 4150 Porto email: mig@ncc.up.pt13 de Abril de 1999
O presente escrito foi elaborado por não me ser possível aceitar o convite para apresentar oralmente um comentário na sessão de discussão pública sobre Processamento Computacional da Língua Portuguesa promovida pelo Observatório das Ciências e Tecnologias e pela Fundação para a Ciência e a Tecnologia no âmbito dos trabalhos de preparação do Livro Branco do Desenvolvimento Científico e Tecnológico Português (1999-2007).
Apresentarei os meus pontos de vista sobre os seguintes pontos
Em carta dirigida às instâncias governamentais competentes e feita circular por correio electrónico junto de vários membros da comunidade científica portuguesa, considerei ser muito estranha a designação escolhida para o tema em análise e o facto de lhe estar a ser dado um tratamento semelhante ao de domínios científicos universalmente reconhecidos como tal. Não irei repetir os argumentos apresentados nessa carta, à qual não obtive qualquer resposta das referidas instâncias.
Na discussão que a sua publicitação por correio electrónico suscitou, foi sugerido que tal designação não seria mais que uma mera etiqueta para efeitos políticos, e não pretenderia ter qualquer efeito redutor, ou de afastamento daqueles que pretendem fazer, ou continuar a fazer, investigação no campo, já há muito estabelecido, conhecido pelos nomes de Processamento de Linguagem Natural (falada ou escrita), Linguística Computacional, ou Engenharia da Linguagem --- que aqui referirei pelo nome genérico de Processamento Computacional de Línguas e pela sigla PCL. A ter fundamento esta sugestão, considero ser essencial que oficialmente seja dito, escrito e, principalmente, cumprido aquando da atribuição de financiamentos que os referidos redução e afastamento não terão lugar. Considero ainda que, apenas para não se dar uma imagem de ignorância, seria preferível que as instâncias governamentais passassem a tratar o tema não como um domínio científico, mas como uma área à qual, por razões que ainda não foram oficialmente explicitadas de forma clara, foi decidido conceder um financiamento especial através de um programa específico.
Diana Santos, a quem foi encomendado pelo Ministério da Ciência e Tecnologia um documento sobre este tema, defende, num documento disponibilizado na World Wide Web, que a ênfase deve ser de facto no tratamento do português. As razões que apresenta são, algumas, um total contra-senso (por exemplo, que seja mais abrangente o estudo de uma língua, o português, em vez de o estudo de várias línguas, ou que o estudo do português englobe quase toda a Ciência), e, outras, contraditórias (por exemplo, ao criticar a atitude de certos investigadores ao considerarem o inglês como "a linguagem natural" e, ao mesmo tempo, tomar uma atitude semelhante ao querer restringir o estudo ao português). Quero acreditar que tais razões não irão ser tomadas como boas por quem tenha de tomar as decisões nesta matéria, tanto mais que, em certa medida, contrariam o muito louvável esforço de internacionalização do sistema científico português a que se tem assistido nos últimos anos. Em consequência, no que se segue considerarei que a sugestão que mencionei no parágrafo anterior é fundamentada e que o tema de que se está a tratar é o Processamento Computacional de Línguas, sem obviamente se esquecer que o português é uma das línguas que deve ser considerada.
Em Portugal, e com excepções pontuais que confirmam a regra, são pouco comuns as colaborações entre investigadores com formação de base na Linguística e os que têm um formação de base na Informática, sendo também ainda raros os investigadores que tenham uma formação mista. O número de equipas de investigação activas na área não deve ser superior a 15, o que multiplicado por uma dimensão média de 6 (provavelmente exagerada), me leva a supor não existirem mais de 100 investigadores activos --- claro que não estou a incluir todas as áreas que tenham ou possam ter ténues ligações com o PCL. Por outro lado a quantidade e/ou a qualidade da produção científica na área são relativamente pequenas. Esta conclusão é evidente dos números coligidos por António Branco na sua muito valiosa contribuição para esta discussão: 6 comunicações (num total de 2.000) desde 1990 nas três conferências internacionais de maior relevo na área, e bastante menos de 10 doutoramentos desde 1979.
Não é fácil imaginar medidas que no curto e médio prazo possam melhorar muito o panorama apresentado atrás. É para mim claro que não se poderá avançar nesta área sem haver, ou um número suficiente de investigadores com formação mista, ou uma forte colaboração entre investigadores com formação num e noutro domínio.
Aumentar o número de investigadores de formação mista é claramente a via mais promissora, mas eventualmente incompatível com os prazos que se queira estabelecer. Para fomentar tal aumento, deveria ser incentivada a criação de cursos de licenciatura e/ou mestrado e o eventual reforço da única licenciatura deste tipo já existente: a licenciatura em Engenharia da Linguagem e do Conhecimento, da responsabilidade das Faculdades de Ciências e de Letras da Universidade de Lisboa. Um dos incentivos absolutamente necessário seria o da criação de perspectivas de emprego para os formandos de tais cursos, sob pena de se estar a formar futuros desempregados. Suponho ser claro, por um lado, que o papel do Ministério da Ciência e Tecnologia neste aspecto seria o de garantir a existência de condições minímas de estabilidade numa carreira de investigação, e, por outro lado, que o lançamento ou reforço de licenciaturas só poderia ter cabimento se for previsível um aumento substancial e sustentado do número de investigadores na área --- caso contrário, seria apenas necessário o apoio a cursos de mestrado. Em paralelo, deveria ser criado um programa de bolsas de doutoramento na área priveligiando a inserção de linguistas em equipas de informáticos e vice-versa.
O fomento de um forte grau de colaboração entre investigadores linguistas e investigadores informáticos parece-me mais difícil de atingir, mas poderia ser realizado através do estabelecimento de uma maior prioridade no financiamento de projectos com equipas mistas, e de medidas rigorosas de acompanhamento e avaliação de tais projectos que garantissem a existência real dessa colaboração.
A criação e disponibilização de recursos linguísticos poderia ser incentivada do mesmo modo, dando prioridade no financiamento de projectos que as garantissem. As questões relacionadas com direitos de autor poderão ser solucionadas, quer através do estabelecimento de um repositório nacional de recursos linguísticos que cobraria esses direitos, quer através de mecanismos de licenciamento do tipo habitualmente usado para software que permitissem a difusão livre para efeitos de investigação sem fins lucrativos. Um modelo possível para um tal repositório nacional é o criado pela European Language Resources Association.
Em resumo, o financiamento acrescido para a área deveria ser aplicado no incentivo à criação ou reforço de cursos universitários para formação de investigadores na área, criação de emprego para tais investigadores, criação de um programa de bolsas para doutoramento "trans-disciplinar", e suporte a projectos de investigação, com prioridade aos que garantissem uma efectiva colaboração interdisciplinar entre linguistas e informáticos e a criação e disponibilização de recursos linguísticos.
Para quem conheceu de perto o insucesso do projecto EUROTRA, que só não foi estrondoso por ter sido politicamente abafado, é evidente que qualquer solução que passe pela criação de um programa único de investigação, ou criação de um único centro (ou complexo) de investigação na área, é completamente inadequada. Para quem não conhece a história do EUROTRA, bastará talvez referir que este contava com uma equipa central que ditava os rumos a seguir pelas equipas existentes em cada país da Comunidade Europeia. Embora tenha sido gasta uma quantidade astronómica de dinheiro, os objectivos iniciais ficaram muito longe de serem alcançados, em grande parte porque as abordagens escolhidas e impostas pela equipa central não se mostraram adequadas. Um financiamento da mesma ordem de grandeza distribuído por equipas trabalhando independentemente teria tido, com toda a certeza, resultados bem mais palpáveis. Esta foi a conclusão a que a Comissão Europeia chegou, pois os financiamentos para a área passaram a ser canalizados para o apoio a projectos independentes, em moldes idênticos aos adoptados noutras áreas.
A criação de um único centro (ou complexo) de investigação na área, para além dos problemas inerentes à centralização que acabei de referir, levantaria ainda problemas práticos impossíveis de resolver: seria ingenuidade supor que todos os investigadores interessados na área quereriam colaborar entre si, e que os investigadores não residentes em Lisboa (Lisboa porque obviamente, como é tradição em Portugal, tal centro nunca iria ser criado na "paisagem") quereriam mudar de residência para poderem participar, cabalmente, nas actividades de tal centro.
Um aspecto essencial é o de garantir a qualidade e quantidade da produção científica que seja de esperar da investigação que venha a ser financiada. Deverão para tal ser adoptados processos de avaliação e acompanhamento independentes e rigorosos, e tiradas sem hesitações as conclusões lógicas de avaliações negativas (o que nem sempre foi feito no passado). Atendendo aos indicadores que referi atrás e que mostram a actual pobreza dessa produção, esta atitude é absolutamente necessária, a menos que se queira despender dinheiro sem se olhar a objectivos.
Não posso deixar de terminar este comentário com uma breve referência aos aspectos de organização da discussão em torno deste tema. Foi completamente infeliz a ideia de encomendar um documento a um único investigador, e esperar que a partir desse documento se obtivessem outras posições. Em primeiro lugar, independentemente da capacidade desse investigador para realizar um trabalho de bom nível e para dialogar com outros interessados antes de o levar a cabo, tal documento apareceria sempre ligado a perspectivas e interesses pessoais que, numa área heterógenea como esta, nunca iriam ser partilhados por muitos outros investigadores. Colocou-se assim, e de modo gratuito, uma pessoa numa posição pouco sustentável. Em segundo lugar, obter posições de outras pessoas por reacção é um método claramente impróprio: não é certamente o melhor ponto de partida para a tomada de uma posição a leitura de um documento com que não se concorda ou que se considera mal elaborado. Teria sido preferível que a comunidade interessada na área tivesse sido informada atempadamente de que as instâncias governamentais tinham seleccionado a área para financiamento especial, e que quem quisesse pudesse apresentar a sua posição sobre o assunto.
Do modo como todo o processo se desenrolou ficam uma série de dúvidas, acompanhadas, como não pode deixar de ser, de uma série de boatos e suspeitas. Enfim, uma situação que poderia e deveria ter sido evitada.