Doutora Diana Santos - Investigadora do SINTEF, Noruega

Muito obrigada. Ora muito bom dia.

O processamento computacional da língua portuguesa foi identificado pelo Ministério da Ciência e da Tecnologia como precisando de atenção especial. O processamento da nossa língua por computador não parece ter suficiente peso para se desenvolver ao ritmo exigido pela explosão da sociedade da informação.

Há grosso modo três forças que é preciso conjugar: a comunidade científica, o Estado - através da sua política de gestão da investigação, e a indústria, ou seja, as empresas e as forças do mercado. Mais do que tentar atribuir culpas a uma situação que tem causas complexas, mas que toca a todos nós, é importante tentar reunir estes três vectores na definição do futuro desta área. O Ministério da Ciência e da Tecnologia tomou a iniciativa, encomendando um documento para discussão a uma pessoa fora do establishment, eu própria, iniciando o processo de criar um perfil desta área. Esta é a altura das instituições, das empresas e da comunidade científica em geral se pronunciarem. Na minha opinião, o objectivo último do processo que foi iniciado é que os portugueses venham a ter sistemas informáticos que os tratem na sua própria língua, ou seja, sistemas informáticos com que cada vez mais se vêem forçados a interagir, ou tentados a interagir. Gostava de sublinhar a este respeito, que o caminho e utilização dos termos língua portuguesa e português comum não tem qualquer intenção de estabelecer um português padrão nem em termos de língua nem em termos de utilizador. Reforçando esta última observação, o importante é que qualquer cidadão português possa interagir em português, por exemplo em linguagem gestual.

Na minha opinião não é o homem que se deve adaptar aos computadores, mas sim os computadores ao homem. Penso que é inegável que ainda estamos muito longe de uma naturalidade de comunicação com computador em português, tão inegável que é supérfluo apresentar exemplos. Pior do que isso, não parece haver suficiente massa crítica no país para levar o processamento computacional da língua portuguesa ao florescimento que merece. De facto, penso que não é sequer controverso dizer que algo vai mal no processamento computacional da nossa língua. O que não quer dizer que não haja muito honrosas excepções. No meu entender, contudo, são excepções à regra. Partindo, pois do pressuposto que esta área enferma problemas relativamente graves, a identificação das suas causas está subjacente ao documento que escrevi. Passo, pois, a mencioná-las muito sucintamente.

Esta é uma área que não é reconhecida a nível do aparelho de gestão da investigação, a nível curricular, mesmo por vezes a nível dos próprios intervenientes. É uma área em que os seus poucos intervenientes, na sua maioria, guardam para si os frutos do seu trabalho e a sua competência, quero eu dizer, o número de recursos partilháveis é ínfimo, as publicações a nível internacional são quase inexistentes. É uma área em que os mecanismos de avaliação, até agora, não funcionaram de todo. Só este ano se recorreu a uma comissão de peritos internacionais independentes, incluindo especialistas precisamente no processamento computacional das línguas em vez da informática ou em linguística. É uma área em que muitos dos que se lhe reputam pertencer são demasiados teóricos e desleixam a prática. É uma área em que não há a vontade de ultrapassar a investigação fundamental, ou seja, não se desenvolvem aplicações relacionadas com a população em geral. É uma área em que a formação é francamente insuficiente. E, finalmente, é uma área em que há dificuldades de colaboração entre as pessoas e os grupos.

O texto que escrevi tenta sugerir algumas formas de inverter ou contrariar cada um dos pontos que acabo de mencionar. Adianta algumas medidas concretas e refere que é preciso haver um consenso nas medidas a tomar, insistindo na necessidade absoluta de colaboração. Mais do que propor medidas concretas a que me referirei adiante, a intenção com que o documento foi escrito foi a de suscitar uma discussão construtiva sobre cada um dos pontos apresentados. Parece-me que apenas após os objectivos serem resultado de um consenso faz algum sentido discutir medidas concretas para atingir esses mesmos objectivos. Posso portanto apresentar, muito brevemente, o documento que escrevi e disponibilizei na Internet... denominado processamento computacional da língua portuguesa documento de trabalho.

Ponto um definição da área como área prioritária. É preciso identificar as actividades nesta área com prioritárias para o nosso país; é preciso fornecer um enquadramento estável a essas actividades; é preciso definir o processamento da nossa língua como área científica, como área em que se pretende a especialização dos recursos humanos e empresariais, como área em que se investe... em que se quer investir em formação específica, como área que se deseja que as empresas apostem e sejam recompensadas por isso. É essencial, no meu entender, que se invista no processamento da nossa língua e não no das línguas em geral. Tal não impede, muito pelo contrário, que se estude a maneira como investigadores doutras línguas resolveram os seus problemas, ou que se investigue o processamento da linguagem em geral.

Ponto dois. Disponibilização de recursos. É preciso que haja recursos comuns que façam parte do património técnico-cultural de uma população. Programas, dados, métodos de avaliação, resultados de investigação publicados, de forma a poder progredir significativamente na área. Medir a adequação dos recursos às várias tarefas, avaliar o trabalho e o progresso e, finalmente, criar uma comunidade que publique e discuta os problemas que lhes são comuns. É além disso preciso que haja recursos comuns para evitar a duplicação de esforços. Para que esta situação se torne uma realidade é certamente essencial criar enquadramentos técnicos, legais e financeiros. Mas é igualmente necessária uma alteração das mentalidades no que respeita aos resultados do trabalho científico.

Ponto três. Avaliação e controlo de qualidade em relação ao português. É preciso arranjar uma forma de organizar conferências de avaliação, definir objectivos, representar a língua em organismos internacionais.

Ponto quatro. Serviços de desenvolvimento, recursos e ferramentas partilháveis. Identificar como é importante o criar serviços de coordenação, colaboração e entreajuda em quatro áreas: tradução, terminologia, fala e processamento da língua escrita. Insisto na criação de serviços dedicados a facilitar o trabalho em cada área.

Ponto cinco. Dinamização dos métodos empíricos.

Ponto seis. Ção da investigação fundamental com as tecnologias. Quero chamar a atenção para a necessidade absoluta de implementar sistemas para poder progredir na área, formar recursos humanos especializados e ter impacto na sociedade que nos rodeia.

Ponto sete. Desenvolvimento de aplicações relacionadas com o trabalho de todos os dias na sociedade da informação. Penso que deve ser procurada uma externalização dos objectivos dos investigadores no processamento computacional do português, de forma a tocar o cidadão comum e a vida de todos os dias, em vez de trabalhar quase exclusivamente em sistemas que ajudam a melhorar o trabalho na área, o que não quer dizer critique-se em vista nestes últimos, também.

Ponto oito. Política de formação na área. É claramente insuficiente o número de especialistas portugueses no assunto, o que leva à difculdade óbvia de arranjar pessoal docente, e portanto formar novos recursos humanos. A situação é complexa, mas é absolutamente necessário investir na formação de recursos humanos a vários níveis.

Ponto nove áreas relacionadas. Sugiro que se invista especialmente no relacionamento das seguintes áreas com o processamento computacional da língua: o Direito, a Internet mais especialmente a Web, as bases de dados e arquivos, e a informatização da educação.

Ponto dez. Transparência, participação e colaboração de todos. Na minha perspectiva, não existe nesta área, em Portugal, um ambiente condizente do que se espera de uma área científica. As conferências são organizadas por convite, não há revistas científicas, nem um fórum electrónico dedicado ao assunto a que as pessoas se possam livremente associar. Até há muito pouco tempo não havia qualquer confiança na idoneidade das comissões de avaliação dos concursos.

Finalmente, ponto onze. Contributos para um perfil. Este trabalho ainda em curso, cujo objectivo é contribuir para um primeiro perfil da área, será apresentado mais adiante.

Medidas concretas: não faz sentido, na minha opinião, discutir medidas concretas se as linhas de acção ainda não estão claras; mas para evitar um texto demasiado vago mencionei em alguns pontos algumas medidas que refiro muito sucintamente aqui. A criação de serviços destinados... dedicados a facilitar o trabalho na área. Serviços organizados preferencialmente em rede, note-se. A consideração da interrelação com três áreas com já referi. A criação de um curso de processamento computacional do português na rede, na Internet, como uma forma de evitar as desigualdades geográficas, e permitir que vários actores colaboram nessa... nessa iniciativa. Sugiro também algumas formas de prevenir a falta de transparência sobretudo no que se refere aos projectos com financiamento público, algumas maneiras de dinamizar os métodos empíricos, estimular o desenvolvimento das aplicações e incentivar a avaliação.

Finalmente fui também incumbida de apresentar um primeiro esboço de um perfil a esta área para o qual recorri a duas fontes distintas: as bases de dados do Observatório e a World Wide Web. Através dos dados oficiais cheguei a uma lista de cinquenta e três projectos, divididos em projectos na área e projectos relacionados. E a uma lista de bolsas... de cinquenta e duas bolsas também divididas entre bolsas na área ou com ela relacionadas, a partir de um total de duzentas e oitenta bolsas, e a uma lista de doutorados no país potencialmente associados ou associáveis à área: noventa e três de quinhentos e trinta e um no total. Por outro lado, através de informação publicada na Internet, Signe Oksefjell e eu própria criámos um catálogo de recursos e de actores que temos vindo a desenvolver desde Julho do ano passado, e que está acessível a todos na Internet. Gostava de notar como dado sociológico interessante a quase complementaridade das duas fontes. De facto, a comunidade constante dos dados oficiais publicou e publicitou muito pouco na rede, por outro lado a maior parte dos recursos e da informação que se encontra na Web está muito pouco representada nas listas oficiais correspondentes ao financiamento público. Sobre a obtenção das listas para o perfil postas à consideração do público, convém insistir que é um exercício de elevada subjectividade, e com risco de uma margem de erro enorme, visto que a informação a que tive acesso foi extremamente diminuta. Noto, contudo, que toda a informação a que tive acesso está também disponível, assim como a descrição da metodologia seguida e que todas as informações e correcções são bem-vindas. Considero, aliás, extremamente interessante que outros investigadores proponham escolhas diferentes baseadas em metodologias diferentes. Penso que é tudo o que tinha para dizer.

Gostava apenas de exprimir o meu profundo interesse em ouvir as reacções, certamente variadas, ao que aqui expus e antes escrevi, e desde já agradeço a todos quantos o quiserem fazer em público. De facto gostava de desafiar sobretudo aqueles que, não representando uma instituição ou uma empresa, não se encontram formalmente em nenhum painel, nesta sessão, mas que podem contribuir positivamente para o avanço do processamento da língua portuguesa, escrita e falada. Obrigada.


Voltar à página do Debate público