8 de Junho de 1999
No dia 17 de Abril de 1999 reuniram-se no Forum Picoas mais de uma centena de pessoas interessadas no futuro do processamento computacional da nossa língua. O que se passou na sessão foi transcrito e, após revisão dos autores, tornado acessível na Internet no endereço /publico.html.
A sessão principiou por uma breve apresentação do documento para discussão e dos contributos para um perfil encomendados pelo Ministério da Ciência e da Tecnologia (veja-se /branco/). Relatando os principais problemas da área: falta de reconhecimento como disciplina, falta de disponibilização dos resultados (a nível de recursos e publicações), inexistência de mecanismos de avaliação, desleixo das aplicações e dos métodos empíricos a favor do trabalho teórico, falta de relação com a sociedade que nos rodeia, oferta de formação claramente insuficiente, e dificulades de comunicação e cooperação entre os próprios intervenientes, o documento foi motivado ponto a ponto, apontando para a necessidade de investir na área e em áreas relacionadas, concentrar a atenção na avaliação dos recursos e encarar seriamente as aplicações como forma de intervir no quotidiano da população. O objectivo final desta área foi identificado como a adaptação dos computadores à língua e cultura portuguesas, de forma a que a sociedade de informação não penalize, mas ajude significativamente, todos os que têm o português como língua materna.
Muito brevemente, a intervenção destes peritos pode ser resumida da seguinte forma:
Fernando Pereira, director do Machine Learning and Information Retrieval Research Department da AT&T Labs, EUA, fez um resumo dos principais avanços na área, focando a quebra de barreiras disciplinares e o papel crescente da indústria, e apontou para a importância cada vez maior das técnicas de aprendizagem automática, dos formalismos computacionais e das técnicas probabilísticas no processamento da linguagem natural. Falou em seguida da criação de recursos em larga escala, financiados parcialmente pela indústria, através do Linguistic Data Consortium (LDC) da Universidade da Pensilvânia. Alertando para o perigo de uma demasiada concentração na avaliação através de medidas parcelares, assim como desaconselhando o investimento em projectos demasiado grandes, que conduzam à criação de instituições auto-preservadores, exortou a comunidade para a definição colectiva de colecções de dados comuns para cuja recolha haja competição, e cuja disponibilização – e reutilização – seja garantida à partida. Para satisfazer estes objectivos, salientou a importância das comissões de acompanhamento, compostas por futuros utilizadores. Finalmente, insistiu no perigo de criar formação demasiado específica, em vez de dotar os jovens com um conjunto de técnicas que permitam a sua mobilidade científica no futuro.
Lauri Carlson, professor na Universidade de Helsínquia, relatou o processo ocorrido na Finlândia um ano antes, em que a comunidade da área se juntou para planear o futuro, de forma a passar para uma escala maior e tornar esta área significativa a nível nacional na Finlândia. Estudos preliminares, financiados pelo ministério da ciência finlandês, culminaram na criação de um programa em "Human LanguagesTechnology" dividido em sete áreas distintas, cada uma com um programa coordenador cuja gestão está a cargo de uma instituição ou grupo, com um financiamento significativamente superior ao passado. Em relação à formação, e para contrariar a separação entre os engenheiros especialistas em processamento de fala e os linguistas ou cientistas educados no processamento da língua escrita, a Finlândia criou programas de mestrado e doutoramento a nível nacional de forma a permitir formação adequada em vários ramos da engenharia da linguagem. Paralelamente, foi criado o "Banco Nacional da Língua" com o objectivo de distribuir e tornar acessíveis recursos lexicais, textuais e ferramentas de processamento das línguas da Finlândia, desenvolvidos no país ou comprados ao estrangeiro. Finalmente, embora as companhias privadas precisem muitas vezes de certa confidencialidade nos dados e ferramentas, Lauri Carlson mencionou que é possível estabelecer contratos especiais de interesse mútuo com condições claras.
Hans Uszkoreit, professor na Universidade de Saarbrücken e director do Centro de Investigação em Inteligência Artificial da Alemanha (DFKI), descreveu o panorama alemão com especial destaque para o projecto Verbmobil, cujo objectivo político foi tornar a Alemanha o país mais avançado a nível mundial em engenharia da linguagem. Baseado na experiência alemã, alertou para a necessidade de dirigir o processo (as decisões de financiamento não são, nem podem ser, democráticas) e para a necessidade de separar claramente as necessidades e objectivos de diferentes intervenientes (ou seja, as motivações e a forma de avaliar o trabalho académico, por um lado, e os produtos comerciais, por outro, não podem ser as mesmas). Sugeriu que um programa futuro não se concentre exclusivamente no português mas que olhe também para o processamento multilingue (em particular, que contemple o processamento do inglês), visto que a maior parte das aplicações também precisam desta língua (segundo Uzkoreit, já não há utilizadores que queiram só alemão). A consideração do inglês traz também vantagens do ponto de vista da avaliação do trabalho feito na área (e consequente diminuição do isolamento da comunidade que se dedica ao português). Finalmente, insistiu na criação de recursos previamente identificados como necessários, por concurso, em vez de financiar aquilo que os grupos já começaram e que pode não ser útil para mais ninguém.
Maria Helena Mira Mateus, representando o Instituto de Linguística Teórica e Computacional, apelou à continuação do debate sobre este assunto, dedicando depois a maior parte da sua intervenção a esclarecer os conceitos de língua, norma e variação linguística, e rebatendo a questão da ameaça à língua, que considerou injustificada.
Isabel Trancoso, representando o Instituto de Engenharia de Sistemas e Computadores, concentrou a sua intervenção a demonstrar a ubiquidade da fala, aproveitando também o ensejo de elogiar o catálogo sobre o processamento computacional da língua portuguesa efectuado no âmbito do presente processo. Uma das tónicas da sua intervenção foi a de que existe uma grande apetência dos docentes para ensinar estas matérias e formar pessoal competente. Insistiu também na possibilidade de criar colaborações bilaterais com pouca burocracia para resolver o problema de obter equipas ajustadas às necessidades da área.
José Gabriel Pereira Lopes, representando o Centro de Inteligência Artificial da Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa, falou da necessidade de automatização da codificação do conhecimento humano, da questão da dependência da aplicação e do objectivo que se tem em mente com cada aplicação particular, e da urgência de considerar as falhas nos sistemas automáticos e consequente impossibilidade da validação manual de recursos de grandes dimensões. Mencionou também a necessidade de haver um lobby consequente na Europa para promover a participação portuguesa em cooperação europeia, assim como com o Brasil e com o resto do mundo.
Teresa Lino, representando o Centro de Linguística da Universidade Nova de Lisboa, pôs a ênfase na reformulação da formação universitária, na criação de novos curricula e na sensibilização dos alunos dos cursos actuais para o processamento computacional da língua, insistindo na necessidade da existência de pessoal afecto a instituições e não apenas bolseiros. Finalmente apresentou um projecto de estação de trabalho em curso, que pretende disponibilizar dicionários terminológicos e constituir-se num pólo dinamizador do trabalho em terminologia.
Maria Fernanda Bacelar do Nascimento, representando o Centro de Linguística da Universidade de Lisboa, iniciou a sua intervenção aplaudindo a iniciativa de manter a área sob escrutínio e lançar um debate sobre o seu futuro, insistindo na necessidade absoluta de financiamentos estáveis e continuados às instituições da área. Apelou em seguida à necessidade de fazer, em conjunto, uma definição de prioridades e de métodos de avaliação consensuais. Após insistir na necessidade de estudos sobre o português para colmatar as muitas lacunas na área, e lembrar a importância da investigação fundamental, desenvolveu a questão da disponibilização de corpora, que reputou de paradigmática, referindo a importância da noção de corpus equilibrado e os vários problemas que a sua disponibilização acarreta, e insistindo na complexidade dos entraves legais e na necessidade do acautelamento dos direitos dos autores de corpora.
Vasco Teixeira, representando a Porto Editora, descreveu as três formas principais da sua empresa participar no desenvolvimento da área: Em primeiro lugar, criar produtos para o português em parceria com empresas de software especializadas. Em segundo, fornecer um canal de distribuição para os produtos que manipulam o português e que teriam dificuldade em chegar ao mercado de outra forma. E, em terceiro, a própria criação de produtos elaborados dentro da empresa, no chamado mercado de edição electrónica, que fez questão de observar ser muito pequeno, visto que os problems relativos ao mercado brasileiro não são triviais devido às diferenças linguísticas existentes.
Henrique Carreiro, representando a Microsoft portuguesa, referiu o trabalho de investigação em processamento de linguagem natural nos laboratórios da Microsoft Research, insistindo na primazia dada pela sua companhia à interação em linguagem natural. Esclareceu que uma das dificuldades no estabelecimento de projectos conjuntos com institutos de investigação locais é a questão dos direitos intelectuais. Em relação à situação portuguesa, referiu o estímulo dado pela subsidiária nacional à localização, assim como o seu trabalho na divulgação de empresas portuguesas como parceiros de desenvolvimento, e o apoio concedido através do acesso aos produtos da Microsoft em condições vantajosos, em vários programas governamentais.
Carlos Amaral, representando a Priberam Informática, fez um historial da actividade da sua empresa na área, chamando a atenção para o facto de que é importante fazer coisas por falantes da própria língua, notando contudo a dificuldade de uma empresa investir em trabalho que requer muitos anos de investigação, sugerindo que este deveria ser feito com o apoio do Estado. Insistindo na disponibilização dos recursos criados com o dinheiro público, chamou a atenção para o facto de que esses recursos não devem ser apenas facultados para aplicações sem fins lucrativos. Acabou a sua intervenção exprimindo o desejo da criação de uma bolsa de emprego e uma lista electrónica onde as pessoas pudessem comunicar livremente sobre a área.
Luís Moniz Pereira sugeriu que o Estado enunciasse objectivos, e que criasse um centro associado na área, com uma comissão de acompanhamento que velasse por que esses objectivos fossem conseguidos. Tal instituição funcionaria como potencial coordenadora de um funcionamento em rede dos vários actores. Terminou pedindo sinais claros do governo para que a juventude invista nesta área durante a sua formação.
Isabel Hub Faria chamou a atenção para a importância da modelação cognitiva na linguística computacional, e alertou para o perigo de ter critérios industriais como únicos avaliadores do avanço na área, exortando as entidades financiadoras e planeadoras a terem em consideração a investigação fundamental e, em particular, a formação universitária.
João Ruivo falou da necessidade de identificar o cliente, quando se fala em I&D sobre a língua portuguesa, ou seja, de conhecer o mercado e as necessidades reais ("quem precisa de quê e como"), e da necessidade de um controle de qualidade, especificamente a nível de terminologia técnica e da variante do português em causa. Insistiu também na necessidade da imposição legal em vários domínios, finalizando com a informação de que a formação dos tradutores é totalmente insuficiente no que respeita a ferramentas informáticas.
Fernando Pereira esclareceu que a engenharia recebe (e deve receber) financiamentos de níveis muito mais elevados do que a ciência pura, por várias razões: está mais próxima das necessidades económicas e sociais da sociedade em que se enquadra, requer produção de um sistema que funciona, e que contém muitas fases sem interesse científico mas absolutamente necessárias. Na sua opinião, a ênfase no processamento computacional da língua portuguesa é para produzir produtos social e economicamente valiosos e não para preferir uma dada área científica. Da mesma forma, a ênfase na formação deve ter a ver com os objectivos pretendidos.
Daniel Brito e Cunha chamou a atenção para a situação precária das pessoas surdas na sociedade portuguesa, relatando, por um lado, o ensino deficiente na área, e explicando que, em sentido estrito, não existe uma comunidade linguística em linguagem gestual portuguesa por serem demasiado poucos os "falantes". Daí ser absolutamente necessário, para evitar a exclusão social destes cidadãos, investir em apoio tecnológico para ensinar o português escrito aos surdos e a linguagem gestual portuguesa aos que o não são.
João Sequeira lembrou o papel das grandes empresas públicas como investidoras em tecnologia, ou seja, clientes a não desprezar, e como participantes a nível da investigação aplicada. Reconhecendo o papel do Estado e sua obrigação de investir em tecnologia nacional, exortou contudo os investigadores a darem-se a conhecer e ao seu trabalho aos decisores das empresas públicas para, em conjunto, poderem identificar áreas de interesse mútuo.
Fernando Pereira interveio para esclarecer que, numa óptica de oferta e procura, a maior procura de momento é de recursos linguísticos – mas que a sua criação tem de ser controlada pelos futuros consumidores. Em relação à procura de jovens no mercado de trabalho, referiu o grande desajustamento entre as necessidades da indústria da língua e a oferta universitária. Quanto à formação de investigadores a nível de doutoramento, insistiu em que o mercado se internacionalizou e que é preciso formar pessoas a nível internacional para competir num mercado global.
Jorge Andrade questionou a possibilidade de criar uma terminologia técnica e científica sem existirem revistas em língua portuguesa, e sugeriu o uso de um tradutor de estenografia para linguagem escrita como forma eficiente de comunicar com um surdo, enquanto Hans Uszkoreit referiu as vantagens da cooperação europeia precisamente para o caso das comunidades com necessidades especiais.
Carlos Amaral chamou a atenção para o facto de as aplicações para português da Microsoft estarem neste momento – por razões puramente económicas – a ser desenvolvidas em Itália, notando que a tecnologia distribuída pelas multinacionais está cada vez mais a englobar o processamento de linguagem natural, querendo isso dizer que sem, resoluções rápidas, muito provavelmente o controlo escapará às pessoas que neste momento se encontram a discutir o futuro da área.
Luis Magalhães, representando a Fundação para a Ciência e a Tecnologia, comentou algumas das afirmações feitas durante o debate, afirmando estar convencido de que instituições científicas fortes necessitam de emprego científico a tempo inteiro, e dirigindo a atenção dos investigadores para o novo estatuto da carreira de investigação.
José Mariano Gago, ministro da Ciência e da Tecnologia, encerrou o debate comentando a grande desproporção entre ambição e realização que existe na área e fazendo votos para que o seu relançamento seja possível devido à renovação da comunidade científica e à aproximação com outras especialidades antes afastadas deste processo.
Após notar que o planeamento do processamento computacional da língua levanta todos os problemas da política científica, considerou a situação como correspondendo ao ano zero da área, ainda que ressaltando o grande esforço por parte de alguns intervenientes para conseguirem a interdisciplinaridade necessária.
Exortou os presentes a mudar de escala, de forma a que daqui a dez anos a situação em Portugal seja completamente diferente, sob pena de perdermos o desafio que se coloca à sociedade portuguesa. Apelou para que não nos deixemos vencer pela angústia e acreditemos na montagem de esquemas eficientes de mudança de escala e na definição de uma estratégia global que faça sentido. Em relação ao problema dos recursos básicos sobre a língua, que faltam absolutamente, considerou-os vitais para a permanência do português no futuro: Sem português em formato digital, não existirá língua nem civilização portuguesa daqui a 10-20 anos. Não é possível dissociar a economia da cultura; é absolutamente essencial colaborar com o mundo empresarial para criar instrumentos que toda a gente venha a utilizar.
Explicando que há independência total do Estado em relação às áreas científicas, definiu o papel deste, como elemento regulador, como sendo o de garantir a qualidade científica e impedir o isolamento entre as instituições científicas e a sociedade. Cabe também ao Estado definir objectivos de interesse público, sobretudo quando de interesse estratégico, que é o caso da língua e do seu processamento computacional.
Afirmando que o ministério irá manter a área do processamento computacional do português sob escrutínio e trabalhar com todas as empresas, nacionais ou estrangeiras, do sector, convidou estas a apresentar propostas no sentido de desenvolver produtos que sejam relevantes para o desenvolvimento da sociedade de informação em Portugal e para a defesa da língua portuguesa. Terminou a sua intervenção, muito aplaudida, apelando aos mais novos para participar no debate e na construção do seu próprio futuro.