Engenheiro Carlos Amaral Priberam
Vamos também fazer uma apresentação muito breve, na perspectiva de uma empresa que desenvolve produtos na área da linguística computacional em Portugal. Julgo que promover um debate entre todos os intervenientes neste encontro é mais importante e produtivo do que as apresentações individuais. Ao longo do dia temos ouvido essencialmente o ponto de vista dos institutos de investigação e julgo que o papel destes três últimos oradores é dar agora a perspectiva das empresas.
Falou-se muito de financiamentos e da sua importância para desenvolver este tipo de ferramentas. Por outro lado foi várias vezes referida a importância de investir nesta área para conseguir manter a nossa língua viva. Devo dizer que a Priberam trabalha desde 1992 nesta área e nunca teve qualquer financiamento externo. Começámos por desenvolver com um instituto de investigação que também já fez hoje a apresentação, o ILTEC, o primeiro corrector ortográfico desenvolvido em Portugal e comercializado para as aplicações da Microsoft. Mais tarde, em 1994, em parceria com a Porto Editora, desenvolvemos ferramentas mais ambiciosas, mas que em termos de linguística computacional ainda estão nos primeiros patamares daquilo que já é feito noutras línguas. Falando do produto que poderão conhecer mais, o FLiP na sua versão de 97, tem um corrector ortográfico que em termos de qualidade já está bastante bom, no entanto, em termos de investigação, não é nada do outro mundo. Fizemos já alguns avanços nos degraus seguintes desta escada de complexidade em termos de tecnologias linguísticas, em termos de morfologia, de desambiguação e de sintaxe. Nesta última área, para quem conheça o produto, facilmente reconhece que ainda são os primeiros passos. É uma versão 1.0 de um corrector sintáctico para a língua portuguesa.
Seguem-se níveis muito mais interessantes e para os quais é necessário muito mais trabalho e investimento e daí que, mesmo para aquilo que já fizemos, muitas vezes nos perguntarem se temos apoio de algum ministério ou do Estado, para desenvolver este tipo de produtos. E não. Tratou-se apenas de uma abordagem empresarial associada a um gosto por fazer qualquer coisa pela nossa língua que até agora tem funcionado. O sucesso de produtos como o FLiP deve-se ao facto de a qualidade do que vem incluído, nomeadamente em produtos como os da Microsoft, não ser suficiente. Isto deve-se essencialmente a estes produtos não serem feitos por falantes da nossa língua.
Para conseguirmos manter este avanço em termos de qualidade das tecnologias linguísticas para o Português e começar a entrar em domínios como o da semântica ou o da compreensão, os investimentos são muito maiores e sem financiamento externos os problemas podem ser muito maiores.
Um dos problemas que uma pequena empresa como a Priberam enfrenta constantemente na área da linguística é a falta de recursos humanos e linguísticos. Desta forma temos sempre privilegiado as parcerias com outras entidades para desenvolver produtos e serviços. Dado que tanto a equipa que formou a empresa como a de desenvolvimento veio de institutos de investigação como o INESC e já trabalhámos com o ILTEC, conhecemos grande parte das pessoas que está nesta sala e que trabalham nesta área. Mas a verdade é que até agora tem-se revelado algo difícil a tão falada relação universidade/indústria. Este era um dos problemas que nós gostaríamos de ver resolvido.
Um outro aspecto que foi já muito discutido aqui e que a Diana Santos refere como sendo um dos objectivos principais, e com o qual nós concordamos inteiramente, é a disponibilização de recursos que foram produzidos na maioria dos casos com dinheiros públicos e/ou de projectos europeus. A verdade é que as empresas dificilmente têm acesso a estes recursos e note-se que não estou a falar da utilização de determinado tipo de software, mas sim, por exemplo, de acesso a corpora que é difícil de reunir e tratar e imprescindível para progredir para outros níveis linguísticos, ou melhorar as bases linguísticas já existentes. Não faz qualquer sentido que, para além do investimento que as empresas já têm que fazer no desenvolvimento e teste dos produtos, no marketing e no suporte, ainda tenham que ir refazer todo esse trabalho que provavelmente existe em várias instituições cá em Portugal.
Por exemplo, o CLUL, que todos sabemos tem um corpus muito interessante, disse que não há qualquer problema em disponibilizar aquele corpus... desde que não seja para fins lucrativos. Ora um empresa tem que ter fins lucrativos! Há pois aqui uma distância muito grande entre a visão dos institutos de investigação e das universidades e a das empresas. É urgente arranjar uma forma de dar acesso a estes recursos às empresas para que estas possam avançar sem terem que refazer todo o trabalho já feito e que foi pago, em parte, por essas empresas.
Queria só deixar mais três pontos em termos do que eu acho que é importante para se promover algum avanço nesta área para a língua portuguesa, e que tem muito a ver com uma série de considerações que a Diana já fez no seu documento. O primeiro é saber o que há. Em todas as conferências ou debates desta área aparece uma universidade que diz que tem um corpus de não sei quantos milhões de palavras, aparece outro que diz que tem mais não sei quantos milhões... As empresas muitas vezes não sabem que eles existem, nem sabem como é que os podem utilizar. Era importantíssimo que todos estes institutos de alguma forma divulgassem o que é que têm e o que é que estão a fazer, para as empresas decidirem, Vamos pegar nisto ou não? ou se isto vem de encontro àquelas expectativas de qualquer coisa que elas até estão à procura.
Um outro aspecto tem a ver com a formação. A formação em linguística computacional é um dos pontos que também tem sido aqui discutido. Hoje em dia é difícil arranjar programadores por causa dos problemas do Euro ou do ano 2000. As grandes empresas estão a contratar muita gente para resolver esse tipo de problemas urgentemente e há uma falta de mão-de-obra no mercado muito grande. Quando particularizamos isto para uma área como é a do processamento da linguística computacional, ainda mais complicadas as coisas se tornam. Sugiro que se crie uma espécie de bolsa de emprego, qualquer coisa deste tipo, como é feito em alguns casos, em algumas universidades todos os anos, em que aparecem uma série de estagiários, de pessoas que dizem quais são as suas competências e que trabalham ou têm interesse em trabalhar nesta área.
Uma coisa que é importante também, mas que passa primeiro por haver muito mais transparência em toda esta área, entre os institutos, as empresas e todos os grupos intervenientes, é que houvesse um fórum de discussão. Existem algumas listas mas que estão muito mortas em termos de troca de informações nesta área. Não há um veículo em que as pessoas que estão a trabalhar nesta área em Portugal, ou fora de Portugal mas para a língua portuguesa, possam discutir um conjunto de problemas que provavelmente são comuns a uma série de empresas e de institutos e de investigadores nesta área.
Gostaria de passar rapidamente para um debate e como sou a última pessoa a fazer estas apresentações, não iria acrescentar mais nada.
Voltar à página do Debate público