Interesses e actividade
Diana Santos
Uma breve introdução aos problemas que me apaixonam e às minhas respostas ou obras.
Este texto foi escrito em 1998; em 2003 adicionei alguns pinceladas largas sobre o percurso desde aí.
PORTUGA, ou MENTOR/P, foi um protótipo de cobertura larga (ou seja, sem
restrições a nível de língua, mas com um dicionário bilingue reduzido) que traduzia
de inglês para português. Este sistema foi desenvolvido por mim e por uma equipa
sob a minha orientação no então Grupo Científico IBM-INESC, de 1987 a 1989.
Como ideias originais, saliento:
- o tratamento das diferenças lexicais (expressões idiomáticas, colocações, falhas léxicas)
de uma forma uniforme
- a invocação de um analisador da língua de destino controlado pela informação
no dicionário bilingue
- a separação estrita entre tradução possível e melhor tradução (a ser calculada por um
módulo distinto)
Para mais informação veja-se
- Santos 90
- Santos, Diana. "Lexical gaps and idioms in Machine Translation", Hans Karlgren (ed.), Proceedings of COLING'90 (Helsinki, August 1990), Vol 2, pp.330-5.
- Santos 93
- Santos, Diana. "Broad-coverage machine translation", in K. Jensen, G. Heidorn & S. Richardson, Natural Language Processing: The PLNLP Approach, Kluwer Academic Press, 1992.
Mais tarde, 1995-96 orientei um estudo preliminar para a Logos Corporation sobre as diferenças entre
as variantes portuguesa e brasileira do português, sugerindo uma metodologia baseada em corpora
para estudar a fundo essas diferenças.
Em 2002, englobado no trabalho na Linguateca, iniciámos um processo de avaliação de tradutores automácticos (grupo ARTUR).
Análise morfo-sintáctica
Em 1989-90, na IBM portuguesa, iniciei o desenvolvimento de uma gramática computacional do português para
integrar um corrector estilístico e gramatical. No âmbito desse projecto foram criados
(e atribuídos) vários marcadores sintácticos para o léxico português, assim como feito um estudo
sobre os erros mais frequentes.
De 1991 a 1994 orientei o desenvolvimento do Palavroso, a cargo do José Carlos Medeiros e
cujo dicionário foi fruto do trabalho de diversos linguistas. O Palavroso é um analisador
morfológico baseado em regras de vários tipos, que NÃO segue o modelo dos paradigmas.
(Ou seja, não depende de um léxico que contém informação pormenorizada sobre a flexão das
palavras de uma língua.)
O Palavroso, à data da minha separação da instituição que o possui,
- continha cerca de 60.000
entradas correspondendo a mais de 1.300.000 formas
- Existia também numa versão para
português do Brasil
- Tinha sido (ou estava a ser) usado em várias aplicações: um corrector ortográfico, um tutor
inteligente, um sintetizador de voz, um varredor de corpora, para citar apenas os mais importantes.
Com base no Palavroso, foi anotado um corpus de frases (coligido para a gramática anterior),
o CORPUSINESC, e feitos vários estudos sobre a ambiguidade e a categorização/anotação sintáctica.
Veja-se
- Medeiros et al. 93
- Medeiros, José Carlos, Rui Marques & Diana Santos. "Português Quantitativo", Actas do 1.o Encontro de Processamento de Língua Portuguesa (Escrita e Falada) - EPLP'93, (Lisboa, 25-26 de Fevereiro de 1993), pp.33-8.
- Barreiro et al. 93
- Barreiro, Anabela, Maria de Jesus Pereira & Diana Santos. "Critérios e
opções linguísticas no desenvolvimento do Palavroso, um sistema
computacional de descrição morfológica do português", Relatório INESC
num. RT/54-93, Dezembro de 1993.
- Santos 94a
- Santos, Diana. "Português Computacional", Actas
do Congresso Internacional sobre o Português (Lisboa, 11-15 de
Abril de 1994), Vol. 3, pp.167-184.
Um dos trabalhos da Linguateca foi criar um recurso para o estudo da analise sintactica do portugues, a Floresta Sinta(c)tica; assim como iniciar o processo de avaliacao conjunta da analise morfológica do português, as Morfolimpiadas.
Algumas das minhas opiniões mais controversas serão:
- O significado não pode ser definido independentemente da língua.
- Estudos contrastivos baseados em traduções, pese embora todas as complexidades da
tradução, são a melhor forma de obter dados semânticos
- A vagueza ("vagueness") é uma das propriedades mais importantes da linguagem natural,
e como tal devia ser estudada e modelada.
Estudei portanto o português em contraste com o inglês, e sugeri uma classificação aspectual
para os verbos portugueses seguindo a metodologia, mas não as classes, de Vendler.
Veja-se:
- Santos 95c
- Santos, Diana. "On the use of parallel texts in the comparison of
languages", Actas do XI Encontro da Associação Portuguesa de
Linguística (Lisboa, 2-4 de Outubro de 1995), pp.217-239.
- Santos 96a
- Santos, Diana Maria de Sousa
Marques Pinto dos. "Tense and aspect in English and Portuguese: a
contrastive semantical study", Tese de doutoramento, Instituto
Superior Técnico, Universidade Técnica de Lisboa, Junho 1996.
- Santos 97a
- Santos, Diana. "The importance of vagueness in translation:
Examples from English to Portuguese",
Romansk Forum Nr. 5, Juni 1997, pp.43-69.
- Santos 96b
- Santos, Diana. "Para uma classificação aspectual
portuguesa do português", Actas do XII Encontro da Associação Portuguesa de
Linguística (Braga, 1-3 de Outubro de 1996), pp.299-315.
Corpora de texto não são um objectivo em si, mas uma boa maneira de observar a língua.
Por isso, as questões mais interessantes são as metodológicas.
- Estudos baseados em corpora da língua portuguesa, com o objectivo de a caracterizar
quantitativamente
- Obtenção de uma metodologia para estudos contrastivos baseados em corpora
- Identificar estratégias diferentes no uso de corpora: os melhores exemplos, exemplos
suficientes, todos os exemplos.
- Anotação de corpora como contraponto em relação ao preenchimento do léxico
- Avaliação de sistemas de PLN usando corpora
Veja-se, para os dois primeiros pontos apenas,
- Medeiros et al. 93
- Medeiros, José Carlos, Rui Marques & Diana Santos. "Português Quantitativo",
Actas do 1.o Encontro de Processamento de Língua Portuguesa (Escrita e Falada) - EPLP'93, (Lisboa, 25-26 de Fevereiro de 1993), pp.33-8.
- Santos 94a
- Santos, Diana. "Português Computacional", Actas
do Congresso Internacional sobre o Português (Lisboa, 11-15 de
Abril de 1994), Vol. 3, pp.167-184.
- Santos 94b
- Santos, Diana. "Bilingual alignment and tense", Proceedings of the
Second Annual Workshop on Very Large Corpora (Kyoto, August 4th,
1994), Versão alargada em Relatório INESC AR/10-94.
- Santos 95a
- Santos, Diana. "On grammatical translationese", in Short papers
presented at the Tenth Scandinavian Conference on Computational
Linguistics (Helsinki, 29-30th May 1995), compiled by Kimmo
Koskenniemi, pp.59-66.
- Santos 98a
- Santos, Diana. "Punctuation and multilinguality: Reflections from
a language engineering perspective". In Working Papers in Applied Linguistics 4/98,
redigert av Jo Terje Ydstie og Anne C. Wollebæk. Oslo: Department of linguistics, Faculty of
Arts, University of Oslo, pp.138-60.
Utilizar a internet para disponibilizar ferramentas e recursos de linguagem natural,
minimizando o tempo de adaptação de novos utilizadores e concentrando nas questões fundamentais
quanto ao apoio ao utente.
O serviço que disponibiliza o
Oslo Corpus of Bosnian Texts (OCBT) foi criado
e implementado por mim.
Veja-se, para os preliminares,
- Santos 98b
- Santos, Diana. "Providing access to language
resources through the World Wide Web: the Oslo Corpus of Bosnian
Texts". In Antonio Rubio, Natividad Gallardo, Rosa Castro and Antonio Tejada (eds.),
Proceedings of The First International Conference on
Language Resources and Evaluation (Granada, 28-30 May 1998), Vol. 1, pp.475-481.
- Santos 98e
- Santos, Diana. "Disponibilização de corpora através da WWW". Actas do
I Workshop sobre Linguística Computacional da Associação Portuguesa de Linguística
(Lisboa, 25-27 de Maio de 1998), em prep.
e para o que ja foi conseguido:
projecto AC/DC, COMPARA/DISPARA, Floresta, etc.
Nesta área (na qual intervim de passagem), produzi umas notas de apoio para ensinar
a gramática do português, e compilei algumas questões / erros típicos com os quais
pretendia criar um manual de ensino do português língua estrangeira para alunos avançados
(que não existe).
Compilei também alguns poucos textos na ideia de vir a coligir um corpus
de alunos de português.
Veja-se
- Santos 95d
- Santos, Diana. Notas sobre gramática portuguesa. Klassisk og romansk institutt: iberoromansk, Høst 1995.
Vejo os estudos contrastivos como um método de chegar a uma maior compreensão de uma
língua, assim como da tradução entre várias línguas.
Além de perseguir um método para estudos contrastivos baseado em corpora alinhados, também
me interessa analisar a influência de outras línguas no português traduzido - e não só.
Veja-se, além da tese de doutoramento,
- Santos 97b
- Santos, Diana. "O tradutês na literatura infantil
traduzida em Portugal",
Actas do XIII Encontro da Associação Portuguesa de
Linguística (Lisboa, 1-3 de Outubro de 1997).
- Santos 98c
- Santos, Diana. "Perception verbs in English and
Portuguese". In Johansson, Stig and Signe Oksefjell (eds.), Corpora and Crosslinguistic
Research: Theory, Method, and Case Studies. Amsterdam: Rodopi,
pp.319-342.
- Santos 98d
- Santos, Diana. "Um olhar computacional sobre a
tradução". Terminologia & Tradução
Uma das minhas prioridades, e assunto de investigação favorito, desde 1999.
Uma área (para cujo interesse despertei em 2002) em que o uso do PLN, e da avaliação, me parecem fulcrais.
Última alteração a 4 de Abril de 2003 por Diana Santos, Diana.Santos@sintef.no