Interesses e actividade

Diana Santos

Uma breve introdução aos problemas que me apaixonam e às minhas respostas ou obras.

Este texto foi escrito em 1998; em 2003 adicionei alguns pinceladas largas sobre o percurso desde aí.


Tradução automática

PORTUGA, ou MENTOR/P, foi um protótipo de cobertura larga (ou seja, sem restrições a nível de língua, mas com um dicionário bilingue reduzido) que traduzia de inglês para português. Este sistema foi desenvolvido por mim e por uma equipa sob a minha orientação no então Grupo Científico IBM-INESC, de 1987 a 1989.

Como ideias originais, saliento:

Para mais informação veja-se
Santos 90
Santos, Diana. "Lexical gaps and idioms in Machine Translation", Hans Karlgren (ed.), Proceedings of COLING'90 (Helsinki, August 1990), Vol 2, pp.330-5.
Santos 93
Santos, Diana. "Broad-coverage machine translation", in K. Jensen, G. Heidorn & S. Richardson, Natural Language Processing: The PLNLP Approach, Kluwer Academic Press, 1992.
Mais tarde, 1995-96 orientei um estudo preliminar para a Logos Corporation sobre as diferenças entre as variantes portuguesa e brasileira do português, sugerindo uma metodologia baseada em corpora para estudar a fundo essas diferenças.

Em 2002, englobado no trabalho na Linguateca, iniciámos um processo de avaliação de tradutores automácticos (grupo ARTUR).


Análise morfo-sintáctica

Em 1989-90, na IBM portuguesa, iniciei o desenvolvimento de uma gramática computacional do português para integrar um corrector estilístico e gramatical. No âmbito desse projecto foram criados (e atribuídos) vários marcadores sintácticos para o léxico português, assim como feito um estudo sobre os erros mais frequentes.

De 1991 a 1994 orientei o desenvolvimento do Palavroso, a cargo do José Carlos Medeiros e cujo dicionário foi fruto do trabalho de diversos linguistas. O Palavroso é um analisador morfológico baseado em regras de vários tipos, que NÃO segue o modelo dos paradigmas. (Ou seja, não depende de um léxico que contém informação pormenorizada sobre a flexão das palavras de uma língua.) O Palavroso, à data da minha separação da instituição que o possui,

Com base no Palavroso, foi anotado um corpus de frases (coligido para a gramática anterior), o CORPUSINESC, e feitos vários estudos sobre a ambiguidade e a categorização/anotação sintáctica.

Veja-se

Medeiros et al. 93
Medeiros, José Carlos, Rui Marques & Diana Santos. "Português Quantitativo", Actas do 1.o Encontro de Processamento de Língua Portuguesa (Escrita e Falada) - EPLP'93, (Lisboa, 25-26 de Fevereiro de 1993), pp.33-8.
Barreiro et al. 93
Barreiro, Anabela, Maria de Jesus Pereira & Diana Santos. "Critérios e opções linguísticas no desenvolvimento do Palavroso, um sistema computacional de descrição morfológica do português", Relatório INESC num. RT/54-93, Dezembro de 1993.
Santos 94a
Santos, Diana. "Português Computacional", Actas do Congresso Internacional sobre o Português (Lisboa, 11-15 de Abril de 1994), Vol. 3, pp.167-184.
Um dos trabalhos da Linguateca foi criar um recurso para o estudo da analise sintactica do portugues, a Floresta Sinta(c)tica; assim como iniciar o processo de avaliacao conjunta da analise morfológica do português, as Morfolimpiadas.

Semântica

Algumas das minhas opiniões mais controversas serão: Estudei portanto o português em contraste com o inglês, e sugeri uma classificação aspectual para os verbos portugueses seguindo a metodologia, mas não as classes, de Vendler.

Veja-se:

Santos 95c
Santos, Diana. "On the use of parallel texts in the comparison of languages", Actas do XI Encontro da Associação Portuguesa de Linguística (Lisboa, 2-4 de Outubro de 1995), pp.217-239.
Santos 96a
Santos, Diana Maria de Sousa Marques Pinto dos. "Tense and aspect in English and Portuguese: a contrastive semantical study", Tese de doutoramento, Instituto Superior Técnico, Universidade Técnica de Lisboa, Junho 1996.
Santos 97a
Santos, Diana. "The importance of vagueness in translation: Examples from English to Portuguese", Romansk Forum Nr. 5, Juni 1997, pp.43-69.
Santos 96b
Santos, Diana. "Para uma classificação aspectual portuguesa do português", Actas do XII Encontro da Associação Portuguesa de Linguística (Braga, 1-3 de Outubro de 1996), pp.299-315.

Processamento de corpora

Corpora de texto não são um objectivo em si, mas uma boa maneira de observar a língua. Por isso, as questões mais interessantes são as metodológicas. Veja-se, para os dois primeiros pontos apenas,
Medeiros et al. 93
Medeiros, José Carlos, Rui Marques & Diana Santos. "Português Quantitativo", Actas do 1.o Encontro de Processamento de Língua Portuguesa (Escrita e Falada) - EPLP'93, (Lisboa, 25-26 de Fevereiro de 1993), pp.33-8.
Santos 94a
Santos, Diana. "Português Computacional", Actas do Congresso Internacional sobre o Português (Lisboa, 11-15 de Abril de 1994), Vol. 3, pp.167-184.
Santos 94b
Santos, Diana. "Bilingual alignment and tense", Proceedings of the Second Annual Workshop on Very Large Corpora (Kyoto, August 4th, 1994), Versão alargada em Relatório INESC AR/10-94.
Santos 95a
Santos, Diana. "On grammatical translationese", in Short papers presented at the Tenth Scandinavian Conference on Computational Linguistics (Helsinki, 29-30th May 1995), compiled by Kimmo Koskenniemi, pp.59-66.
Santos 98a
Santos, Diana. "Punctuation and multilinguality: Reflections from a language engineering perspective". In Working Papers in Applied Linguistics 4/98, redigert av Jo Terje Ydstie og Anne C. Wollebæk. Oslo: Department of linguistics, Faculty of Arts, University of Oslo, pp.138-60.

Serviços de PLN na WWW

Utilizar a internet para disponibilizar ferramentas e recursos de linguagem natural, minimizando o tempo de adaptação de novos utilizadores e concentrando nas questões fundamentais quanto ao apoio ao utente.

O serviço que disponibiliza o Oslo Corpus of Bosnian Texts (OCBT) foi criado e implementado por mim.

Veja-se, para os preliminares,

Santos 98b
Santos, Diana. "Providing access to language resources through the World Wide Web: the Oslo Corpus of Bosnian Texts". In Antonio Rubio, Natividad Gallardo, Rosa Castro and Antonio Tejada (eds.), Proceedings of The First International Conference on Language Resources and Evaluation (Granada, 28-30 May 1998), Vol. 1, pp.475-481.
Santos 98e
Santos, Diana. "Disponibilização de corpora através da WWW". Actas do I Workshop sobre Linguística Computacional da Associação Portuguesa de Linguística (Lisboa, 25-27 de Maio de 1998), em prep.
e para o que ja foi conseguido: projecto AC/DC, COMPARA/DISPARA, Floresta, etc.

Ensino de português a estrangeiros

Nesta área (na qual intervim de passagem), produzi umas notas de apoio para ensinar a gramática do português, e compilei algumas questões / erros típicos com os quais pretendia criar um manual de ensino do português língua estrangeira para alunos avançados (que não existe). Compilei também alguns poucos textos na ideia de vir a coligir um corpus de alunos de português.

Veja-se

Santos 95d
Santos, Diana. Notas sobre gramática portuguesa. Klassisk og romansk institutt: iberoromansk, Høst 1995.

Estudos contrastivos

Vejo os estudos contrastivos como um método de chegar a uma maior compreensão de uma língua, assim como da tradução entre várias línguas.

Além de perseguir um método para estudos contrastivos baseado em corpora alinhados, também me interessa analisar a influência de outras línguas no português traduzido - e não só.

Veja-se, além da tese de doutoramento,

Santos 97b
Santos, Diana. "O tradutês na literatura infantil traduzida em Portugal", Actas do XIII Encontro da Associação Portuguesa de Linguística (Lisboa, 1-3 de Outubro de 1997).
Santos 98c
Santos, Diana. "Perception verbs in English and Portuguese". In Johansson, Stig and Signe Oksefjell (eds.), Corpora and Crosslinguistic Research: Theory, Method, and Case Studies. Amsterdam: Rodopi, pp.319-342.
Santos 98d
Santos, Diana. "Um olhar computacional sobre a tradução". Terminologia & Tradução

Avaliação

Uma das minhas prioridades, e assunto de investigação favorito, desde 1999.

Recolha de informação

Uma área (para cujo interesse despertei em 2002) em que o uso do PLN, e da avaliação, me parecem fulcrais.

[Página principal | English homepage | Pequeno CV em inglês | Lista de publicações | Currículo ]


Última alteração a 4 de Abril de 2003 por Diana Santos, Diana.Santos@sintef.no