Respostas ao questionário sobre os recursos produzidos relacionados com os
projectos de processamento computacional da língua portuguesa
2/2.1/CSH/759/95-
Léxico Multifuncional Computorizado do Português Contemporâneo
2/2.1/CSH/795/95-
CORAL - Corpus de diálogo etiquetado
2/2.1/CSH/835/95-
Organização e informatização do arquivo e biblioteca da casa Eugénio de Almeida
(Évora)
2/2.1/CSH/841/95-
Dicionário multimédia da cultura expressiva em Portugal
ELAN-MLIS-121-
European Language Activity Network
PCSH/C/LIN/212/91-
Representação Semântica e Processos Inferenciais - Teoria Geral e Aplicação à
Língua Portuguesa
PCSH/C/LIN/936/95-
Representação Semântica e Processos Inferenciais - Tempo e Conexões Frásicas e
Discursivas
PLUS/C/LIN/816/93-
Dicionário de Combinatórias do Português
PLUS/C/PDP/1175/95-
DICIOMEDIA - Prontuário Multimédia da Língua Portuguesa no Domínio dos
Verbos
PRAXIS/C/CLC/122/96-
RECTIS - Rectificação de erros sintácticos do português
PRAXIS/C/CLC/123/96-
GLEP Gramática de Larga Escala do Português
2/2.1/CSH/759/95- Léxico Multifuncional Computorizado do Português
Contemporâneo
Responsáveis: João Malaca Casteleiro e Maria Fernanda
Bacelar do Nascimento
Instituições: Centro de Linguística da
Universidade de Lisboa - Fundação da Universidade de Lisboa (proponente), INESC, Editorial Verbo, ILC de Pisa (Consultor)
URL: http://www.clul.ful.pt/
Léxicos:
30.000 palavras com a respectiva classificação morfossintáctica e informação
quantitativa sobre a sua ocorrência no corpus.
Corpora: Corpus de
15.000.000 de palavras (extraído do Corpus de Referência do Português
Contemporâneo).
Data do último relatório: 28 de Setembro de
1999
Cumprimento: Tendo em conta os objectivos iniciais deste
projecto, todas as tarefas têm vindo a ser realizadas à excepção de uma -
transcrição fonética alargada de cada elemento do léxico - que a equipa não
poderá concretizar devido a cortes no orçamento inicialmente apresentado.
2/2.1/CSH/795/95- CORAL - Corpus de diálogo
etiquetado
Responsável: Isabel Trancoso
Instituições:
Instituto de Engenharia de Sistemas e Computadores - INESC, Centro de
Linguística da Universidade de Lisboa, Faculdade de Letras da Universidade de
Lisboa, Faculdade de Ciências Sociais e Humanas da Universidade de
Lisboa
URL: http://www.speech.inesc.pt/coral/coral_pt.html
Corpora:
Corpus CORAL, fala espontânea, 64 diálogos, 32 falantes;
anotação ortográfica
para todos os diálogos;
anotação a vários níveis para um subconjunto
pequeno.
5 CDROMs (formato dos ficheiros de fala "raw" ou "wav").
Preço
dependente dos fins a que se destina o corpus (investigação, comerciais).
Planeada a sua disponibilização através da agência Europeia ELRA a curto prazo,
se houver interesse da parte desta.
Contactar investigador responsável para
qualquer outra informação sobre o corpus e a sua disponibilização.
Data do
último relatório: Julho de 1999
Cumprimento: Objectivos cabalmente
cumpridos, apesar dos "enormes" cortes
2/2.1/CSH/835/95- Organização e informatização do arquivo e biblioteca da
casa Eugénio de Almeida (Évora)
Responsável: Helder Adegar
Fonseca
Instituição: Universidade de Évora
URL: Serão
estabelecidos no final do Projecto
Ferramentas:
a) utilizamos o
Porbase- para o fundo bibliográfico.
b) desenvolvemos o ALEXANDRIA, um
aplicativo para inventario e catalogação electrónica de arquivos de pequena e
média dimensão.
Data do último relatório:
Jan.2000
Referências:: O projecto visa a edição electrónica dos
Catálogos da Biblioteca e Arquivo da Casa Eugénio de Almeida (o que se fará no
final do projecto, previsto para Dezembro de 1999)
Cumprimento: Os
objectivos iniciais serão totalmente cumpridos, embora tenha sido necessário
mais tempo do que aquele que estava inicialmente previsto. As razões para tal
facto:
a) alguma falta de sincronia administrativa nas diversas componentes
que envolviam o projecto (bolseiros, financiamento).
b) a ineficácia do
softwere inicialmente previsto.
c) a lentidão administrativa para
disponibilização efectiva das verbas, etc....
2/2.1/CSH/841/95- Dicionário multimédia da cultura expressiva em
Portugal
Responsável: Salwa El-Shawan
Castelo-Branco
Instituição: Fac. de Ciências Sociais e Humanas da
Univ. Nova de Lisboa
Léxicos: Léxicos musicais
Corpora:
cerca de 2500 termos ligados a todas as práticas músicais em Portugal no século
XX.
Ferramentas: Foi especificado o software com base nas aplicações
pretendidas, na funcionalidade e portabilidade exigidas e tendo em consideração
a fiabilidade e eficiência dos produtos existentes no mercado.
-Produtos de
software:
Aplicação para o desenvolvimento de Bases de Dados Relacionais:
Filemaker v. 4.1; Aplicação para tratamento de imagem: PhotoShop V. 4; Aplicação
para tratamento e armazenamento de som: ProTools V. 4.0 e Masterlist CD V. 1.0;
Aplicação para digitalização e armazenamento em fac-simile de documentos
impressos: Adobe Acrobat V 3.0; Aplicação para digitalização e armazenamento de
documentos audio-visuais: Adobe Premiere V 5.0. -Formatos da informação
digitalizada:
Imagem: Photoshop, Tiff (sem compressão);
Som: Sound
Designer II, Aiff (Split Mono ou Stereo Interleaved sem
compressão);
Documentos fac-simile: Adobe Portable Digital File
Format;
Documentos audio-visuais: QuicKTime V. 3.0 (sem compressão
destrutiva).
-Equipamento:
Computador Pentium II 233 Mhz 64MB RAM, 5.1 e 4
GB HD Computador Macintosh G3 266 Mhz 64 MB RAM, 6 GB HD e 6 GB HD SCSI (ext) /
S Vídeo in/out / Zip ProTools Toolbox Mac Audiomedia spdif Gravador/Leitor CD R
/ CD Audio Yamaha CDR400 4 Leitor/Gravador Zip Drive 100 MB SCSI
Data do
último relatório: Julho de 1999
Cumprimento: Os objectivos
iniciais foram conseguidos. O âmbito do projecto foi alargado para incluir a
música erudita
ELAN-MLIS-121- European Language Activity Network
Responsável:
Maria Fernanda Bacelar do Nascimento
URL: http://solaris3.ids-mannheim.de/elan
Corpora:
- constituição de um corpus de 3 milhões de palavras formatado segundo as normas
ELAN (cada um dos parceiros ELAN constituirá um corpus com as mesmas dimensões e
formato para a sua língua) - criação de uma linguagem de procura comum (Elan
Corpus Query Language ou ELAN-CQL) e de uma interface comum de acesso à rede
ELAN - disponibilidade de um mínimo de 4 dos corpora para consulta via internet
numa rede ELAN com recurso ao interface e ao ELAN-CQL
Ferramentas: ver
no item "Corpora" a referência à criação do ELAN- CQL, ELAN Corpus Query
Language, uma linguagem de procura sobre corpora partilhada pela rede
ELAN
Outros: Site relativo ao software www.loria.fr/projects/MILS/ELAN
Cumprimento: O prolongamento por mais quatro meses, terminando o
projecto a 31/12/99, irá permitir aos parceiros e responsáveis pelo software o
cumprimento dos objectivos pretendidos, nomeadamente a elaboração de uma
linguagem de procura e de um interface próprios.
O objectivo inicial do
Centro de Linguística da Universidade de Lisboa consistia na disponibilização de
um corpus de 3 milhões de palavras no final deste projecto. Sendo que apenas 4
sites (não incluindo Lisboa) estão envolvidos nesta primeira fase de
disponibilização, está em estudo a possibilidade de utilizar o software criado
para o projecto ELAN para disponibilizarmos o corpus português via internet,
eventualmente fora da rede ELAN.
PCSH/C/LIN/212/91- Representação Semântica e Processos Inferenciais - Teoria
Geral e Aplicação à Língua Portuguesa
Responsável: João Andrade
Peres
Instituições: Faculdades de Letras das Universidades de Lisboa
(sede), Coimbra e Porto
Outros: O projecto não se inscrevia no domínio
da linguística computacional, mas antes nos da linguística teórica e portuguesa,
se bem que tivesse objectivos de formalização que, em última análise, só fazem
sentido para fins computacionais. Os materiais de que se dispõe são constituídos
por estudos sobre vários aspectos semânticos da língua portuguesa, envolvendo em
vários casos hipóteses de formalização.
Data do último relatório:
Fevereiro de 1995
Referências:: Foram produzidos no âmbito do projecto
39 textos, vários dos quais tiveram uma circulação restrita, por meio de
cadernos próprios do projecto (do tipo "working papers"). A lista que se segue
menciona apenas os textos que foram objecto de publicação convencional ou que
correspondem a dissertações aprovadas.
Ana Teresa Alves:
1992 Alguns
aspectos da Semântica das Construções com "diferente" e "mesmo", diss. de mest.
em Linguística Portuguesa apresentada à Faculdade de Letras da Universidade de
Lisboa.
1993 "Introdução à Teoria dos Quantificadores Generalizados",
Discursos, Estudos de Língua Portuguesa 4, 65-82 Ana Cristina Macário
Lopes:
1992/1993 "Tipos de Genericidade: Algumas Questões", Actas do IX
Encontro da Associação Portuguesa de Linguística, Universidade de Coimbra,
Outubro de 1992, APL-Colibri, Lisboa, 1993.
1993 "Sobre a Referência Nominal
Genérica", Discursos, Estudos de Língua Portuguesa 4, 115-134.
Rui Ribeiro
Marques:
1993 "Processos de Quantificação e Construções Partitivas",
Discursos, Estudos de Língua Portuguesa 4, 83-114.
1995 Sobre o Valor dos
Modos Indicativo e Conjuntivo em Português, diss. de mest. em Linguística
Portuguesa apresentada à Faculdade de Letras da Universidade de Lisboa.
Telmo
Móia:
1993 "Aspectos da Modificação de estruturas Nominais", Discursos,
Estudos de Língua Portuguesa 4, 37-63.
1994/1995 "Aspectos da semântica das
expressões temporais com "desde" e "até": questões de aktionsart", Actas do X
Encontro da Associação Portuguesa de Linguística, Universidade de Évora, 6 a 8
de Outubro, 1994, APL-Colibri, Lisboa, 1995.
Fátima Oliveira:
1994a/1995
"Algumas Peculiaridades do Aspecto em Português" Actas do 1º Congresso
Internacional sobre a Língua Portuguesa, Lisboa, 11-13 de Abril de 1994,
APL-Colibri, Lisboa, 1995.
1994b "Aspecto: Algumas Questões", Actas do
Primeiro Congresso Internacional da Associação Brasileira de Linguística, São
Salvador da Bahia, 1995.
Fátima Oliveira e Ana Cristina Macário
Lopes:
1994 "Tense and Aspect in Portuguese", in R. Thieroff e J. Ballweg
(orgs.), Tense Systems in European Languages, Vol. II, Max Niemeyer Verlag,
Tubinga, 1995, pp. 95-115.
João Andrade Peres:
1992/1998 "Issues on
Distributive and Collective Readings", in F. Hamm e E. Hinrichs (orgs.),
Plurality and Quantification, Kluwer, Dordrecht, 1998.
1993 "Esboço de uma
Semântica das Estruturas Nominais", Discursos, Estudos de Língua Portuguesa 4,
15-36.
1994a/1995 "Sobre a Semântica das Construções Perfectivas em
Português", Actas do 1º Congresso Internacional sobre a Língua Portuguesa,
Lisboa, 11-13 de Abril de 1994, APL-Colibri, Lisboa, 1995.
1994b/1995
"Concordância Negativa através de Fronteiras Frásicas", Actas do X Encontro da
Associação Portuguesa de Linguística, Universidade de Évora, 6 a 8 de Outubro,
1994, APL-Colibri, Lisboa, 1995.
1995/1997 "Extending the Notion of Negative
Concord", comunicação apresentada ao Colóquio "Negation * Syntax and Semantics",
Universidade de Otava, Canadá, 11-13 de Maio, 1995, in D. Forget, P.
Hirschbühler, F. Martineau e M.-L. Rivero (orgs.), Negation and Polarity: Syntax
and Semantics, John Benjamins, Amesterdão, pp. 289- 310. Pedro
Santos:
1992/1993 "Acerca de um Paradoxo na Semântica das Condicionais",
Actas do VIII Encontro da Associação Portuguesa de Linguística, Faculdade de
Ciências Sociais e Humanas da Universidade Nova de Lisboa, 1 a 6 de Outubro,
1992, APL-Colibri, 1993.
1993 Aspectos da Semântica das Condicionais "se...
então", diss. de mest. em Linguística Portuguesa apresentada à Faculdade de
Letras da Universidade de Lisboa.
1993/1994 "Duas Espécies de Genéricas",
Actas do IX Encontro da Associação Portuguesa de Linguística, Universidade de
Coimbra, Outubro de 1993, APL-Colibri, 1994.
Cumprimento: O projecto
foi concebido em função de dois objectivos principais. O primeiro consistia na
construção de uma caracterização (tendencialmente formal) de alguns dos
subsistemas de significação da Língua Portuguesa, agrupados nas seguintes três
áreas de investigação: Área I - REFERÊNCIA NOMINAL; Área II - REFERÊNCIA
TEMPORAL; Área III - MODALIDADE E RACIOCÍNIO CONDICIONAL. O segundo objectivo
consistia na análise - necessariamente incipiente, dada a dimensão e
complexidade dos problemas envolvidos - dos processos inferenciais associados
aos subsistemas em causa.
No que respeita à Área I (Referência Nominal),
foram tratados os seguintes tópicos e suas interacções: classes de processos de
quantificação; quantificação e classes de nomes; quantificação massiva versus
quantificação não-massiva; construções partitivas; selecção de leituras
distributivas e grupais; interpretações genéricas (ou "de espécie"; o
quantificador "qualquer"; quantificação monádica versus quantificação poliádica;
modificação nominal (dos tipos adjectival, demonstrativo e relativo); negação e
quantificação nominal; reinterpretação da silogística aristotélica à luz das
modernas teorias sobre quantificação natural.
No que respeita à Área II
(Referência Temporal), procurou-se atingir a identificação e o tratamento formal
dos valores habitualmente classificados como temporais, aspectuais extrínsecos e
aspectuais intrínsecos (de "aktionsart") e das suas interdependências; foi
estabelecida a correspondência entre as formas verbais simples e compostas do
subsistema indicativo do português e combinações dos referidos valores;
abordou-se ainda a questão da referência temporal através de expressões
adverbiais, tendo a análise incidido particularmente nos valores durativos
introduzidos pelas expressões "desde" e "até", que serviram como domínio para
avaliação da capacidade expressiva do sistema de representação semântica
designado por Discourse Representation Theory; foi ainda feito um estudo básico
sobre interacção temporal em cadeias verbais; como apoio ao trabalho, foram
feitos um levantamento e uma análise da bibliografia sobre o tempo em
português.
Quanto à Área III (Modalidade e Raciocínio Condicional), foram
tratados os seguintes tópicos: subsistemas de expressões modais em português
(estudo preliminar); estruturas condicionais, entendidas no quadro de uma
concepção dinâmica do significado, isto é, enquanto indutores de mudanças de
estados de informação ou de revisão de crenças; modos conjuntivo e indicativo do
sistema verbal, reanalisados, de forma inovadora, na sua inter-dependência com
oposições modais, envolvendo mormente o plano epistémico.
PCSH/C/LIN/936/95- Representação Semântica e Processos Inferenciais - Tempo
e Conexões Frásicas e Discursivas
Responsável: João Andrade
Peres
Instituição: Fundação da Universidade de
Lisboa
Outros: O projecto não se inscrevia no domínio da linguística
computacional, mas antes nos da linguística teórica e portuguesa, se bem que
tivesse objectivos de formalização que, em última análise, só fazem sentido para
fins computacionais. Os materiais de que se dispõe são constituídos por vários
estudos sobre semântica temporal e das conexões inter-frásicas em português,
envolvendo em vários casos hipóteses de formalização.
Data do último
relatório: Agosto de 1999
Referências:: Foram produzidos no âmbito
do projecto 43 textos, vários dos quais tiveram uma circulação restrita, por
meio de cadernos próprios do projecto (do tipo "working papers"). A lista que se
segue menciona apenas os textos que foram objecto de publicação convencional ou
que correspondem a dissertações aprovadas.
Ana Teresa ALVES:
[1] 1996
"Acerca da selecção Temporal no Discurso", Actas do XII Encontro Nacional da
Associação Portuguesa de Linguística, Braga, 30 de Setembro a 2 de Outubro,
APL-Colibri, pp. 39-56.
[2] 1998/9 "Anáfora Temporal com durante", Actas do
XIV Encontro Nacional da Associação Portuguesa de Linguística, Universidade de
Aveiro, 28-30 de Setembro de 1998, APL-Colibri, Lisboa.
Ana Teresa ALVES e
Isabel G. TXURRUKA:
[3] 1999 "Blocking Discourse Relations: same in Anaphoric
Temporal Adverbials", Actas do Atelier Thématique «Théories sémantiques et
pragmatiques: le temps, l'espace et le mouvement, du lexique au discours et au
dialogue», 6.ème Conférence Annuelle sur le Traitement Automatique des Langues
Naturelles, 12-17 Julho, Cargèse, Córsega, 12 páginas.
Manuela AMBAR:
[4]
1999 "Infinitives vs. Participles", in E. Treviño e J. Lema (orgs.), Semantic
Issues in Romance Syntax, John Benjamins, Amesterdão, pp. 1-20.
[5] no prelo
"Aspects of the Syntax of Focus in Portuguese", in L. Tuller e G. Rebuschi
(orgs.), The Grammar of Focus, John Benjamins, Amesterdão, aprox. 16
páginas.
Judite CARECHO:
[6] 1997 "Sobre a Semântica das Construções com
quando", dissertação de Mestrado apresentada à Faculdade de Letras da
Universidade de Lisboa, em Fevereiro de 1997, 141 páginas.
Ana
GARRIDO:
[7] 1996 "Expressões Temporais de Duração em Português Europeu",
dissertação de Mestrado apresentada à Faculdade de Letras da Universidade de
Lisboa, em Dezembro de 1996, 118 páginas.
José Pinto de LIMA:
[8] 1997a "A
Temporalidade como ponto de chegada de um processo de gramaticali-zação",
Revista Portuguesa de Filologia (edição comemorativa do 50.º aniversário),
Coimbra, aprox. 14 páginas.
[9] 1997b "Caminhos Semântico-Pragmáticos da
Gramaticalização: o caso de embora", in A. M. Brito, F. Oliveira, I. P. de Lima
e R. M. Martelo (orgs.), Sentido que a Vida Faz - Estudos para Óscar Lopes,
Campo das Letras, Porto, pp. 643-655.
Rui Ribeiro MARQUES:
[10] 1996/7
"Sobre a Selecção de Modo em Orações Completivas", Actas do XII En-contro
Nacional da Associação Portuguesa de Linguística, Braga, 30 de Setembro a 2 de
Outubro de 1996, APL-Colibri, Lisboa, 1997, pp.191-202.
[11] 1998 "A
Cross-Linguistic View of the Selection of Indicative and Subjunctive",
Proceedings of the XVIth International Congress of Linguists, Palais des
Congrès, Paris, Julho de 1997, CD-ROM, Elsevier Science.
[12] 1998/9
"Variações de forma e sentido em construções condicionais", Actas do XIV
Encontro Nacional da Associação Portuguesa de Linguística, Universidade de
Aveiro, 28-30 de Setembro de 1998, APL-Colibri, Lisboa, 1999.
Telmo
MÓIA:
[13] 1996/7 "Sintagmas com durante e em como expressões de Localização
Temporal ou de Duração", Actas do XII Encontro Nacional da Associação Portuguesa
de Linguística, Braga, 30 de Setembro a 2 de Outubro de 1996, APL-Colibri,
Lisboa, 1997, pp. 227-240.
[14] 1998 "On the Expression of Duration and
Temporal Location through Adverbials Containing Predicates of Amounts of Time",
Proceedings of the XVIth International Congress of Linguists, Paris, July 1997,
CD-ROM, Elsevier Science.
[15] no prelo "On the Semantics of Temporal
Operators Expressing Anteriority and Posteriority", comunicação apresentada à
conferência The Syntax and Seman-tics of Tense and Mood Selection, Universidade
de Bérgamo, Itália, 1-3 de Julho de 1998, a publicar em volume da Cambridge
University Press, aprox. 20 páginas.
[16] 1998/9 "Semântica das Expressões
Temporais com Haver", Actas do XIV Encontro Nacional da Associação Portuguesa de
Linguística, Universidade de Aveiro, 28-30 de Setembro de 1998, APL-Colibri,
Lisboa, 1999.
[17] 1999 Identifying and Computing Temporal Locating
Adverbials, dissertação de doutoramento a apresentar à Universidade de Lisboa,
concluída em Agosto de 1999, xviii + 372 páginas.
João Andrade PERES:
[18]
1997a "Sobre Conexões Proposicionais em Português", in A. M. Brito, F. Oliveira,
I. P. de Lima e R. M. Martelo (orgs.), Sentido que a Vida Faz - Estudos para
Óscar Lopes, Campo das Letras, Porto, pp. 775-787.
[19] no prelo "On the
Nature and Licensing Conditions of n-phrases in Portuguese", a publicar na
revista DELTA, da Associação Brasileira de Linguística, aprox. 23
páginas.
João Andrade PERES e Rui Ribeiro MARQUES:
[20] 1998 "Narrowing
and Structuring the Domain of Conversational Implicature", Relevance Theory
Workshop, 8-10 September 1998, University of Luton, England, Programme and
Abstracts, Department of Linguistics, University of Luton, pp. 33-38.
João
Andrade PERES, Telmo MÓIA e Rui Ribeiro MARQUES:
[21] no prelo "Sobre a Forma
e o Sentido das Construções Condicionais em Português", a publicar na Revista da
Faculdade de Letras (número de homenagem a Lindley Cintra, FLUL / Cosmos), 28
páginas.
Filomena VIEGAS:
[22] 1996 "Aspectos da Semântica dos
Localizadores Temporais em Português", dissertação de Mestrado apresentada à
Faculdade de Letras da Universidade de Lisboa, em Dezembro de 1996, 201
páginas.
Cumprimento: O projecto foi construído em função de dois
tópicos nucleares: a referência temporal e as conexões discursivas na língua
portuguesa. Em ambos os casos, teve-se em conta o objectivo de atingir quanto
possível níveis de representação formal. Também para as duas áreas, pretendeu-se
ter em conta a distinção entre informação asserida e informação inferida, se bem
que o tratamento da inferência não tenha constituído um tópico de investigação
autónomo, antes surgindo disperso pela produção bibliográfica.
No que
respeita à área temática da referência temporal, foram abordados diferentes
subsistemas de valores que directamente envolvem computação de tempo -
nomeadamente, a localização temporal, a duração e a frequência - e ainda os
sistemas associados da aktionsart e da correlação entre eventos. Adicionalmente,
foi considerado oportuno enfrentar questões de sequenciação e de anáfora
temporais. Deve-se, no entanto, acentuar que, no cômputo geral, o contributo
fundamental do projecto se situa nos domínios da duração e da localização
temporal.
No que respeita à área temática das conexões discursivas, o
projecto propõe uma perspectiva global sobre as conexões inter-proposicionais da
língua portuguesa, que se espera tenha alcance translinguístico. O contributo
principal do projecto consiste na investigação produzida sobre algumas das mais
complexas conexões inter-frásicas: condicionais, concessivas e
adversativas.
PLUS/C/LIN/816/93- Dicionário de Combinatórias do
Português
Responsáveis: João Malaca Casteleiro e Maria Fernanda
Bacelar do Nascimento
Instituição: Fundação da Universidade de
Lisboa
URL: http://www.clul.ful.pt/
Corpora: -
Corpus DCP com 11,4 milhões de palavras de texto escrito e 850000 palavras de
texto oral, do qual se extrairam as combinatórias.
- Possibilidade de
extracção de combinatórias de qualquer lema (com Frequência=>2), para
consulta, através de pedido ao CLUL.
Ferramentas: concor.cb,
arranja_lema
Data do último relatório: Março de
1998
Referências:: - BACELAR DO NASCIMENTO, M. F. (1994) "Aplicação de
resultados de análises linguísticas sobre corpora ao ensino do Português, LE",
Memórias do 3º Congresso Internacional do Ensino de Português como Língua
Estrangeira, Centro de Estudos Brasileiros e Universidade Nacional Autónoma do
México, México, 1994, pp. 104-120.
- BACELAR DO NASCIMENTO, M. F. (1994)
"Apresentação do projecto Dicionário de Combinatórias do Português", Actas do
Simpósio de Lexicologia, Lexicografia e Terminologia, Universidade Estadual
Paulista, Campus de Araraquara, Outubro de 1994 (no prelo).
- PEREIRA, L. A.
S. (1994) Como se combinam as palavras? Contributo para um Dicionário de
Combinatórias do Português, Dissertação de Mestrado, Lisboa, FLUL.
- NETO, P.
M. (1995) Combinatórias lexicais no discurso da astronomia, um estudo em
estatística lexical, Dissertação de Mestrado, Lisboa, FLUL.
- PEREIRA, L. A.
S. (1995) " O DCP e a aula de português", Actas do I Encontro da APP, Lisboa,
APP. - BACELAR DO NASCIMENTO, M. F. (1996) "A observação e análise de dados
reais na investigação e ensino de línguas", Actas do II Encontro da Associação
Portuguesa dos Centros de Línguas do Ensino Superior, Universidade de Évora,
Évora, Janeiro de 1996.
- BACELAR DO NASCIMENTO, M. F. (1996) "Projectos em
curso no Centro de Linguística da Universidade de Lisboa com base no Corpus de
Referência do Português Contemporâneo", Seminário O Impacto das Novas
Tecnologias na Comunicação Linguística, organizado pelo Serviço de Tradução da
Comissão Europeia, Lisboa, Universidade Católica Portuguesa, 13-14 de
Novembro.
- BACELAR DO NASCIMENTO, M. F. e A. CARVALHO (1996) "Preto e branco
ou branco e preto? Como se combinam os nomes de cores", Actas do XI Encontro
Nacional da Associação Portuguesa de Linguística, volume I - Corpora, BACELAR DO
NASCIMENTO, M. F., M. C. RODRIGUES e J. BETTENCOURT GONÇALVES (orgs.), APL,
Lisboa, Setembro de 1996, pp. 367-380.
- BACELAR DO NASCIMENTO, M. F. e L. A.
S. PEREIRA (1996) "Dicionário de Combinatórias do Português: associações
frequentes observadas num corpus de Português contemporâneo", Actas do XI
Encontro Nacional da Associação Portuguesa de Linguística, volume II, -
Dicionários, FARIA, I. H. e M. CORREIA, APL, Lisboa, Setembro de 1996, pp.
43-54.
- PEREIRA, L. A. S. (1996) "Para um Dicionário de Combinatórias do
Português", Actas do Congresso Internacional sobre o Português, volume III,
DUARTE, I. e I. LEIRIA (orgs.), APL, Edições Colibri, Lisboa, Junho de 1996, pp.
197-206.
- BACELAR DO NASCIMENTO, M. F. (1997) "Contribuição da análise de
corpora para a descrição lexicográfica", Sentido que a vida faz. Estudos para
Óscar Lopes, Porto, Ed. Campo das Letras, 1997, pp. 734-744.
- BACELAR DO
NASCIMENTO, M. F. (1997) "Dictionnaire de Combinatoires et Enseignement de la
Langue Orale et Ecrite", Seminário Multimedia et Enseignement des Langues,
Cascais, 10 de Março.
- BACELAR DO NASCIMENTO, M. F. (1997) "A exploração de
corpora linguísticos no ensino/aprendizagem do português", Seminário
Internacional de Português como Língua Estrangeira, Macau, 21 a 24 de Maio (no
prelo).
- BACELAR DO NASCIMENTO, M. F. e L. A. S. PEREIRA (1997) "Corpus de
Referência do Português Contemporâneo", Rencontres de Linguistique Appliquée,
Construction et Utilisation de Grands Corpus, Paris 24-27 de Setembro de
1997.
- GARCIA MARQUES, M. L. (1997) "Da Competência à
Realização:
existência potencial e existência real de algumas combinatórias a
partir da análise de um corpus", Actas do XIII Encontro da Associação Portuguesa
de Linguística.
- PEREIRA, L. A. S. (1997) "Análise de corpora e dicionários
de uso", XIII Encontro da Associação Portuguesa de Linguística (APL), Lisboa,
1-3 de Outubro de 1997.
- BACELAR DO NASCIMENTO, M. F. (1998) "Exploitation
de Corpus:
exemples de combinatoires établies pour l'écrit et pour l'oral",
Actes du Colloque International "Questions de Méthode dans la Linguistique sur
Corpus", Université de Perpignan (no prelo).
- BACELAR DO NASCIMENTO, M. F.
(1998) "O Corpus de Referência do Português Contemporâneo e os Projectos de
Investigação do Centro de Linguística da Universidade de Lisboa sobre variedades
do português falado e escrito", Actas do Colóquio Internacional "A Investigação
do Português na África, Ásia, América e Europa: balanço crítico e discussão do
ponto actual das investigações", Instituto Ibero- Americano, Berlim (no
prelo).
- BACELAR DO NASCIMENTO, M. F. (1998) "Quelques resources
linguistiques de base pour l'étude des variétés du portugais contemporain",
Revue Française de Linguistique Appliquée, Vol. III - 1, Aspects de la diversité
linguistique, Juin, pp. 81-86.
- BACELAR DO NASCIMENTO, M. F. (1998)
"Resultados do Projecto 'Dicionário de Combinatórias do Português'", Revista
ALFA, UNESP, S. Paulo (no prelo).
- BACELAR DO NASCIMENTO, M. F. e M. T.
BIDERMAN (1998) "Unidade e Diversidade: o vocabulário da língua oral em Portugal
e no Brasil", Actas do XIV Encontro da Associação Portuguesa de Linguística,
Aveiro (no prelo).
- GARCIA MARQUES, M. L. (1998) "Combinatórias Linguísticas
- um conceito, uma realidade, uma realização: da competência ao uso", Actas do
Colóquio Internacional "A Investigação do Português na África, Ásia, América e
Europa: balanço crítico e discussão do ponto actual das investigações",
Instituto Ibero-Americano, Berlim (no prelo).
- PEREIRA, L. A. S. (1998)
"Dicionário de combinatórias do português do Centro de Linguística da
Universidade de Lisboa", Actas do Colóquio Internacional "A Investigação do
Português na África, Ásia, América e Europa: balanço crítico e discussão do
ponto actual das investigações", Instituto Ibero-Americano, Berlim (no
prelo).
- SAIANDA, M. H. A. C. R. (1998) A Palavra: instrumento de acesso ao
poder. O caso particular do debate eleitoral em Portugal em 1986 e 1991,
Dissertação apresentada à Universidade de vora para obtenção do grau de Doutor
em Linguística Portuguesa, Évora.
- PEREIRA, L. A. S. (1999) "O recurso a
corpora linguísticos e o contributo da abonação nos dicionários", Actas do 2º
Encontro Nacional da APP, Lisboa, APP, pp. 277-290.
- PEREIRA, L. A. S. e S.
AMENDOEIRA (1999) "Associações lexicais e questões de informação mútua", I
Workshop sobre Linguística Computacional, APL, Lsboa.
Cumprimento: O
aspecto que se considera de salientar, e que já foi referido no Relatório Final,
é que, enquanto inicialmente se previra a constituição de um inventário das
associações lexicais de uso mais frequente no português contemporâneo, que daria
origem a um dicionário tradicional, dentro do género (cf., por exemplo, BENSON,
M., E. BENSON e R. ILSON, 1986), os trabalhos do projecto, em todas as suas
componentes, permitiram a perspectivação de objectivos qualitativa e
quantitativamente mais ambiciosos, pois possibilitam ao utilizador um acesso
informático flexível, com liberdade de escolha em relação a: tipo e dimensão de
subcorpus; posição das palavras coocorrentes em relação à palavra em estudo;
acesso directo aos contextos restritos ou alargados em que as combinatórias
ocorrem; identificação da origem dos contextos; frequência de ocorrência e
repartição por tipo de discurso; significância da combinatória no corpus (Índice
Combinatório determinado estatisticamente). Assim, este projecto constitui uma
fonte de informação aberta que permite inúmeras consultas e amplamente
diversificadas, tendo ultrapassado largamente as finalidades inicialmente
previstas.
PLUS/C/PDP/1175/95- DICIOMEDIA - Prontuário Multimédia da Língua Portuguesa
no Domínio dos Verbos
Responsáveis: Mário Vilela, Augusto Q. Novais,
Maria Manuel Freitas
Instituições: Associação Portuguesa de
Tradutores, Faculdade de Letras da Universidade do Porto, INETI/ITI/DMS,
Universidade Nova de Lisboa/FCT/Departamento de Informática (DI), União
Latina
Corpora: Neste momento, os corpora existentes referem-se à base
de dados resultante da pesquisa de jornais feita na Internet e estruturada
automaticamente através da ferramenta FRASE e à listagem de todos os verbos
reconhecidos como verbos do Português, independentemente da sua variante,
realizada a partir de uma pesquisa em dicionários, léxicos e da própria
competência dos intervenientes envolvidos no projecto, considerados como
informantes.
Numa segunda fase do projecto, pretendemos constituir corpora
específicos, que tenham em consideração o funcionamento da Língua Portuguesa a
diferentes níveis, dos quais destacamos o escrito e o oral, e outras fontes de
inventariação para além dos jornais e dos dicionários até agora
considerados.
Ferramentas: A equipa de informática criou três tipos de
ferramentas de desenvolvimento:
- Parser ( desenvolvido na sequência de um
processo de digitalização de verbos, submetido a uma verificação por meio de OCR
(Optical Character recognition) ( desenvolvido para apoio à introdução de novas
entradas na base de dados);
- Interface gráfica ( três versões: 1. Ferramenta
ToolBook, sendo simulada a ligação à base de dados; 2. Bruxo 3.0 ou Conjugador,
com ligação à base de dados; 3. Revisão da solução anterior);
-
FRASE
Outros: Prontuário Multimédia da Língua Portuguesa no Domínio
dos Verbos: O prontuário surge, materialmente, como CD-ROM, encontrando-se
apenas disponível na entidade financiadora do projecto. Deseja-se, com a maior
brevidade possível, a sua consulta via Internet.
Data do último
relatório: Julho de 1999
Referências:: - Almeida, José J. M. -
"Corpus.exe: Pesquisa e extracção de Verbos", DMS-08/97, Dezembro, 1997.
-
Almeida, José J. M - " Frase 2.0", DMS-06/99, Março, 1999 - Gouveia, Henrique -
"Prontuário Multimédia", DMS-03/98, Março, 1998.
- Gouveia, Henrique - "O
conjugador de verbos: Template para o MS Word 97", DMS-07/98, Maio, 1998.
-
Gouveia, Henrique - "O conjugador de verbos: 1ºs Complementos", DMS-08/98, Maio,
1998.
- Monteiro, Patrícia A . A . - "Diciomédia: proposta de novas
funcionalidades para a aplicação e sua interface", DMS-06/98, Maio, 1998.
-
Novais, A . Q.; Vilela, Mário - "Prontuário Multimédia: Diciomédia", Revista da
Faculdade de Letras - Língua e Literatura, XIV, pp. 529-535, 1997.
- Novais,
A. Q.; Freitas, M.M. - "Relatório Síntese de Execução Material do Projecto:
Prontuário Multimédia da Língua Portuguesa no Domínio dos Verbos (Contrato
JNICT/LUSITÂNIA PLUS/C/PDP/1175/95)", DMS-11/97, Abril, 1997.
- Novais, A.
Q.; Vilela, Mário; Freitas, M.M. - "Relatório Anual de Execução Material do
Projecto: prontuário Multimédia da Língua Portuguesa no Domínio dos Verbos
(Contrato JNICT/LUSITÂNIA PLUS/C/PDP/1175/95)", DMS-08/98, Abril, 1998.
-
Oliveira, Nuno F. V. F. C. - "Prontuário da Língua Portuguesa no Domínio dos
Verbos", DMS-13/97, Setembro, 1997.
- Oliveira, Rosa Maria - "Prontuário
Multimédia: Digitalização e Tratamento do Dicionário Básico", DMS-04/97,
Setembro, 1997.
- Oliveira, Rosa Maria - "Prontuário Multimédia: Conversão da
base de dados do Dicionário Básico para a Base de Dados do ProntEdit",
DMS-05/97, Outubro, 1997.
- Novais, A. Q.; Vilela, Mário; Freitas, M.M. -
"Relatório Final de Execução Material do Projecto: Prontuário Multimédia da
Língua Portuguesa no Domínio dos Verbos (Contrato JNICT/LUSITÂNIA
PLUS/C/PDP/1175/95)", Julho, 1999.
Cumprimento: No sentido de
justificar os atributos com que qualificaremos o produto linguístico resultante
da execução do projecto referido em epígrafe, passamos a transcrever o parecer
dado em 1 de janeiro de 1998 pelo professor Gerd Wotjak, catedrático de
linguística e Traductologia Românicas, da Universidade de Leipzig:
El
proyecto de un prontuario multimedia en el campo de los verbos portugueses
DICIOMEDIA se plantea un objetivo novedoso, muy ambicioso y útil, cuya
realización tiene que basarse en una estrecha y contínua colaboración entre las
instituciones implicadas y lingüistas expertos en la descripción de verbos así
como entre informáticos no menos expertos en la confección de bases de datos
multifuncionales e en la implementación de los resultados de la descripción
detallada de los verbos para recoger en el diccionario básico toda la
información necesaria relativa al potencial combinatorio sintagmático tanto
semántico como morfosintáctico de los verbos indicados. Para esta compleja y
meritoria labor se requieren estudios pormenorizados para indicar ante todo las
restricciones semánticas y presentar un ejemplo apropiado para cualquier
variante indexada mediante indicaciones generales sintácticas y semánticas. La
repartición de este trabajo entre fundamentalmente dos grupos y la mutua
revisión podrán garantizar una deseable máxima adecuación de la descripción que
podrá luego ser utilizada para otros fines no previstos hasta ahora en el
proyecto presentado (incluso la traducción automática y la extrapolación
automática de las distintas variantes de los verbos de corpora informatizados de
textos).
El proyecto, tal como se há concebido hasta ahora, promete llevarse
a cabo exitosamente sise siguen las etapas previstas y se aportan los distintos
subproyectos en el tiempo y la calidad requeridos.
Tendrán una particular
importancia par el buen desarrollo y funcionamento del proyecto los ambiciosos
componentes parciales del Diccionario Básico, de la extracción automática de
citaciones de verbos por medio de la herramienta FRASE así como la generación
automática de las flexiones verbales por medio de BRUXO 3.0, herramienta que
contribuirá además a una lematización automática de las occurrencias token de
estos verbos en los más distintos corpora informatizados de textos, y no por
último, también la herramienta auxiliar GRAMATICA que asegura la vinculación
entre el reconocimiento de la estructura sintáctica subyacente del verbo y las
indicaciones explícitas de estas estructuras acatnciales en la base de
datos.
El prontuario de verbos tal como fue diseñado, será un auxiliar
sumamente útil para la enseñanza del portugués como lengua materna y extranjera;
pero su importancia va mucho más allá de este propósito primario. Ya en el curso
de su elaboración se están desarrollando y/o afinando herramientas informáticas
que pueden utilizarse para otros fines más. De esta forma, DICIOMEDIA podrá
utilizarse, tal vez, también para extraer automáticamente los verbos com sus
respectivas variantes combinatorias (y semánticas) de textos informatizados y
proceder de este modo a enriquecer el diccionario básico com ejemplos y hasta
usos novedosos.
Tendrá utilidad más allá de lo diseñado la producción de um
Corpus temático sobre Economía, Ciencia, Cultura y Deporte, ya que estos textos
informatizados de un tamaño representativo podrían comercializarse o por lo
menos utilizarse como materiales de referencia para la enseñanza de lenguas
especializadas y la traducción y, por supuesto para fines de investigación en
este campo, donde todavia resulta dificil dar com corpora de textos sobre esta
temática.
Nos parece convincente el diseño del proyecto, sin embargo nos
permitiremos plantear a continuación algunos interrogantes que se deben más a la
escassez relativa de información pormenorizada y la poca familiarización del
informante com los detalles del proyecto que a desperfectos del mismo
proyecto.Así nos interesaría saber, por ejemplo, lo que se presentará bajo
vocablo asociada y anagrama y cómo y cuándo se incluirán dibujos ( tal vez,
fotos o hasta secuencias de video, que podrán servir - junto com los gestos y la
mímica acompañando el uso discursivo prototípico de la variante respectiva del
verbo - para explicitar mejor el uso correcto e comunicativo de estos
(evidentemente no de todos los) verbos, ya que nos parece que una demasiado
amplia utilización no controlable de estos recursos visuales podría hasta tener
efectos contraproductivos por distraer demasiado la atención del usuario. No se
desprende claramente, además, del proyecto la utilidad y conformación del
"filtro" de categorías para la obtención de subgrupos. Nos parece muy útil la
indicación de prefijaciones com el verbo de base (...);
se recurrirá a estas
indicaciones sólo com verbos sencillos de base o también com cada verbo
prefijado, donde en este caso probablemente también tendría que aparecer el
verbo de base? No se desprende de la descripción tampoco cómo se concibe este
esquema oracional (estrutura frásica) sintáctico-semántico y como se obtendrían,
el caso dado de que se quisieran indicar, las características
semántico-funcionales de los casos semánticos. Se ha pensadoseguro en
posibilitar la integrción automática de los ejemplos para cada variante y de las
otras indicaciones a partir del diccionario básico; podrían introducirse
fácilmente y de forma directa, si bien controlada por el usuario mismo
(posibilidad de ampliación personal) o por el lingüista en el proceso de
correción, otros ejemplos de textos? Cómo se consigue la definición de los
distintos sentidos? Podría preverse, desde ahora, para el prontuario o para una
futura edición suya, la indicación también de sustantivos (y adjetivos)
deverbativos y - lo que sería óptimo (por el usuario y/o los autores del
proyecto) - tal vez las explicaciones (y/o equivalentes) en outro(s) idioma(s)?
La estructura de la entrada diseñada de la herramienta EDINFO prevé com justa
razón entre otras indicaciones valiosas como la definición y los sinónimos y
autónomos la indicación de fraseologismos verbales (dentro de ellos supongo que
habrá también colocaciones verbo- nominales, incluyendo construcciones com verbo
soporte). Supongo que el usuario (sobre todo el com intereses lingüísticos)
podrá tener fácil acceso también a las importantes informaciones contenidas en
EDINFO, mientras que no se le permitirá acceso directo al diccionario básico?
Hasta qué punto se prevé la posibilidad de interactuar o bien de introducir
informaciones propias (por ejemplo observaciones, equivalentes en otros idiomas,
etc.) por parte del usuario, de ampliar el registro de verbos y/o de los
sentidos reconocidos? Se restringirá el diccionario básico a una selección de
verbos más importantes y/o a verbos tales como se utilizan en el portugués
europeo? Podrán indicarse en una segunda fase variantes específicas de otras
variedades del portugués? El proyecto suscita, además de interés y de
satisfacción que pondrá informaciones sumamente útiles a la disposición de
usuarios que persiguen fines distintos y multifacéticos, también una serie de
cuestiones y pedidos de mayor información o ampliación del proyecto concebido,
su parte informática para poder servirse de ella en outra fase a fin de incluir
otras informaciones más y permitir la interacción del usuario com el prontuario
de verbos previsto.
No desenvolvimento do Diciomédia, foram consideradas as
perguntas formuladas por este especialista e outras dúvidas que se foram
colocando no decurso da execução, às quais procurámos dar resolução através do
recurso a um contínuo reajustamento dos objectivos e da metodologia
utilizada.
Tratando-se de um protótipo do prontuário completo da Língua
Portuguesa, com tratamento original e dados originais, houve a preocupação não
só de demonstrar uma abordagem completa no tratamento de verbos associada a
funcionalidades de utilização, como ainda de desenvolver um produto que possamos
colocar nas mãos do público.
No seu conjunto, a produção linguística do
prontuário constitui-se já como um instrumento de trabalho produtivo para os
utentes da língua, como língua primeira ou como língua Segunda, na medida em que
o protótipo apresentado permite rentabilizar um conjunto de informações
variadas, que têm em conta as primeiras necessidades de aprendentes e utentes da
Língua Portuguesa.
A necessidade de haver uma uniformização dos elementos
considerados no tratamento de cada entrada conduziu à manutenção do modelo do
português europeu, por estar ainda em curso o trabalho dos colegas brasileiros e
africanos, no sentido de levar até ao fim as informações verbais
disponibilizadas, incluindo as referidas variantes.
A variedade e qualidade
das informações veiculadas constitui um dos elementos que permitem diferenciar
este produto de outros produtos comerciais da mesma área, por haver proposta de
um tratamento original com dados e meios originais.
Como protótipo, o
Diciomédia converteu-se ainda num enriquecedor campo de ensaio para a operação
de melhoramentos no produto, nomeadamente no que se refere ao domínio da
conjugação, da análise de elementos frásicos e até da própria articulação dos
diferentes elementos constitutivos da entrada verbal em si, funcionando, por
conseguinte, como uma amostra de um prontuário de verbos completo para a Língua
Portuguesa, que se caracteriza, entre outros aspectos, por: facilidade e rapidez
de utilização e possibilidade de actualização (FRASE) de um produto linguístico
fiável e desenvolvido.
PRAXIS/C/CLC/122/96- RECTIS - Rectificação de erros sintácticos do
português
Responsável: Caroline Hagège
Instituição:
Instituto de Linguística Teórica e Computacional - ILTEC
Léxicos: Foi
desenvolvido um léxico de cerca de 50.000 lemas com codificação necessária para
ser integrado na ferramenta desenvolvida. Disponibilizamos no domínio público um
sub-conjunto deste léxico de cerca de 3.000 entradas não verbais e 9.000
entradas verbais, assim como um pequeno léxico de locuções e compostos
codificados para as ferramentas abaixo mencionada.
Ferramentas:
Lematizador e etiquetador do portugues (com base nos dicionarios acima
referidos) e Analisador de superfície (com base nos dicionários acima
referidos). Compilado disponibilizado (LINUX 5.0 - Kernel 2.0.32)
Outros: Todos os recursos acima mencionados podem ser descarregados
via ftp anónimo para iltecgw.iltec.pt
Data do último relatório:
09/99
Referências:: O trabalho desenvolvido no projecto deu origem às
publicações seguintes:
* Hagège C., Meireles A., Trindade B., Diogo C., Leite
F. "A Construção de um Analisador Morfossintáctico do Português : A
implementação de Verbos e Clíticos", Actas do XIII Encontro Nacional da A.P.L,
Vol. I, pp.353-359, Lisboa, 1997.
* Hagège C. Meireles A., Diogo C. Leite F.,
Barão N., Cotovio P. "Desambiguador de Etiquetagem dirigido por Regras
Linguísticas". Actas do XIV Encontro Nacional da A.P.L, Aveiro,
1998.
Cumprimento: Não se atingiu no fim do projecto a meta
inicialmente prevista (i.e a elaboração de um corrector sintáctico integrado),
essencialmente por causa de problemas na implementação informática. No entanto,
este projecto permitiu a construção de uma gramática e analisador de superfície
do português que constituiem uma ferramenta de base para uma série de aplicações
do PLN, assim como um levantamento pormenorizado de erros sintácticos do
português feitos por uma população de alunos de fim do secundário.
PRAXIS/C/CLC/123/96- GLEP Gramática de larga Escala do
Português
Responsável: André Eliseu
Instituição: Instituto
de Linguística Teórica e Computacional - ILTEC
URL: http://www.iltec.pt/
Ferramentas: As
componentes linguísticas do sistema, caracterizaveis dentro da classe das
gramáticas de unificação, foram implementadas usando os recursos da plataforma
ALEP (Advanced Language Engineering Platform) desenvolvida pela Cray
Systems
Data do último relatório: Setembro de
1999
Cumprimento: O objectivo do projecto era produzir um protótipo de
um sistema de tradução automática baseado em gramáticas e com uma larga
cobertura (isto é, lidando com um numero elevado de fenomenos e estruturas
sintacticos e capaz de processar construções 'sem estrutura sintáctica, como
datas, etc.) O protótipo implementado consegue processar uma grande variedade de
estruturas sintácticas, bem como construções do tipo
referido.