Respostas ao questionário sobre os recursos produzidos relacionados com os projectos de processamento computacional da língua portuguesa

  • 2/2.1/CSH/759/95- Léxico Multifuncional Computorizado do Português Contemporâneo
  • 2/2.1/CSH/795/95- CORAL - Corpus de diálogo etiquetado
  • 2/2.1/CSH/835/95- Organização e informatização do arquivo e biblioteca da casa Eugénio de Almeida (Évora)
  • 2/2.1/CSH/841/95- Dicionário multimédia da cultura expressiva em Portugal
  • ELAN-MLIS-121- European Language Activity Network
  • PCSH/C/LIN/212/91- Representação Semântica e Processos Inferenciais - Teoria Geral e Aplicação à Língua Portuguesa
  • PCSH/C/LIN/936/95- Representação Semântica e Processos Inferenciais - Tempo e Conexões Frásicas e Discursivas
  • PLUS/C/LIN/816/93- Dicionário de Combinatórias do Português
  • PLUS/C/PDP/1175/95- DICIOMEDIA - Prontuário Multimédia da Língua Portuguesa no Domínio dos Verbos
  • PRAXIS/C/CLC/122/96- RECTIS - Rectificação de erros sintácticos do português
  • PRAXIS/C/CLC/123/96- GLEP Gramática de Larga Escala do Português

    2/2.1/CSH/759/95- Léxico Multifuncional Computorizado do Português Contemporâneo

    Responsáveis: João Malaca Casteleiro e Maria Fernanda Bacelar do Nascimento
    Instituições: Centro de Linguística da Universidade de Lisboa - Fundação da Universidade de Lisboa (proponente), INESC, Editorial Verbo, ILC de Pisa (Consultor)
    URL:
    http://www.clul.ful.pt/
    Léxicos: 30.000 palavras com a respectiva classificação morfossintáctica e informação quantitativa sobre a sua ocorrência no corpus.
    Corpora: Corpus de 15.000.000 de palavras (extraído do Corpus de Referência do Português Contemporâneo).
    Data do último relatório: 28 de Setembro de 1999
    Cumprimento: Tendo em conta os objectivos iniciais deste projecto, todas as tarefas têm vindo a ser realizadas à excepção de uma - transcrição fonética alargada de cada elemento do léxico - que a equipa não poderá concretizar devido a cortes no orçamento inicialmente apresentado.

    2/2.1/CSH/795/95- CORAL - Corpus de diálogo etiquetado

    Responsável: Isabel Trancoso
    Instituições: Instituto de Engenharia de Sistemas e Computadores - INESC, Centro de Linguística da Universidade de Lisboa, Faculdade de Letras da Universidade de Lisboa, Faculdade de Ciências Sociais e Humanas da Universidade de Lisboa
    URL:
    http://www.speech.inesc.pt/coral/coral_pt.html
    Corpora: Corpus CORAL, fala espontânea, 64 diálogos, 32 falantes;
    anotação ortográfica para todos os diálogos;
    anotação a vários níveis para um subconjunto pequeno.
    5 CDROMs (formato dos ficheiros de fala "raw" ou "wav").
    Preço dependente dos fins a que se destina o corpus (investigação, comerciais). Planeada a sua disponibilização através da agência Europeia ELRA a curto prazo, se houver interesse da parte desta.
    Contactar investigador responsável para qualquer outra informação sobre o corpus e a sua disponibilização.
    Data do último relatório: Julho de 1999
    Cumprimento: Objectivos cabalmente cumpridos, apesar dos "enormes" cortes

    2/2.1/CSH/835/95- Organização e informatização do arquivo e biblioteca da casa Eugénio de Almeida (Évora)

    Responsável: Helder Adegar Fonseca
    Instituição: Universidade de Évora
    URL: Serão estabelecidos no final do Projecto
    Ferramentas:
    a) utilizamos o Porbase- para o fundo bibliográfico.
    b) desenvolvemos o ALEXANDRIA, um aplicativo para inventario e catalogação electrónica de arquivos de pequena e média dimensão.
    Data do último relatório: Jan.2000
    Referências:: O projecto visa a edição electrónica dos Catálogos da Biblioteca e Arquivo da Casa Eugénio de Almeida (o que se fará no final do projecto, previsto para Dezembro de 1999)
    Cumprimento: Os objectivos iniciais serão totalmente cumpridos, embora tenha sido necessário mais tempo do que aquele que estava inicialmente previsto. As razões para tal facto:
    a) alguma falta de sincronia administrativa nas diversas componentes que envolviam o projecto (bolseiros, financiamento).
    b) a ineficácia do softwere inicialmente previsto.
    c) a lentidão administrativa para disponibilização efectiva das verbas, etc....

    2/2.1/CSH/841/95- Dicionário multimédia da cultura expressiva em Portugal

    Responsável: Salwa El-Shawan Castelo-Branco
    Instituição: Fac. de Ciências Sociais e Humanas da Univ. Nova de Lisboa
    Léxicos: Léxicos musicais
    Corpora: cerca de 2500 termos ligados a todas as práticas músicais em Portugal no século XX.
    Ferramentas: Foi especificado o software com base nas aplicações pretendidas, na funcionalidade e portabilidade exigidas e tendo em consideração a fiabilidade e eficiência dos produtos existentes no mercado.
    -Produtos de software:
    Aplicação para o desenvolvimento de Bases de Dados Relacionais: Filemaker v. 4.1; Aplicação para tratamento de imagem: PhotoShop V. 4; Aplicação para tratamento e armazenamento de som: ProTools V. 4.0 e Masterlist CD V. 1.0; Aplicação para digitalização e armazenamento em fac-simile de documentos impressos: Adobe Acrobat V 3.0; Aplicação para digitalização e armazenamento de documentos audio-visuais: Adobe Premiere V 5.0. -Formatos da informação digitalizada:
    Imagem: Photoshop, Tiff (sem compressão);
    Som: Sound Designer II, Aiff (Split Mono ou Stereo Interleaved sem compressão);
    Documentos fac-simile: Adobe Portable Digital File Format;
    Documentos audio-visuais: QuicKTime V. 3.0 (sem compressão destrutiva).
    -Equipamento:
    Computador Pentium II 233 Mhz 64MB RAM, 5.1 e 4 GB HD Computador Macintosh G3 266 Mhz 64 MB RAM, 6 GB HD e 6 GB HD SCSI (ext) / S Vídeo in/out / Zip ProTools Toolbox Mac Audiomedia spdif Gravador/Leitor CD R / CD Audio Yamaha CDR400 4 Leitor/Gravador Zip Drive 100 MB SCSI
    Data do último relatório: Julho de 1999
    Cumprimento: Os objectivos iniciais foram conseguidos. O âmbito do projecto foi alargado para incluir a música erudita

    ELAN-MLIS-121- European Language Activity Network

    Responsável: Maria Fernanda Bacelar do Nascimento
    URL:
    http://solaris3.ids-mannheim.de/elan
    Corpora: - constituição de um corpus de 3 milhões de palavras formatado segundo as normas ELAN (cada um dos parceiros ELAN constituirá um corpus com as mesmas dimensões e formato para a sua língua) - criação de uma linguagem de procura comum (Elan Corpus Query Language ou ELAN-CQL) e de uma interface comum de acesso à rede ELAN - disponibilidade de um mínimo de 4 dos corpora para consulta via internet numa rede ELAN com recurso ao interface e ao ELAN-CQL
    Ferramentas: ver no item "Corpora" a referência à criação do ELAN- CQL, ELAN Corpus Query Language, uma linguagem de procura sobre corpora partilhada pela rede ELAN
    Outros: Site relativo ao software www.loria.fr/projects/MILS/ELAN
    Cumprimento: O prolongamento por mais quatro meses, terminando o projecto a 31/12/99, irá permitir aos parceiros e responsáveis pelo software o cumprimento dos objectivos pretendidos, nomeadamente a elaboração de uma linguagem de procura e de um interface próprios.
    O objectivo inicial do Centro de Linguística da Universidade de Lisboa consistia na disponibilização de um corpus de 3 milhões de palavras no final deste projecto. Sendo que apenas 4 sites (não incluindo Lisboa) estão envolvidos nesta primeira fase de disponibilização, está em estudo a possibilidade de utilizar o software criado para o projecto ELAN para disponibilizarmos o corpus português via internet, eventualmente fora da rede ELAN.

    PCSH/C/LIN/212/91- Representação Semântica e Processos Inferenciais - Teoria Geral e Aplicação à Língua Portuguesa

    Responsável: João Andrade Peres
    Instituições: Faculdades de Letras das Universidades de Lisboa (sede), Coimbra e Porto
    Outros: O projecto não se inscrevia no domínio da linguística computacional, mas antes nos da linguística teórica e portuguesa, se bem que tivesse objectivos de formalização que, em última análise, só fazem sentido para fins computacionais. Os materiais de que se dispõe são constituídos por estudos sobre vários aspectos semânticos da língua portuguesa, envolvendo em vários casos hipóteses de formalização.
    Data do último relatório: Fevereiro de 1995
    Referências:: Foram produzidos no âmbito do projecto 39 textos, vários dos quais tiveram uma circulação restrita, por meio de cadernos próprios do projecto (do tipo "working papers"). A lista que se segue menciona apenas os textos que foram objecto de publicação convencional ou que correspondem a dissertações aprovadas.
    Ana Teresa Alves:
    1992 Alguns aspectos da Semântica das Construções com "diferente" e "mesmo", diss. de mest. em Linguística Portuguesa apresentada à Faculdade de Letras da Universidade de Lisboa.
    1993 "Introdução à Teoria dos Quantificadores Generalizados", Discursos, Estudos de Língua Portuguesa 4, 65-82 Ana Cristina Macário Lopes:
    1992/1993 "Tipos de Genericidade: Algumas Questões", Actas do IX Encontro da Associação Portuguesa de Linguística, Universidade de Coimbra, Outubro de 1992, APL-Colibri, Lisboa, 1993.
    1993 "Sobre a Referência Nominal Genérica", Discursos, Estudos de Língua Portuguesa 4, 115-134.
    Rui Ribeiro Marques:
    1993 "Processos de Quantificação e Construções Partitivas", Discursos, Estudos de Língua Portuguesa 4, 83-114.
    1995 Sobre o Valor dos Modos Indicativo e Conjuntivo em Português, diss. de mest. em Linguística Portuguesa apresentada à Faculdade de Letras da Universidade de Lisboa.
    Telmo Móia:
    1993 "Aspectos da Modificação de estruturas Nominais", Discursos, Estudos de Língua Portuguesa 4, 37-63.
    1994/1995 "Aspectos da semântica das expressões temporais com "desde" e "até": questões de aktionsart", Actas do X Encontro da Associação Portuguesa de Linguística, Universidade de Évora, 6 a 8 de Outubro, 1994, APL-Colibri, Lisboa, 1995.
    Fátima Oliveira:
    1994a/1995 "Algumas Peculiaridades do Aspecto em Português" Actas do 1º Congresso Internacional sobre a Língua Portuguesa, Lisboa, 11-13 de Abril de 1994, APL-Colibri, Lisboa, 1995.
    1994b "Aspecto: Algumas Questões", Actas do Primeiro Congresso Internacional da Associação Brasileira de Linguística, São Salvador da Bahia, 1995.
    Fátima Oliveira e Ana Cristina Macário Lopes:
    1994 "Tense and Aspect in Portuguese", in R. Thieroff e J. Ballweg (orgs.), Tense Systems in European Languages, Vol. II, Max Niemeyer Verlag, Tubinga, 1995, pp. 95-115.
    João Andrade Peres:
    1992/1998 "Issues on Distributive and Collective Readings", in F. Hamm e E. Hinrichs (orgs.), Plurality and Quantification, Kluwer, Dordrecht, 1998.
    1993 "Esboço de uma Semântica das Estruturas Nominais", Discursos, Estudos de Língua Portuguesa 4, 15-36.
    1994a/1995 "Sobre a Semântica das Construções Perfectivas em Português", Actas do 1º Congresso Internacional sobre a Língua Portuguesa, Lisboa, 11-13 de Abril de 1994, APL-Colibri, Lisboa, 1995.
    1994b/1995 "Concordância Negativa através de Fronteiras Frásicas", Actas do X Encontro da Associação Portuguesa de Linguística, Universidade de Évora, 6 a 8 de Outubro, 1994, APL-Colibri, Lisboa, 1995.
    1995/1997 "Extending the Notion of Negative Concord", comunicação apresentada ao Colóquio "Negation * Syntax and Semantics", Universidade de Otava, Canadá, 11-13 de Maio, 1995, in D. Forget, P. Hirschbühler, F. Martineau e M.-L. Rivero (orgs.), Negation and Polarity: Syntax and Semantics, John Benjamins, Amesterdão, pp. 289- 310. Pedro Santos:
    1992/1993 "Acerca de um Paradoxo na Semântica das Condicionais", Actas do VIII Encontro da Associação Portuguesa de Linguística, Faculdade de Ciências Sociais e Humanas da Universidade Nova de Lisboa, 1 a 6 de Outubro, 1992, APL-Colibri, 1993.
    1993 Aspectos da Semântica das Condicionais "se... então", diss. de mest. em Linguística Portuguesa apresentada à Faculdade de Letras da Universidade de Lisboa.
    1993/1994 "Duas Espécies de Genéricas", Actas do IX Encontro da Associação Portuguesa de Linguística, Universidade de Coimbra, Outubro de 1993, APL-Colibri, 1994.
    Cumprimento: O projecto foi concebido em função de dois objectivos principais. O primeiro consistia na construção de uma caracterização (tendencialmente formal) de alguns dos subsistemas de significação da Língua Portuguesa, agrupados nas seguintes três áreas de investigação: Área I - REFERÊNCIA NOMINAL; Área II - REFERÊNCIA TEMPORAL; Área III - MODALIDADE E RACIOCÍNIO CONDICIONAL. O segundo objectivo consistia na análise - necessariamente incipiente, dada a dimensão e complexidade dos problemas envolvidos - dos processos inferenciais associados aos subsistemas em causa.
    No que respeita à Área I (Referência Nominal), foram tratados os seguintes tópicos e suas interacções: classes de processos de quantificação; quantificação e classes de nomes; quantificação massiva versus quantificação não-massiva; construções partitivas; selecção de leituras distributivas e grupais; interpretações genéricas (ou "de espécie"; o quantificador "qualquer"; quantificação monádica versus quantificação poliádica; modificação nominal (dos tipos adjectival, demonstrativo e relativo); negação e quantificação nominal; reinterpretação da silogística aristotélica à luz das modernas teorias sobre quantificação natural.
    No que respeita à Área II (Referência Temporal), procurou-se atingir a identificação e o tratamento formal dos valores habitualmente classificados como temporais, aspectuais extrínsecos e aspectuais intrínsecos (de "aktionsart") e das suas interdependências; foi estabelecida a correspondência entre as formas verbais simples e compostas do subsistema indicativo do português e combinações dos referidos valores; abordou-se ainda a questão da referência temporal através de expressões adverbiais, tendo a análise incidido particularmente nos valores durativos introduzidos pelas expressões "desde" e "até", que serviram como domínio para avaliação da capacidade expressiva do sistema de representação semântica designado por Discourse Representation Theory; foi ainda feito um estudo básico sobre interacção temporal em cadeias verbais; como apoio ao trabalho, foram feitos um levantamento e uma análise da bibliografia sobre o tempo em português.
    Quanto à Área III (Modalidade e Raciocínio Condicional), foram tratados os seguintes tópicos: subsistemas de expressões modais em português (estudo preliminar); estruturas condicionais, entendidas no quadro de uma concepção dinâmica do significado, isto é, enquanto indutores de mudanças de estados de informação ou de revisão de crenças; modos conjuntivo e indicativo do sistema verbal, reanalisados, de forma inovadora, na sua inter-dependência com oposições modais, envolvendo mormente o plano epistémico.

    PCSH/C/LIN/936/95- Representação Semântica e Processos Inferenciais - Tempo e Conexões Frásicas e Discursivas

    Responsável: João Andrade Peres
    Instituição: Fundação da Universidade de Lisboa
    Outros: O projecto não se inscrevia no domínio da linguística computacional, mas antes nos da linguística teórica e portuguesa, se bem que tivesse objectivos de formalização que, em última análise, só fazem sentido para fins computacionais. Os materiais de que se dispõe são constituídos por vários estudos sobre semântica temporal e das conexões inter-frásicas em português, envolvendo em vários casos hipóteses de formalização.
    Data do último relatório: Agosto de 1999
    Referências:: Foram produzidos no âmbito do projecto 43 textos, vários dos quais tiveram uma circulação restrita, por meio de cadernos próprios do projecto (do tipo "working papers"). A lista que se segue menciona apenas os textos que foram objecto de publicação convencional ou que correspondem a dissertações aprovadas.
    Ana Teresa ALVES:
    [1] 1996 "Acerca da selecção Temporal no Discurso", Actas do XII Encontro Nacional da Associação Portuguesa de Linguística, Braga, 30 de Setembro a 2 de Outubro, APL-Colibri, pp. 39-56.
    [2] 1998/9 "Anáfora Temporal com durante", Actas do XIV Encontro Nacional da Associação Portuguesa de Linguística, Universidade de Aveiro, 28-30 de Setembro de 1998, APL-Colibri, Lisboa.
    Ana Teresa ALVES e Isabel G. TXURRUKA:
    [3] 1999 "Blocking Discourse Relations: same in Anaphoric Temporal Adverbials", Actas do Atelier Thématique «Théories sémantiques et pragmatiques: le temps, l'espace et le mouvement, du lexique au discours et au dialogue», 6.ème Conférence Annuelle sur le Traitement Automatique des Langues Naturelles, 12-17 Julho, Cargèse, Córsega, 12 páginas.
    Manuela AMBAR:
    [4] 1999 "Infinitives vs. Participles", in E. Treviño e J. Lema (orgs.), Semantic Issues in Romance Syntax, John Benjamins, Amesterdão, pp. 1-20.
    [5] no prelo "Aspects of the Syntax of Focus in Portuguese", in L. Tuller e G. Rebuschi (orgs.), The Grammar of Focus, John Benjamins, Amesterdão, aprox. 16 páginas.
    Judite CARECHO:
    [6] 1997 "Sobre a Semântica das Construções com quando", dissertação de Mestrado apresentada à Faculdade de Letras da Universidade de Lisboa, em Fevereiro de 1997, 141 páginas.
    Ana GARRIDO:
    [7] 1996 "Expressões Temporais de Duração em Português Europeu", dissertação de Mestrado apresentada à Faculdade de Letras da Universidade de Lisboa, em Dezembro de 1996, 118 páginas.
    José Pinto de LIMA:
    [8] 1997a "A Temporalidade como ponto de chegada de um processo de gramaticali-zação", Revista Portuguesa de Filologia (edição comemorativa do 50.º aniversário), Coimbra, aprox. 14 páginas.
    [9] 1997b "Caminhos Semântico-Pragmáticos da Gramaticalização: o caso de embora", in A. M. Brito, F. Oliveira, I. P. de Lima e R. M. Martelo (orgs.), Sentido que a Vida Faz - Estudos para Óscar Lopes, Campo das Letras, Porto, pp. 643-655.
    Rui Ribeiro MARQUES:
    [10] 1996/7 "Sobre a Selecção de Modo em Orações Completivas", Actas do XII En-contro Nacional da Associação Portuguesa de Linguística, Braga, 30 de Setembro a 2 de Outubro de 1996, APL-Colibri, Lisboa, 1997, pp.191-202.
    [11] 1998 "A Cross-Linguistic View of the Selection of Indicative and Subjunctive", Proceedings of the XVIth International Congress of Linguists, Palais des Congrès, Paris, Julho de 1997, CD-ROM, Elsevier Science.
    [12] 1998/9 "Variações de forma e sentido em construções condicionais", Actas do XIV Encontro Nacional da Associação Portuguesa de Linguística, Universidade de Aveiro, 28-30 de Setembro de 1998, APL-Colibri, Lisboa, 1999.
    Telmo MÓIA:
    [13] 1996/7 "Sintagmas com durante e em como expressões de Localização Temporal ou de Duração", Actas do XII Encontro Nacional da Associação Portuguesa de Linguística, Braga, 30 de Setembro a 2 de Outubro de 1996, APL-Colibri, Lisboa, 1997, pp. 227-240.
    [14] 1998 "On the Expression of Duration and Temporal Location through Adverbials Containing Predicates of Amounts of Time", Proceedings of the XVIth International Congress of Linguists, Paris, July 1997, CD-ROM, Elsevier Science.
    [15] no prelo "On the Semantics of Temporal Operators Expressing Anteriority and Posteriority", comunicação apresentada à conferência The Syntax and Seman-tics of Tense and Mood Selection, Universidade de Bérgamo, Itália, 1-3 de Julho de 1998, a publicar em volume da Cambridge University Press, aprox. 20 páginas.
    [16] 1998/9 "Semântica das Expressões Temporais com Haver", Actas do XIV Encontro Nacional da Associação Portuguesa de Linguística, Universidade de Aveiro, 28-30 de Setembro de 1998, APL-Colibri, Lisboa, 1999.
    [17] 1999 Identifying and Computing Temporal Locating Adverbials, dissertação de doutoramento a apresentar à Universidade de Lisboa, concluída em Agosto de 1999, xviii + 372 páginas.
    João Andrade PERES:
    [18] 1997a "Sobre Conexões Proposicionais em Português", in A. M. Brito, F. Oliveira, I. P. de Lima e R. M. Martelo (orgs.), Sentido que a Vida Faz - Estudos para Óscar Lopes, Campo das Letras, Porto, pp. 775-787.
    [19] no prelo "On the Nature and Licensing Conditions of n-phrases in Portuguese", a publicar na revista DELTA, da Associação Brasileira de Linguística, aprox. 23 páginas.
    João Andrade PERES e Rui Ribeiro MARQUES:
    [20] 1998 "Narrowing and Structuring the Domain of Conversational Implicature", Relevance Theory Workshop, 8-10 September 1998, University of Luton, England, Programme and Abstracts, Department of Linguistics, University of Luton, pp. 33-38.
    João Andrade PERES, Telmo MÓIA e Rui Ribeiro MARQUES:
    [21] no prelo "Sobre a Forma e o Sentido das Construções Condicionais em Português", a publicar na Revista da Faculdade de Letras (número de homenagem a Lindley Cintra, FLUL / Cosmos), 28 páginas.
    Filomena VIEGAS:
    [22] 1996 "Aspectos da Semântica dos Localizadores Temporais em Português", dissertação de Mestrado apresentada à Faculdade de Letras da Universidade de Lisboa, em Dezembro de 1996, 201 páginas.
    Cumprimento: O projecto foi construído em função de dois tópicos nucleares: a referência temporal e as conexões discursivas na língua portuguesa. Em ambos os casos, teve-se em conta o objectivo de atingir quanto possível níveis de representação formal. Também para as duas áreas, pretendeu-se ter em conta a distinção entre informação asserida e informação inferida, se bem que o tratamento da inferência não tenha constituído um tópico de investigação autónomo, antes surgindo disperso pela produção bibliográfica.
    No que respeita à área temática da referência temporal, foram abordados diferentes subsistemas de valores que directamente envolvem computação de tempo - nomeadamente, a localização temporal, a duração e a frequência - e ainda os sistemas associados da aktionsart e da correlação entre eventos. Adicionalmente, foi considerado oportuno enfrentar questões de sequenciação e de anáfora temporais. Deve-se, no entanto, acentuar que, no cômputo geral, o contributo fundamental do projecto se situa nos domínios da duração e da localização temporal.
    No que respeita à área temática das conexões discursivas, o projecto propõe uma perspectiva global sobre as conexões inter-proposicionais da língua portuguesa, que se espera tenha alcance translinguístico. O contributo principal do projecto consiste na investigação produzida sobre algumas das mais complexas conexões inter-frásicas: condicionais, concessivas e adversativas.

    PLUS/C/LIN/816/93- Dicionário de Combinatórias do Português

    Responsáveis: João Malaca Casteleiro e Maria Fernanda Bacelar do Nascimento
    Instituição: Fundação da Universidade de Lisboa
    URL:
    http://www.clul.ful.pt/
    Corpora: - Corpus DCP com 11,4 milhões de palavras de texto escrito e 850000 palavras de texto oral, do qual se extrairam as combinatórias.
    - Possibilidade de extracção de combinatórias de qualquer lema (com Frequência=>2), para consulta, através de pedido ao CLUL.
    Ferramentas: concor.cb, arranja_lema
    Data do último relatório: Março de 1998
    Referências:: - BACELAR DO NASCIMENTO, M. F. (1994) "Aplicação de resultados de análises linguísticas sobre corpora ao ensino do Português, LE", Memórias do 3º Congresso Internacional do Ensino de Português como Língua Estrangeira, Centro de Estudos Brasileiros e Universidade Nacional Autónoma do México, México, 1994, pp. 104-120.
    - BACELAR DO NASCIMENTO, M. F. (1994) "Apresentação do projecto Dicionário de Combinatórias do Português", Actas do Simpósio de Lexicologia, Lexicografia e Terminologia, Universidade Estadual Paulista, Campus de Araraquara, Outubro de 1994 (no prelo).
    - PEREIRA, L. A. S. (1994) Como se combinam as palavras? Contributo para um Dicionário de Combinatórias do Português, Dissertação de Mestrado, Lisboa, FLUL.
    - NETO, P. M. (1995) Combinatórias lexicais no discurso da astronomia, um estudo em estatística lexical, Dissertação de Mestrado, Lisboa, FLUL.
    - PEREIRA, L. A. S. (1995) " O DCP e a aula de português", Actas do I Encontro da APP, Lisboa, APP. - BACELAR DO NASCIMENTO, M. F. (1996) "A observação e análise de dados reais na investigação e ensino de línguas", Actas do II Encontro da Associação Portuguesa dos Centros de Línguas do Ensino Superior, Universidade de Évora, Évora, Janeiro de 1996.
    - BACELAR DO NASCIMENTO, M. F. (1996) "Projectos em curso no Centro de Linguística da Universidade de Lisboa com base no Corpus de Referência do Português Contemporâneo", Seminário O Impacto das Novas Tecnologias na Comunicação Linguística, organizado pelo Serviço de Tradução da Comissão Europeia, Lisboa, Universidade Católica Portuguesa, 13-14 de Novembro.
    - BACELAR DO NASCIMENTO, M. F. e A. CARVALHO (1996) "Preto e branco ou branco e preto? Como se combinam os nomes de cores", Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, volume I - Corpora, BACELAR DO NASCIMENTO, M. F., M. C. RODRIGUES e J. BETTENCOURT GONÇALVES (orgs.), APL, Lisboa, Setembro de 1996, pp. 367-380.
    - BACELAR DO NASCIMENTO, M. F. e L. A. S. PEREIRA (1996) "Dicionário de Combinatórias do Português: associações frequentes observadas num corpus de Português contemporâneo", Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, volume II, - Dicionários, FARIA, I. H. e M. CORREIA, APL, Lisboa, Setembro de 1996, pp. 43-54.
    - PEREIRA, L. A. S. (1996) "Para um Dicionário de Combinatórias do Português", Actas do Congresso Internacional sobre o Português, volume III, DUARTE, I. e I. LEIRIA (orgs.), APL, Edições Colibri, Lisboa, Junho de 1996, pp. 197-206.
    - BACELAR DO NASCIMENTO, M. F. (1997) "Contribuição da análise de corpora para a descrição lexicográfica", Sentido que a vida faz. Estudos para Óscar Lopes, Porto, Ed. Campo das Letras, 1997, pp. 734-744.
    - BACELAR DO NASCIMENTO, M. F. (1997) "Dictionnaire de Combinatoires et Enseignement de la Langue Orale et Ecrite", Seminário Multimedia et Enseignement des Langues, Cascais, 10 de Março.
    - BACELAR DO NASCIMENTO, M. F. (1997) "A exploração de corpora linguísticos no ensino/aprendizagem do português", Seminário Internacional de Português como Língua Estrangeira, Macau, 21 a 24 de Maio (no prelo).
    - BACELAR DO NASCIMENTO, M. F. e L. A. S. PEREIRA (1997) "Corpus de Referência do Português Contemporâneo", Rencontres de Linguistique Appliquée, Construction et Utilisation de Grands Corpus, Paris 24-27 de Setembro de 1997.
    - GARCIA MARQUES, M. L. (1997) "Da Competência à Realização:
    existência potencial e existência real de algumas combinatórias a partir da análise de um corpus", Actas do XIII Encontro da Associação Portuguesa de Linguística.
    - PEREIRA, L. A. S. (1997) "Análise de corpora e dicionários de uso", XIII Encontro da Associação Portuguesa de Linguística (APL), Lisboa, 1-3 de Outubro de 1997.
    - BACELAR DO NASCIMENTO, M. F. (1998) "Exploitation de Corpus:
    exemples de combinatoires établies pour l'écrit et pour l'oral", Actes du Colloque International "Questions de Méthode dans la Linguistique sur Corpus", Université de Perpignan (no prelo).
    - BACELAR DO NASCIMENTO, M. F. (1998) "O Corpus de Referência do Português Contemporâneo e os Projectos de Investigação do Centro de Linguística da Universidade de Lisboa sobre variedades do português falado e escrito", Actas do Colóquio Internacional "A Investigação do Português na África, Ásia, América e Europa: balanço crítico e discussão do ponto actual das investigações", Instituto Ibero- Americano, Berlim (no prelo).
    - BACELAR DO NASCIMENTO, M. F. (1998) "Quelques resources linguistiques de base pour l'étude des variétés du portugais contemporain", Revue Française de Linguistique Appliquée, Vol. III - 1, Aspects de la diversité linguistique, Juin, pp. 81-86.
    - BACELAR DO NASCIMENTO, M. F. (1998) "Resultados do Projecto 'Dicionário de Combinatórias do Português'", Revista ALFA, UNESP, S. Paulo (no prelo).
    - BACELAR DO NASCIMENTO, M. F. e M. T. BIDERMAN (1998) "Unidade e Diversidade: o vocabulário da língua oral em Portugal e no Brasil", Actas do XIV Encontro da Associação Portuguesa de Linguística, Aveiro (no prelo).
    - GARCIA MARQUES, M. L. (1998) "Combinatórias Linguísticas - um conceito, uma realidade, uma realização: da competência ao uso", Actas do Colóquio Internacional "A Investigação do Português na África, Ásia, América e Europa: balanço crítico e discussão do ponto actual das investigações", Instituto Ibero-Americano, Berlim (no prelo).
    - PEREIRA, L. A. S. (1998) "Dicionário de combinatórias do português do Centro de Linguística da Universidade de Lisboa", Actas do Colóquio Internacional "A Investigação do Português na África, Ásia, América e Europa: balanço crítico e discussão do ponto actual das investigações", Instituto Ibero-Americano, Berlim (no prelo).
    - SAIANDA, M. H. A. C. R. (1998) A Palavra: instrumento de acesso ao poder. O caso particular do debate eleitoral em Portugal em 1986 e 1991, Dissertação apresentada à Universidade de vora para obtenção do grau de Doutor em Linguística Portuguesa, Évora.
    - PEREIRA, L. A. S. (1999) "O recurso a corpora linguísticos e o contributo da abonação nos dicionários", Actas do 2º Encontro Nacional da APP, Lisboa, APP, pp. 277-290.
    - PEREIRA, L. A. S. e S. AMENDOEIRA (1999) "Associações lexicais e questões de informação mútua", I Workshop sobre Linguística Computacional, APL, Lsboa.
    Cumprimento: O aspecto que se considera de salientar, e que já foi referido no Relatório Final, é que, enquanto inicialmente se previra a constituição de um inventário das associações lexicais de uso mais frequente no português contemporâneo, que daria origem a um dicionário tradicional, dentro do género (cf., por exemplo, BENSON, M., E. BENSON e R. ILSON, 1986), os trabalhos do projecto, em todas as suas componentes, permitiram a perspectivação de objectivos qualitativa e quantitativamente mais ambiciosos, pois possibilitam ao utilizador um acesso informático flexível, com liberdade de escolha em relação a: tipo e dimensão de subcorpus; posição das palavras coocorrentes em relação à palavra em estudo; acesso directo aos contextos restritos ou alargados em que as combinatórias ocorrem; identificação da origem dos contextos; frequência de ocorrência e repartição por tipo de discurso; significância da combinatória no corpus (Índice Combinatório determinado estatisticamente). Assim, este projecto constitui uma fonte de informação aberta que permite inúmeras consultas e amplamente diversificadas, tendo ultrapassado largamente as finalidades inicialmente previstas.

    PLUS/C/PDP/1175/95- DICIOMEDIA - Prontuário Multimédia da Língua Portuguesa no Domínio dos Verbos

    Responsáveis: Mário Vilela, Augusto Q. Novais, Maria Manuel Freitas
    Instituições: Associação Portuguesa de Tradutores, Faculdade de Letras da Universidade do Porto, INETI/ITI/DMS, Universidade Nova de Lisboa/FCT/Departamento de Informática (DI), União Latina
    Corpora: Neste momento, os corpora existentes referem-se à base de dados resultante da pesquisa de jornais feita na Internet e estruturada automaticamente através da ferramenta FRASE e à listagem de todos os verbos reconhecidos como verbos do Português, independentemente da sua variante, realizada a partir de uma pesquisa em dicionários, léxicos e da própria competência dos intervenientes envolvidos no projecto, considerados como informantes.
    Numa segunda fase do projecto, pretendemos constituir corpora específicos, que tenham em consideração o funcionamento da Língua Portuguesa a diferentes níveis, dos quais destacamos o escrito e o oral, e outras fontes de inventariação para além dos jornais e dos dicionários até agora considerados.
    Ferramentas: A equipa de informática criou três tipos de ferramentas de desenvolvimento:
    - Parser ( desenvolvido na sequência de um processo de digitalização de verbos, submetido a uma verificação por meio de OCR (Optical Character recognition) ( desenvolvido para apoio à introdução de novas entradas na base de dados);
    - Interface gráfica ( três versões: 1. Ferramenta ToolBook, sendo simulada a ligação à base de dados; 2. Bruxo 3.0 ou Conjugador, com ligação à base de dados; 3. Revisão da solução anterior);
    - FRASE
    Outros: Prontuário Multimédia da Língua Portuguesa no Domínio dos Verbos: O prontuário surge, materialmente, como CD-ROM, encontrando-se apenas disponível na entidade financiadora do projecto. Deseja-se, com a maior brevidade possível, a sua consulta via Internet.
    Data do último relatório: Julho de 1999
    Referências:: - Almeida, José J. M. - "Corpus.exe: Pesquisa e extracção de Verbos", DMS-08/97, Dezembro, 1997.
    - Almeida, José J. M - " Frase 2.0", DMS-06/99, Março, 1999 - Gouveia, Henrique - "Prontuário Multimédia", DMS-03/98, Março, 1998.
    - Gouveia, Henrique - "O conjugador de verbos: Template para o MS Word 97", DMS-07/98, Maio, 1998.
    - Gouveia, Henrique - "O conjugador de verbos: 1ºs Complementos", DMS-08/98, Maio, 1998.
    - Monteiro, Patrícia A . A . - "Diciomédia: proposta de novas funcionalidades para a aplicação e sua interface", DMS-06/98, Maio, 1998.
    - Novais, A . Q.; Vilela, Mário - "Prontuário Multimédia: Diciomédia", Revista da Faculdade de Letras - Língua e Literatura, XIV, pp. 529-535, 1997.
    - Novais, A. Q.; Freitas, M.M. - "Relatório Síntese de Execução Material do Projecto: Prontuário Multimédia da Língua Portuguesa no Domínio dos Verbos (Contrato JNICT/LUSITÂNIA PLUS/C/PDP/1175/95)", DMS-11/97, Abril, 1997.
    - Novais, A. Q.; Vilela, Mário; Freitas, M.M. - "Relatório Anual de Execução Material do Projecto: prontuário Multimédia da Língua Portuguesa no Domínio dos Verbos (Contrato JNICT/LUSITÂNIA PLUS/C/PDP/1175/95)", DMS-08/98, Abril, 1998.
    - Oliveira, Nuno F. V. F. C. - "Prontuário da Língua Portuguesa no Domínio dos Verbos", DMS-13/97, Setembro, 1997.
    - Oliveira, Rosa Maria - "Prontuário Multimédia: Digitalização e Tratamento do Dicionário Básico", DMS-04/97, Setembro, 1997.
    - Oliveira, Rosa Maria - "Prontuário Multimédia: Conversão da base de dados do Dicionário Básico para a Base de Dados do ProntEdit", DMS-05/97, Outubro, 1997.
    - Novais, A. Q.; Vilela, Mário; Freitas, M.M. - "Relatório Final de Execução Material do Projecto: Prontuário Multimédia da Língua Portuguesa no Domínio dos Verbos (Contrato JNICT/LUSITÂNIA PLUS/C/PDP/1175/95)", Julho, 1999.
    Cumprimento: No sentido de justificar os atributos com que qualificaremos o produto linguístico resultante da execução do projecto referido em epígrafe, passamos a transcrever o parecer dado em 1 de janeiro de 1998 pelo professor Gerd Wotjak, catedrático de linguística e Traductologia Românicas, da Universidade de Leipzig:
    El proyecto de un prontuario multimedia en el campo de los verbos portugueses DICIOMEDIA se plantea un objetivo novedoso, muy ambicioso y útil, cuya realización tiene que basarse en una estrecha y contínua colaboración entre las instituciones implicadas y lingüistas expertos en la descripción de verbos así como entre informáticos no menos expertos en la confección de bases de datos multifuncionales e en la implementación de los resultados de la descripción detallada de los verbos para recoger en el diccionario básico toda la información necesaria relativa al potencial combinatorio sintagmático tanto semántico como morfosintáctico de los verbos indicados. Para esta compleja y meritoria labor se requieren estudios pormenorizados para indicar ante todo las restricciones semánticas y presentar un ejemplo apropiado para cualquier variante indexada mediante indicaciones generales sintácticas y semánticas. La repartición de este trabajo entre fundamentalmente dos grupos y la mutua revisión podrán garantizar una deseable máxima adecuación de la descripción que podrá luego ser utilizada para otros fines no previstos hasta ahora en el proyecto presentado (incluso la traducción automática y la extrapolación automática de las distintas variantes de los verbos de corpora informatizados de textos).
    El proyecto, tal como se há concebido hasta ahora, promete llevarse a cabo exitosamente sise siguen las etapas previstas y se aportan los distintos subproyectos en el tiempo y la calidad requeridos.
    Tendrán una particular importancia par el buen desarrollo y funcionamento del proyecto los ambiciosos componentes parciales del Diccionario Básico, de la extracción automática de citaciones de verbos por medio de la herramienta FRASE así como la generación automática de las flexiones verbales por medio de BRUXO 3.0, herramienta que contribuirá además a una lematización automática de las occurrencias token de estos verbos en los más distintos corpora informatizados de textos, y no por último, también la herramienta auxiliar GRAMATICA que asegura la vinculación entre el reconocimiento de la estructura sintáctica subyacente del verbo y las indicaciones explícitas de estas estructuras acatnciales en la base de datos.
    El prontuario de verbos tal como fue diseñado, será un auxiliar sumamente útil para la enseñanza del portugués como lengua materna y extranjera; pero su importancia va mucho más allá de este propósito primario. Ya en el curso de su elaboración se están desarrollando y/o afinando herramientas informáticas que pueden utilizarse para otros fines más. De esta forma, DICIOMEDIA podrá utilizarse, tal vez, también para extraer automáticamente los verbos com sus respectivas variantes combinatorias (y semánticas) de textos informatizados y proceder de este modo a enriquecer el diccionario básico com ejemplos y hasta usos novedosos.
    Tendrá utilidad más allá de lo diseñado la producción de um Corpus temático sobre Economía, Ciencia, Cultura y Deporte, ya que estos textos informatizados de un tamaño representativo podrían comercializarse o por lo menos utilizarse como materiales de referencia para la enseñanza de lenguas especializadas y la traducción y, por supuesto para fines de investigación en este campo, donde todavia resulta dificil dar com corpora de textos sobre esta temática.
    Nos parece convincente el diseño del proyecto, sin embargo nos permitiremos plantear a continuación algunos interrogantes que se deben más a la escassez relativa de información pormenorizada y la poca familiarización del informante com los detalles del proyecto que a desperfectos del mismo proyecto.Así nos interesaría saber, por ejemplo, lo que se presentará bajo vocablo asociada y anagrama y cómo y cuándo se incluirán dibujos ( tal vez, fotos o hasta secuencias de video, que podrán servir - junto com los gestos y la mímica acompañando el uso discursivo prototípico de la variante respectiva del verbo - para explicitar mejor el uso correcto e comunicativo de estos (evidentemente no de todos los) verbos, ya que nos parece que una demasiado amplia utilización no controlable de estos recursos visuales podría hasta tener efectos contraproductivos por distraer demasiado la atención del usuario. No se desprende claramente, además, del proyecto la utilidad y conformación del "filtro" de categorías para la obtención de subgrupos. Nos parece muy útil la indicación de prefijaciones com el verbo de base (...);
    se recurrirá a estas indicaciones sólo com verbos sencillos de base o también com cada verbo prefijado, donde en este caso probablemente también tendría que aparecer el verbo de base? No se desprende de la descripción tampoco cómo se concibe este esquema oracional (estrutura frásica) sintáctico-semántico y como se obtendrían, el caso dado de que se quisieran indicar, las características semántico-funcionales de los casos semánticos. Se ha pensadoseguro en posibilitar la integrción automática de los ejemplos para cada variante y de las otras indicaciones a partir del diccionario básico; podrían introducirse fácilmente y de forma directa, si bien controlada por el usuario mismo (posibilidad de ampliación personal) o por el lingüista en el proceso de correción, otros ejemplos de textos? Cómo se consigue la definición de los distintos sentidos? Podría preverse, desde ahora, para el prontuario o para una futura edición suya, la indicación también de sustantivos (y adjetivos) deverbativos y - lo que sería óptimo (por el usuario y/o los autores del proyecto) - tal vez las explicaciones (y/o equivalentes) en outro(s) idioma(s)? La estructura de la entrada diseñada de la herramienta EDINFO prevé com justa razón entre otras indicaciones valiosas como la definición y los sinónimos y autónomos la indicación de fraseologismos verbales (dentro de ellos supongo que habrá también colocaciones verbo- nominales, incluyendo construcciones com verbo soporte). Supongo que el usuario (sobre todo el com intereses lingüísticos) podrá tener fácil acceso también a las importantes informaciones contenidas en EDINFO, mientras que no se le permitirá acceso directo al diccionario básico? Hasta qué punto se prevé la posibilidad de interactuar o bien de introducir informaciones propias (por ejemplo observaciones, equivalentes en otros idiomas, etc.) por parte del usuario, de ampliar el registro de verbos y/o de los sentidos reconocidos? Se restringirá el diccionario básico a una selección de verbos más importantes y/o a verbos tales como se utilizan en el portugués europeo? Podrán indicarse en una segunda fase variantes específicas de otras variedades del portugués? El proyecto suscita, además de interés y de satisfacción que pondrá informaciones sumamente útiles a la disposición de usuarios que persiguen fines distintos y multifacéticos, también una serie de cuestiones y pedidos de mayor información o ampliación del proyecto concebido, su parte informática para poder servirse de ella en outra fase a fin de incluir otras informaciones más y permitir la interacción del usuario com el prontuario de verbos previsto.
    No desenvolvimento do Diciomédia, foram consideradas as perguntas formuladas por este especialista e outras dúvidas que se foram colocando no decurso da execução, às quais procurámos dar resolução através do recurso a um contínuo reajustamento dos objectivos e da metodologia utilizada.
    Tratando-se de um protótipo do prontuário completo da Língua Portuguesa, com tratamento original e dados originais, houve a preocupação não só de demonstrar uma abordagem completa no tratamento de verbos associada a funcionalidades de utilização, como ainda de desenvolver um produto que possamos colocar nas mãos do público.
    No seu conjunto, a produção linguística do prontuário constitui-se já como um instrumento de trabalho produtivo para os utentes da língua, como língua primeira ou como língua Segunda, na medida em que o protótipo apresentado permite rentabilizar um conjunto de informações variadas, que têm em conta as primeiras necessidades de aprendentes e utentes da Língua Portuguesa.
    A necessidade de haver uma uniformização dos elementos considerados no tratamento de cada entrada conduziu à manutenção do modelo do português europeu, por estar ainda em curso o trabalho dos colegas brasileiros e africanos, no sentido de levar até ao fim as informações verbais disponibilizadas, incluindo as referidas variantes.
    A variedade e qualidade das informações veiculadas constitui um dos elementos que permitem diferenciar este produto de outros produtos comerciais da mesma área, por haver proposta de um tratamento original com dados e meios originais.
    Como protótipo, o Diciomédia converteu-se ainda num enriquecedor campo de ensaio para a operação de melhoramentos no produto, nomeadamente no que se refere ao domínio da conjugação, da análise de elementos frásicos e até da própria articulação dos diferentes elementos constitutivos da entrada verbal em si, funcionando, por conseguinte, como uma amostra de um prontuário de verbos completo para a Língua Portuguesa, que se caracteriza, entre outros aspectos, por: facilidade e rapidez de utilização e possibilidade de actualização (FRASE) de um produto linguístico fiável e desenvolvido.

    PRAXIS/C/CLC/122/96- RECTIS - Rectificação de erros sintácticos do português

    Responsável: Caroline Hagège
    Instituição: Instituto de Linguística Teórica e Computacional - ILTEC
    Léxicos: Foi desenvolvido um léxico de cerca de 50.000 lemas com codificação necessária para ser integrado na ferramenta desenvolvida. Disponibilizamos no domínio público um sub-conjunto deste léxico de cerca de 3.000 entradas não verbais e 9.000 entradas verbais, assim como um pequeno léxico de locuções e compostos codificados para as ferramentas abaixo mencionada.
    Ferramentas: Lematizador e etiquetador do portugues (com base nos dicionarios acima referidos) e Analisador de superfície (com base nos dicionários acima referidos). Compilado disponibilizado (LINUX 5.0 - Kernel 2.0.32)
    Outros: Todos os recursos acima mencionados podem ser descarregados via ftp anónimo para iltecgw.iltec.pt
    Data do último relatório: 09/99
    Referências:: O trabalho desenvolvido no projecto deu origem às publicações seguintes:
    * Hagège C., Meireles A., Trindade B., Diogo C., Leite F. "A Construção de um Analisador Morfossintáctico do Português : A implementação de Verbos e Clíticos", Actas do XIII Encontro Nacional da A.P.L, Vol. I, pp.353-359, Lisboa, 1997.
    * Hagège C. Meireles A., Diogo C. Leite F., Barão N., Cotovio P. "Desambiguador de Etiquetagem dirigido por Regras Linguísticas". Actas do XIV Encontro Nacional da A.P.L, Aveiro, 1998.
    Cumprimento: Não se atingiu no fim do projecto a meta inicialmente prevista (i.e a elaboração de um corrector sintáctico integrado), essencialmente por causa de problemas na implementação informática. No entanto, este projecto permitiu a construção de uma gramática e analisador de superfície do português que constituiem uma ferramenta de base para uma série de aplicações do PLN, assim como um levantamento pormenorizado de erros sintácticos do português feitos por uma população de alunos de fim do secundário.

    PRAXIS/C/CLC/123/96- GLEP Gramática de larga Escala do Português

    Responsável: André Eliseu
    Instituição: Instituto de Linguística Teórica e Computacional - ILTEC
    URL:
    http://www.iltec.pt/
    Ferramentas: As componentes linguísticas do sistema, caracterizaveis dentro da classe das gramáticas de unificação, foram implementadas usando os recursos da plataforma ALEP (Advanced Language Engineering Platform) desenvolvida pela Cray Systems
    Data do último relatório: Setembro de 1999
    Cumprimento: O objectivo do projecto era produzir um protótipo de um sistema de tradução automática baseado em gramáticas e com uma larga cobertura (isto é, lidando com um numero elevado de fenomenos e estruturas sintacticos e capaz de processar construções 'sem estrutura sintáctica, como datas, etc.) O protótipo implementado consegue processar uma grande variedade de estruturas sintácticas, bem como construções do tipo referido.