Literateca: subconjunto da Gramateca, ou mais?

Gramateca, Linguateca

In English

Um subconjunto apreciável dos textos da Gramateca é composto por textos literários. Porque não aproveitar o ensejo para incentivar o estudo da literatura lusófona com técnicas tanto literárias, como de linguística com corpos, usando métodos estatísticos?

Esta foi a consideração que nos levou a iniciar o desenvolvimento da Literateca, tendo observado algumas especificidades da Gramateca no que se refere ao discurso literário.

De momento temos trabalho nas seguintes vertentes:

Identificação das obras e dos autores

Dado que existem vários corpos com obras literárias, a primeira coisa que foi preciso garantir foi que os mesmos autores tivessem uma única identificação (e o mesmo também deverá ser feito em relação às obras).

Produzimos, pois, a seguinte lista de autores únicos, ou melhor, de identificações dos autores presentes nos corpos da Gramateca (e que incluem também os corpos paralelos, predominantemente literários). Esta lista vai sendo atualizada à medida que mais textos vão sendo incluídos nos corpos da Linguateca.

A cada descrição encontrada nos corpos que constituem o material que compõe a Literateca foi atribuído um indicador único, com cerca de seis letras, de forma a poder fazer estudos mais fiáveis em termos de autoria.

É importante, contudo, salientar que seguimos a filosofia da Linguateca na apresentação deste material: Esta lista não é para servir de autoridade, mas sim e apenas de documentação do material acessível. Naturalmente, só as bibliotecas nacionais dos países lusófonos é que poderão e deverão estabelecer um identificador de autoridade para os "seus" autores. Mesmo assim, agradecemos desde já todas as correções e sugestões de melhoria, e ficaríamos certamente gratíssimos por um eventual cruzamento de dados com registos de autoridade.

Dados embrionários

O primeiro estudo efetuado no âmbito daquilo que se pode chamar Literateca (decorrido em maio de 2017), e que fixou esta nova designação, coligiu vários dados, daqui acessíveis em duas tabelas separadas por tabuladores, e que temos vindo a atualizar: primeira e segunda (data da última atualização: 28 de março de 2019).

Por ser um estudo piloto, a escolha das obras foi feita simplesmente seguindo a ordem Vercial, OBras, NOBRE, Tycho Brahe, Colonia e PANTERA, ou seja, as obras que já estavam num corpo anterior não foram, naturalmente, re-incluídas. Mais tarde poderemos ter de rever esta ordem, cotejando as edições alternativas. Seja como for, já que, pese embora a dificuldade de fixar o que é literário ou não, alguns textos podiam ser imediatamente excluídos, nem todo o material dos corpos anteriormente mencionados faz parte da Literateca.

Basicamente, para cada obra, medimos alguns indicadores que pudessem ser usados em técnicas exploratórias e de visualização do material.

A descrição cronológica do material, png, foi obtida usando a data média para datas correspondendo a um período, e considerando como data exata quando estava apenas marcada aproximada: ~1700 é, por exemplo, transformada em 1700. No caso do Tycho Brahe, alterámos além disso a data para a data de publicação, visto que neste projeto as datas referem-se à vida do autor.

A cor indica a proveniência (em termos de corpo) da obra em questão. Vercial: cor de rosa; OBras: verde; NOBRE: vermelho; Tycho Brahe: azul claro; Colonia: preto; e PANTERA: azul escuro.

Aplicação de técnicas estatísticas sobre esse material

Por enquanto, apresentamos apenas resultados estáticos (criados através do ambiente R), mas a nossa intenção é fornecer um serviço que permita aos utilizadores criarem eles próprios as imagens em que estariam interessados, através da escolha das características e das técnicas a utilizar.

Até lá, temos todo o interesse em produzir e tornar públicos todos os gráficos que nos peçam sobre o material da Literateca, até para ter uma noção dos requisitos futuros dos utilizadores / usuários.


Última actualização: 23 de janeiro de 2021
Contate a equipa da gramática baseada em corpos da Linguateca.