Gramateca: Enquadramento

Aqui esboçamos em mais pormenor o que pretendemos que a Gramateca venha a ser.

Uma das formas como esta forma de fazer gramática será diferente das anteriores será na apresentação de dados quantitativos e relativos a diferentes tipos de texto e variantes, quando tal parecer relevante.

A gramática em si não pretende ser revolucionária, mas antes uma consequência e extensão do grande conhecimento gramatical que já existe sobre a nossa língua, com base em corpos.

Um dos principais pilares dessas atividades gramaticais será o PALAVRAS (Bick 2000), visto que os corpos do AC/DC são todos anotados com esse analisador sintático, mas isso não implica de forma alguma -- embora Eckhard Bick seja um dos membros da equipa -- que a gramática resultante seja 100% coincidente com a teoria subjacente ao PALAVRAS, ou que consideremos as análises do mesmo perfeitas ou finais. Como aprendemos durante a plantação da Floresta Sintá(c)tica, o próprio estudo dos resultados do PALAVRAS pode levar a significativas melhorias (ou mudanças de orientação) deste.

Um dos subprodutos da Gramateca será, contudo, uma melhor documentação da versão 3.0 do PALAVRAS e uma tradução dos conceitos e terminologia usada no PALAVRAS para diferentes nomenclaturas, com ênfase (pelo menos no período inicial) para a gramática tradicional.

Apressamo-nos portanto a indicar que: uma gramática (ou qualquer estudo) baseado em corpos depende do corpo em que se baseia. É bem provável que não tenhamos (ainda) o corpo ideal para escrever a gramática. Acreditamos no entanto que, mesmo assim, os capítulos que forem escritos escritos poderão ser úteis como exemplo ou semente de futuros estudos, nem que seja pelo aspeto metodológico. E que um dos grandes objetivos desta campanha é compilar material classificado linguisticamente e que possa servir de base a mais estudos e controvérsias sobre a gramática da língua portuguesa.

Uma das restrições mais claras deste projeto, sobre a qual estamos perfeitamente conscientes, é que se cingirá sobretudo à língua escrita. Embora esta seja uma óbvia limitação, devemos também indicar que, comparativamente, existem muito mais estudos sobre o português oral (do Brasil e de Portugal), veja-se o projeto NURC e o projecto do Português Fundamental. De qualquer forma, existem materiais no AC/DC que provêm de corpos falados, e que sugerimos que sejam explorados como contrapartida de qualquer afirmação feita em relação à língua escrita.

Metodologia(s)

Eis algumas maneiras de proceder que contamos seguir:

De cima para baixo

Para um conjunto de áreas (que não precisam de ser críticas), vamos compilar, devidamente referenciado pelas gramáticas existentes, um conjunto de propriedades ou de fenómenos que vamos identificar nos corpos, e estudar a sua distribuição.

Após uma primeira identificação das vertentes relevantes, tentaremos entrar em contato com os especialistas dessa área (que por exemplo tenham escrito sobre esses assuntos nas suas teses) de forma a obtermos um consenso sobre as perguntas interessantes a que tentaremos responder, a terminologia a usar, e eventualmente mais colaboradores em relação a esse capítulo.

Em seguida, serão executadas as procuras relevantes e um primeiro levantamento quantitativo dos dados será feito e posto à consideração de todos os interessados.

Estudos mais finos serão então iniciados com base no que se encontrou nas fases anteriores.

Finalmente, um (ou vários) capítulo(s) ou artigo(s) identificando os resultados mais interessantes dessa área (confimando, ou não, conhecimento anterior) será escrito.

De baixo para cima

Quem tiver um assunto, por mais específico que seja, que quiser estudar com base nos corpos e com a artilharia estatística que propusermos e pusermos a dispor de todos, não precisa de ficar à espera de esse assunto ser escolhido no processo anterior, que apelidámos de "de cima para baixo".

Pode dedicar-se a qualquer problema. A única coisa que pedimos, para poder fornecer a outrs, é que as análises feitas do material sejam tornadas públicas/partilháveis -- e estou-me a referir às classificações das concordâncias (ou distribuições) analisadas.

Contrastivamente

Em alguns casos poderemos também usar descrições contrastivas (em relação a outras línguas) para iluminar o assunto em causa.

E também "atacar" especificamente casos da gramática que são relevantes para o ensino de português a estrangeiros, que podem lançar nova luz -- ou simplesmente produzir novos materiais -- sobre o português.

Para esse tipo de estudo realçamos que existem pontes para corpos paralelos que permitem uma abordagem em paralelo, como o COMPARA, o CorTrad e o PoNTE, que podem fornecer uma motivação ou uma delimitação inicial que depois seja estudada em mais pormenor nos corpos monolingues.

Técnicas estatísticas ou quantitativas

Associado a descrições qualitativas -- em que uma-mais valia do uso de corpos será a escolha de concordâncias relevantes -- iremos também empregar métodos estatísticos, explicando a sua adequação e o que nos podem ou não dizer.

Mesmo que a principal contribuição dos estudos da Gramateca seja simplesmente em termos descritivos, é natural utilizar métodos exploratórios: que fatores são relevantes para a escolha ou não de uma dada construção? Como se agrupam, por exemplo, os verbos, em relação a uma dada escolha ou área gramatical?

Da mesma forma, se já existir na literatura informação suficiente para permitir o teste de hipóteses relativas à gramática, poderemos tentar obter confirmação, ou rejeição de hipóteses propostas por outros, ou hipóteses que nos surjam ao observar os dados.

Em todos os casos, deveremos investigar se as diferenças observadas são representativas de uma diferença entre construções ou géneros, ou apenas resultado de as amostras serem um subconjunto da população (língua portuguesa) que queremos estudar.

Gramática de quê?

Tradicionalmente gramática é equacionada com (morfo)sintaxe, mas não vemos qualquer razão para não estudar semântica ou o léxico com os materiais de que dispomos. De facto, até nos parece que um dos aspetos mais inovadores deste projeto poderá ser o não nos cingirmos necessariamente às divisões tradicionais nas nossas explorações.

Fio condutor

Toda a gente se pode associar à Gramateca, mas para publicar algo como parte deste projeto tem de partilhar os resultados -- não só as conclusões e os dados/valores obtidos, mas os julgamentos individuais de cada frase ou objeto linguístico que classificou/estudou. Isto para permitir progresso e contato/conversa entre os gramáticos, em vez de ser o "X disse isto baseado no corpo A, Y diz isto baseado no corpo B, e eu digo mais isto baseado no C".

Assim, todos podem reavaliar a correção ou refazer a classificação subjacente a uma dada descoberta ou afirmação.

Publicação e financiamento

O nosso plano é que todos quantos trabalharem na Gramateca arranjem o seu próprio financiamento, e que a pertença a um projeto com esta qualidade e enquadramento possa aliás potenciar esses financiamentos individuais.

Da mesma forma, não pretendemos desde já colocar num colete de forças os textos que venham a materializar-se desta iniciativa, e esperamos, pelo contrário, que todos os participantes aceitem publicar versões preliminares no sítio da Gramateca, de forma a não termos editoras com exclusividade ou autores donos da língua portuguesa. A única restrição mesmo é que todos os trabalhos da gramática sejam públicos para o bem comum.

Não queremos contudo deixar de agradecer e reconhecer o apoio e financiamento dado à Linguateca pela FCCN, pela FCT, pelo MCES e pelos variados programas de financiamento portugueses e europeu que para ela contribuiram, em particular para desenvolver o AC/DC e a Floresta Sintática.

Também agradecemos ao Department for Research Computing da Universidade de Oslo o apoio técnico e a possibilidade de usar o grupo de computadores ("cluster") da universidade.

Referências

Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & E. Finegan. The Longman grammar of spoken and written English. 1999, London: Longman.
Bick, Eckhard. The Parsing System "Palavras": Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Dr.phil. thesis. Aarhus University. Aarhus, Denmark: Aarhus University Press. November 2000.

Última actualização: 2 de outubro de 2014.

Contate a equipa da gramática baseada em corpos da Linguateca.