Descrição dos textos usados nas Primeiras Morfolimpíadas

Primeiras morfolimpíadas, uma iniciativa de avaliação conjunta para o português, organizada pela Linguateca

Os textos foram obtidos usando um processo semelhante ao utilizado no ensaio, apenas com duas alterações: foi dado maior peso a textos da rede, e tentámos que o número de palavras pertencentes às variantes lusa e brasileira fosse semelhante.

O resultado (que procede da conjugação de vários processos aleatórios), foi o seguinte: 613 textos diferentes, provenientes de várias origens distintas, e contendo (segundo a atomização empregada pela organização) 80 903 unidades (correspondendo a 17 128 unidades distintas).

Nesta página apresentamos uma caracterização do conjunto de textos segundo vários eixos.

Os próprios textos encontram-se disponíveis aqui:
  1. em formato "texto seguido": ts.txt
  2. em formato "uma unidade por linha": uul.txt
  3. em formato "uma unidade só": uts.txt

Descrição do conjunto de textos como um todo

Variante

AtributoTextos% Palavras%
brasileira 340 55,46% 40031 49,48%
portuguesa 253 41,27% 38637 47,76%
africana 15 2,45% 1638 2,02%
indeterminada 5 0,82% 597 0,74%

Variante "indeterminada" corresponde àqueles casos em que não podemos determinar, com um mínimo de certeza, a origem do autor. Isto acontece no caso dos folhetos publicitários, correio spam e páginas da Web sem extensão .br ou .pt e sem suficiente informação sobre os autores.

Género

Por ordem decrescente do número de palavras:

AtributoTextos% Palavras%
literatura 229 37,36% 26353 32,57%
jornal nacional 152 24,80% 21659 26,77%
não determinado 64 10,44% 8677 10,73%
jornal regional 38 6,20% 6256 7,73%
ensaio 18 2,94% 2613 3,23%
jornal partidário 16 2,61% 2650 3,28%
texto legal 27 4,40% 2877 3,56%
conversa informal 19 3,10% 1872 2,31%
texto didáctico 14 2,28% 1840 2,27%
publicidade 6 0,98% 1107 1,37%
revista 11 1,79% 1314 1,62%
publicação oficial 5 0,82% 910 1,12%
informação e discussão em lista electrónica 9 1,47% 1582 1,96%
jornal especializado 2 0,33% 576 0,71%
literatura juvenil 2 0,33% 334 0,41%
discurso oral 1 0,16% 283 0,35%

Género não determinado indica que extraímos o texto de um corpus que não referia de forma suficientemente detalhada a origem dos textos incluídos.

Por categorias próximas:

Categoria geralAtributoTextos% Palavras%
género literárioliteratura 229 37,36% 26353 32,57%
literatura juvenil 2 0,33% 334 0,41%
texto jornalísticojornal nacional 152 24,80% 21659 26,77%
jornal regional 38 6,20% 6256 7,73%
jornal partidário 16 2,61% 2650 3,28%
jornal especializado 2 0,33% 576 0,71%
texto expositórioensaio 18 2,94% 2613 3,23%
texto didáctico 14 2,28% 1840 2,27%
revista 11 1,79% 1314 1,62%
publicação oficial 5 0,82% 910 1,12%
informação e discussão em lista electrónica 9 1,47% 1582 1,96%
publicidade 6 0,98% 1107 1,37%
linguagens de especialidadetexto legal 27 4,40% 2877 3,56%
comunicação situada carta15 2,45% 1496 1,84%
conversa informal4 0,65% 395 0,49%
discurso formal1 0,16% 283 0,35%
outrosnão determinado 64 10,44% 8677 10,73%

Meio original de publicação

AtributoTextos% Palavras%
Livro 274 44,70% 32454 40,11%
Jornal 208 33,93% 31141 38,49%
Rede 45 7,34% 6112 7,55%
Documento oficial 32 5,22% 3787 4,68%
Desconhecido 19 3,10% 2565 3,17%
Correio electrónico 13 2,12% 2363 2,92%
Correio não electrónico 15 2,45% 1481 1,83%
Panfleto 2 0,33% 326 0,40%
Transcrição 5 0,82% 674 0,83%

"Desconhecido" significa que obtivemos o texto dum corpus no qual isso não estava documentado.

Original/tradução

Esta informação apenas foi possível de obter para texto literário, ou seja, 231 dos textos (26 687 unidades). No caso de texto didáctico, enciclopédico ou publicitário, não temos essa informação, embora em alguns casos seja de desconfiar que nos encontramos em presença de tradução.

AtributoTextos% Palavras%
original 184 79,65% 21483 80,50%
traduzido 47 20,35% 5204 19,50%

Origem física dos textos

Além da rede (Web), correio electrónico e panfletos (cujo meio indica directamente a origem), e que abaixo (na relação pormenorizada) indicamos como Publ, utilizámos
  1. um texto enciclopédico que transcrevemos do Lello Ilustrado,
  2. a transcrição de quatro textos orais africanos, retirada do CD Português Falado - Documentos Autênticos (Gravações audio com transcrição alinhada) (2001, Centro de Linguística da Universidade de Lisboa e Instituto Camões), identificadp por CD-PF;
  3. um texto da literatura juvenil portuguesa e dois textos de jornal especializado (Diário Económico), retirados do CD PAROLE Portuguese Sub-Corpus (Version 1.0) (2000, INESC, distribuído pela ELRA), identificado por CD-Parole
Todos os outros textos provêm dos corpora do projecto AC/DC (cuja descrição se encontra acessível na documentação a ele associada).

Distribuição por corpora (em relação ao total dos textos):

AtributoTextos% Palavras%
SAOCARLOS 220 35,89% 25504 31,52%
CETEMPúblico 121 19,74% 18711 23,13%
COMPARA 55 8,97% 6041 7,47%
ENPC 40 6,53% 4352 5,38%
DIACLAV 23 3,75% 3830 4,73%
MINHO 15 2,45% 2426 3,00%
AVANTE 16 2,61% 2650 3,28%
ECI-EBR 19 3,10% 2565 3,17%
CLASSLPPE 28 4,57% 3162 3,91%
ECI-EE 5 0,82% 910 1,12%
ANCIB 9 1,47% 1582 1,96%
NATURA 2 0,33% 312 0,39%

Descrição de algumas combinações

O facto de termos uma distribuição geral de 30% de texto literário e 37% jornalístico não significa que o mesmo aconteça por variante. Ou seja, não conseguimos uma distribuição equilibrada de variante por género ou de género por variante, como a presente secção mostrará.

Isto deveu-se não só ao facto de existirem diferentes géneros mais acessíveis para variantes diferentes como também a não termos imposto essas condições no desenho do conjunto dos textos.

Distribuição de género por variante

Variante brasileira:

AtributoTamanho%
literario2013150,29%
nao determinado542113,54%
texto legal29037,25%
jornal nac.26656,66%
ensaio26316,57%
texto didáctico16574,14%
informacao e discussao em lista elect.15913,97%
conversa informal14963,74%
revista13253,31%
publicidade4081,02%
literatura juvenil1420,35%

Variante portuguesa:

AtributoTamanho%
jornal nacional1914649,55%
jornal regional629416,29%
literario522713,53%
nao determinado30117,79%
jornal partidário26666,90%
publicação oficial9152,37%
jornal especializado5781,50%
publicidade3780,98%
discurso oral2840,74%
texto didáctico1970,51%
literatura juvenil1940,50%

Distribuição de variante por género

Texto jornalístico

AtributoTamanho%
portuguesa2868492,11%
brasileira26658,56%

Texto literário por variante

AtributoTamanho%
brasileira2027376,93%
portuguesa542120,57%
africanas12234,64%

Relação pormenorizada da origem de cada texto

Veja-se também quais os elementos da lista dourada incluídos em cada texto.


Última alteração: 12 de Março de 2009.
Perguntas, comentários e sugestões