Informação pormenorizada sobre os corpos

Projecto AC/DC, Linguateca

Esta página fornece a informação necessária sobre cada corpo, para que os utilizadores do nosso serviço o possam utilizar como instrumento válido de teste de hipóteses científicas.

Além de apontar para a informação original fornecida pelos compiladores e de apresentar uma contabilização sumária de todos os corpos em forma de tabela, descreve várias opções básicas tomadas na codificação dos corpos no ambiente escolhido, o CWB. Sem que estas opções sejam explicitadas, não é possível compreender os resultados quantitativos ou comparar com outros trabalhos sobre os mesmos corpos.

Todos os corpos foram anotados pelo PALAVRAS, o analisador sintáctico criado Eckhard Bick, Bick (2000). Veja-se a página de anotação para mais informações sobre essa anotação.

Identificação sumária
Contabilização básica dos corpos
Frequência de formas e lemas por categoria gramatical nos corpos
Contabilização detalhada por corpo

Identificação sumária

Informação original fornecida pelos compiladores de corpos, acessível na rede ou publicada. Apenas os identificadores foram atribuídos por nós. Para saber mais informação sobre cada corpo, clique no respectivo identificador.

AmostRA-NILC Seleção de textos do corpo NILC, em português brasileiro, contendo textos dos géneros didático, jornalístico e literário, anotada com classificação gramatical, criada no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC

ANCIB Corpo de correio electrónico da lista ANCIB

Avante! Corpo de artigos da edição electrónica do Avante!, jornal semanal do Partido Comunista Português

CBRAS Um grande corpo de português brasileiro contendo muitos géneros diferentes, obtido da Rede
CDHAREM As colecções douradas usadas no HAREM

CETEMPúblico CETEMPúblico (Corpo de Extractos de Textos Electrónicos MCT/Público)

CHAVE Corpo de texto jornalístico usado no CLEF

CIENCIAVIVA Textos escritos sobre ciência em Portugal

COLONIA Corpo de textos históricos do século XVI ao XIX, de Portugal e do Brasil

C-ORAL-BRASIL Corpo oral de conversas informais no estado de Minas Gerais

CONDIVport Parte do corpo CONDIVport, contendo textos de jornais desportivos de Portugal e do Brasil

CoNE Corpo de Correio Não-Endereçado, criado pela Linguateca

CORDIAL-SIN Corpo de excertos de conversas orais, semidirigidas, em Portugal

DHBB Corpo de verbetes enciclopédicos sobre políticos brasileiros

DiaCLAV Corpo de artigos da edição electrónica de jornais regionais da região centro de Portugal (Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário)

Diáspora TL-PT Corpo de entrevistas a timorenses radicados em Portugal

ECI-EBR A parte do corpo Borba-Ramsey, contido no European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)

ECI-EE A parte da apresentação do programa Esprit do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)

ENPCPUB Parte disponibilizável do subconjunto em português do English-Norwegian Parallel Corpus (ENPC) (traduções para português de originais em inglês)

Floresta Corpo relativo ao material da Floresta Sintá(c)tica

FrasesPP Corpo FrasesPP, desenvolvido no Grupo de PLN do INESC em 1990-93

FrasesPB Corpo FrasesPB, criado no âmbito do Projecto Processamento Computacional do Português

Mariano Gago Notícias sobre Mariano Gago e textos dele e sobre ele

Marielle, presente! Textos escritos por Marielle Franco, e sobre ela

Moçambula Carta de leitores em jornais moçambicanos

Museu da Pessoa Corpo de entrevistas portuguesas e brasileiras realizadas pelo Museu da Pessoa

Natura/Minho Corpo jornalístico Natura/Diário do Minho

NOBRE Corpo de texto literário lusófono publicado na Europa

OBras Corpo de texto literário brasileiro

P'lo Norte Corpo de blogues de portugueses sobre a Noruega

ReLi Corpo de resenhas de livros na Rede, criadas por alunos brasileiros, anotadas com polaridade e objeto de opinião

NILC/São Carlos Corpo NILC/São Carlos (parte corrigida), contendo texto jornalístico, didáctico e epistolar.

Tycho Brahe Corpo Tycho Brahe

TodosJuntos Todos os corpos combinados, evitando repetições.

Vercial Corpo de textos literários portugueses clássicos, disponibilizados pelo projecto Vercial.

Contabilização básica dos corpos

Todos os corpos foram processados de forma a serem codificados pelo IMS-CWB, o que significa que foram previamente transformados no formato de uma unidade por linha, e com um atributo estrutural (que delimita um conjunto de unidades) por linha também.

Este processo, que chamamos atomização, encontra-se descrito em Atomização, e inclui também a divisão em frases, obtida automaticamente na maior parte dos casos.

De forma a poder comparar os vários corpos numa única tabela, convém notar que os elementos classificados como títulos, legendas, etc. não foram considerados frases para efeitos desta contagem. Por outro lado, os parágrafos (geralmente curtos) sem pontuação final são marcados como frases, do tipo fragmento.

Esta contabilização é atualizada sempre que há criação de novas versões.

Corpo Nº de frases Nº de parágrafos Nº de palavras (formas) Nº de palavras (tipos) Nº de unidades

AmostRA-NILC 4.965 4.904 99.267 17.155 128.517
ANCIB 83.504 60.116 1.257.785 74.286 1.698.148
Avante! 193.107 62.527 6.615.426 122.205 7.782.139
Corpus Brasileiro 43.044.013 11.275 959.172.637 4.864.314 1.134.414.006
CD HAREM 12.558 7.276 225.766 30.985 290.001
CETEMPúblico 7.017.260 2.568.010 195.231.421 950.002 239.113.359
CHAVE 4.762.289 2.272.811 101.444.276 737.712 127.436.563
Ciência Viva 27.270 12.483 663.487 41.893 805.307
Colonia 283.547 283.547 4.981.875 174.438 6.658.516
CONDIVport 301.077 148.893 5.627.261 155.195 7.200.795
CONDIVport2 6.533 3.929 175.277 19.973 212.075
CoNE 31.563 19.416 681.377 43.118 921.366
C-Oral-Brasil 30.634 0 267.102 14.433 439.519
CORDIAL-SIN 98.010 48.938 857.066 29.657 1.494.736
CorpiRef 0 0 0 0
CorTrad, lado português 76.246 18.254 1.448.966 69.794 1.952.456
DHBB 461.808 12.045 14.177.792 122.549 16.096.075
DiaCLAV 210.373 24.439 6.710.948 111.597 7.849.857
Diáspora TL-PT 1.035 0 21.908 3.047 27.409
DisPR 10.647 5.819 275.592 20.834 330.043
ECI-EBR 44.381 12.117 728.951 60.175 924.904
ECI-EE 789 340 25.779 3.970 30.277
ENPCPUB (parte em português) 4.371 1.682 72.798 12.884 92.679
Floresta 257.017 37.681 4.779.248 160.147 5.815.359
FrasesPB 652 648 19.185 6.007 23.259
FrasesPP 594 594 16.266 5.088 20.030
Mariano Gago 22.931 11.357 569.843 31.627 693.884
LeMe 178.686 143.624 2.581.509 42.086 3.496.795
Literateca 2.336.988 817.670 37.864.742 568.296 52.741.328
Marielle, presente! 20.444 10.291 409.831 26.063 506.032
Moçambula 2.285 133 59.038 10.745 69.469
Museu da Pessoa 93.466 11.771 1.431.615 42.627 1.846.889
Natura/Minho 70.277 56.927 1.800.223 68.325 2.255.442
NOBRE 542.753 189.081 9.519.239 247.222 13.044.521
OBras 636.552 235.911 10.292.746 234.040 14.517.326
PANTERA, lado português 46.065 15.817 642.728 47.288 950.926
P'lo Norte 2.381 1.121 41.226 8.162 52.751
Português Falado - Documentos Autênticos 7.569 3.500 107.215 8.629 148.582
ReLi 7.231 0 128.784 13.086 157.560
NILC/São Carlos 2.054.104 873.552 32.886.779 436.350 43.249.538
todos juntos 56.970.430 6.101.626 1.261.058.299 5.491.047 1.518.927.964
Tycho Brahe 135.623 136.065 3.344.141 149.139 4.226.634
Vercial 987.669 228.567 14.777.085 328.484 20.876.163
Total 64.109.267 8.353.131 1.422.034.200 -- 1.720.591.235

Frequência de formas e lemas por categoria gramatical nos corpos

Para obter as listas de frequências, clique na célula correspondente da tabela abaixo, que indica o número de tipos distintos. Tenha, contudo, em atenção as seguintes informações

as listas de frequências reflectem a análise sintáctica automática do PALAVRAS, e portanto podem conter incorrecções
no caso das palavras gramaticais (na categoria GRAM), mantivemos a classificação gramatical (POS) de forma a poder distinguir os vários casos
no caso das expressões com mais de ume palavra (marcadas como MWE), e que são sobretudo GRAM e ADV, cada palavra aparece separadamente na lista de formas, donde é mais adequada a consulta dos lemas, onde aparecem ligadas pelo caracter "=". Por exemplo, "é=que" é analisado como ADV pelo PALAVRAS, donde "é" e "que" aparecem listados como ADV na lista das formas de ADV.
no caso dos verbos com clíticos ou das contracções,
- estes aparecem nas listas de frequências como formas diferentes, por exemplo "abracei-o", e "do"
- mas os lemas são separados: ou seja, o seu lema, que é o lema do verbo separado por "+" e seguido do lema do pronome clítico correspondente, por exemplo "abraçar+ele", "abraçar+ela", "abraçar+se") para o efeito das contagens conta como lema do verbo "abraçar" e para o lema do clítico "ele"
a frequência dos lemas dos nomes próprios é normalizada através do número de palavras que os constituem
chamamos a atenção para que muitas palavras passíveis de ser consideradas como adjectivos, como por exemplo "aberto", "escondido", etc. não se encontram categorizadas como tal, mas sim como formas do particípio passado dos verbos "abrir" e "esconder". Está é uma opção linguística subjacente ao PALAVRAS, que é importante documentar.

Corpus Formas
N ADJ ADV V NUM GRAM todos
AmostRA 6387 2736 423 5948 300 532 17202
ANCIB 21897 9586 1179 18001 5201 1472 76471
Avante! 32009 18435 2485 46261 4994 2143 122235
CDHAREM 10212 4228 610 8887 979 628 31180
CETEMPúblico 205369 93621 9562 217258 121891 12533 982265
CHAVE 164565 76600 7373 173039 91949 8466 738517
Ciência Viva 12771 7083 907 12751 1515 825 42344
Colonia 49017 24535 3017 87128 1430 2108 174452
ConDIVport 44597 25411 2958 55364 5958 2413 157513
ConDIVport2 6666 2674 432 5994 850 558 20151
ConE 14514 5685 715 9607 3979 1522 46688
C-ORAL_Brasil 5534 1819 358 4920 339 963 14583
CORDIAL-SIN 11325 2754 375 14355 155 948 29803
Parte portuguesa do CorTrad 21613 11140 1166 25234 1704 1573 69885
DHBB 29290 15317 1559 36349 9905 1956 127964
DiaCLAV 31460 15494 1692 39092 5663 1789 111619
Diáspora TL-PT 986 311 163 1087 89 348 3069
DisPR 5885 3971 743 9520 295 567 20901
ECI-EBR 19629 10135 1256 24007 768 1015 60376
ECI-EE 1333 829 202 1259 217 304 4122
ENPC (parte pública) 4423 1978 455 5044 138 497 12909
Floresta 46916 21872 2189 48643 6024 3144 164357
FrasesPB 2576 951 216 1767 66 334 6019
FrasesPP 2058 873 211 1452 76 323 5104
Mariano Gago 9739 4919 853 11653 865 870 31895
LeMe 12905 8448 689 8702 3921 1068 43122
Literateca 148377 73744 8413 281913 4573 6188 568681
Marielle, presente! 8222 3679 573 8621 1110 843 26464
Moçambula 3745 1648 418 3785 178 518 10789
Museu da Pessoa 14677 5996 774 17245 572 894 42637
Natura/Minho 20814 10114 1223 21702 3948 1260 69861
NOBRE 63811 36066 4648 131204 1556 3996 248608
OBras 59574 33072 4102 127317 1546 2389 234140
Plonorte 2888 1181 337 2579 249 460 8220
PortFalDA 3312 1124 260 3435 56 418 8637
ReLi 4258 2483 563 4980 141 1722 14274
NILC/São Carlos 105161 48971 4507 105471 61462 4545 436492
Vercial 82466 41846 4793 166044 3377 3230 328583
393586 178483 16371 461789 206806 25298 1753945

Corpus Lemas
N ADJ ADV V NUM GRAM PROP todos todos/pos
AmostRA 4882 1873 329 1863 322 172 1486 10752 10933
ANCIB 11581 4364 841 3084 5511 467 34149 58715 60002
Avante! 17282 7640 1980 4450 6183 741 52451 89195 90733
CDHAREM 7150 2709 459 2145 983 191 6930 20258 20567
CETEMPúblico 111283 33151 6751 12016 135907 7330 1092647 1376871 1399092
CHAVE 81102 27091 5425 10472 100426 4241 691127 904078 919891
Ciência Viva 8285 3613 738 2349 1662 271 10039 26398 26962
Colonia 26229 9891 2308 7708 1806 608 26424 73254 74980
ConDIVport 21480 9962 2159 5253 7313 673 46044 90475 92889
ConDIVport2 4625 1667 340 1581 867 192 4109 13066 13387
ConE 7571 2693 474 2022 4093 325 16510 33017 33693
C-ORAL_Brasil 4058 1174 231 1381 332 246 1845 8846 9273
CORDIAL-SIN 6295 1401 224 2085 304 281 1900 12260 12496
Parte portuguesa do CorTrad 13106 5520 953 3627 2120 652 15539 40192 41523
DHBB 17558 6566 1272 3764 10471 1128 148066 186889 188832
DiaCLAV 16825 6687 1305 4023 6377 825 64046 98545 100094
Diáspora TL-PT 799 221 116 353 87 128 221 1847 1931
DisPR 4090 2169 624 1837 311 179 1066 10157 10282
ECI-EBR 12492 5363 1029 3794 1127 324 8947 32405 33082
ECI-EE 990 529 180 480 220 106 133 2584 2644
ENPC (parte pública) 3452 1384 369 1432 122 161 722 7534 7648
Floresta 30516 11249 1886 6797 6138 610 86695 142045 143896
FrasesPB 2126 733 187 826 58 117 214 4175 4267
FrasesPP 1680 673 183 660 71 122 191 3532 3586
Mariano Gago 6308 2700 668 2110 927 288 7234 19937 20241
LeMe 7938 4514 528 2026 3942 1176 15458 34277 35587
Literateca 71297 25957 6261 17294 6345 1242 161817 279733 290221
Marielle, presente! 4981 2058 434 1885 1187 263 6496 16967 17310
Moçambula 2780 1122 320 1241 180 170 815 6537 6634
Museu da Pessoa 9095 3204 594 2804 739 318 7951 24030 24711
Natura/Minho 11544 4762 926 3199 4473 456 30240 54755 55606
NOBRE 31296 13375 3549 8902 2023 692 35639 92215 95482
OBras 28560 11800 3257 8224 2039 673 34001 85886 88560
Plonorte 2170 786 253 850 246 160 765 5129 5236
PortFalDA 2647 767 243 1028 132 186 424 5312 5433
ReLi 2949 1410 372 1358 142 221 792 6931 7250
NILC/São Carlos 47817 17949 3310 8299 66911 1834 289881 427567 436007
Vercial 41277 15242 3689 10981 4234 840 89928 161363 166197
207292 64450 11328 27819 229830 12172 1868925 2379721 2420807

Contabilização detalhada por corpo

A maior parte dos corpos requereu tratamento específico e opções dedicadas, que serão mencionadas na descrição de cada caso. Como opções gerais, mais detalhadas na página de atomização, temos:

O tratamento de contracções, palavras compostas e verbos com clíticos como uma unidade só
O tratamento de sinais de pontuação como unidades separadas
O tratamento de abreviaturas (incluindo sinais de pontuação) como uma unidade apenas
A não inclusão, no corpo, de informação sobre formatação gráfica
A numeração automática dos parágrafos

Os dados quantitativos que apresentamos para cada corpo dividem-se em quatro grupos:

tamanho global do corpo em termos de unidades minimas, indicando as suas propriedades gráficas
descrição formal do seu conteúdo (dos "tokens")
descrição formal da sua estrutura (dos marcadores estruturais).

Nota: em relação aos dados quantitativos, a categoria "pontuação" inclui todos as unidades que contenham sinais de pontuação e que não tenham sido considerados como abreviaturas (incluindo portanto números do tipo "3.876.210", abreviaturas com mais de um ponto como "S.O.S." ou "E.U.A", assim como erros de codificação ainda não depurados, como "primeiro-ministro.").

Corpo AmostRA-NILC

O corpus AmostRA-NILC (Corpus Amostra Rachel Aires - NILC) foi criado no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC, para avaliar e comparar o desempenho de etiquetadores para o português brasileiro (Aires 2000).

Citando Aires 2000 (secção 4.1.1)

" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:

textos simples, isto é, aqueles que seguem uma estrutura formal fixa, por exemplo a escrita técnica (didáticos);
textos mais próximos da linguagem viva (jornalístico);
textos com estrutura livre, isto é, com formas menos comuns como ordem inversa por exemplo, (literários).

(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.

(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)

Tabela 1 - Corpus de treinamento e teste
Tipo de Corpus Tamanho do corpus
D Didático 16.255 palavras
J Jornalístico 56.653 palavras
L Literário 32.054 palavras

(fim de citação)

Corpus AmostRA-NILC duplamente anotado, versão texto de 7 de Agosto de 2003 com primeira anotação do NILC (Rachel Aires), anotado a 13 de julho de 2024, v. 8.2

Agradecemos a Rachel Aires a disponibilização do corpus.

Estrutura do corpo

Os atributos estruturais usados são p (parágrafo) e s (frase). É também usado o atributo posicional pos2 (anotação gramatical original do corpus).

Dados quantitativos

Corpo AMOSTRA	Número de formas	Número de tipos
Unidades	128517	17202
Total de palavras	99267	17155
Palavras em minúscula	78338	13522
Palavras com inicial maiúscula	8253	2401
Palavras todas em maiúsculas	464	19
Números	909	186
Palavras com números	73	48
Palavras mistas	41	24
Pontuação	6254	47

Número de unidades estruturais

Atributo	Número
s	4965
p	4904
mwe	1629

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	3494	5044
Locuções	1629	3454
Palavras gráficas	99267	99267
Palavras simples	90769	90769
Palavras	95892	99267

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	23041	25,38%
Verbos	V.*	14189	15,63%
Adjectivos	ADJ.*	6430	7,08%
Pronomes pessoais	.PERS.	2262	2,49%
Preposições	PRP.*	17074	18,81%
Conjunções	K.*	4038	4,45%
Advérbios	ADV.*	4669	5,14%
Determinantes	.DET.	17435	19,21%
Especificadores	.SPEC.	1621	1,79%
Numerais	NUM.*	1789	1,97%

^{^}Voltar ao início da página

Corpo ANCIB

O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista homónima da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (até Novembro de 2003) e para a lista abarreto-l, após essa data.

Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.

Corpus ANCIB, versão texto de Junho de 2009, anotado a 6 de julho de 2024, v. 10.1

Agradecemos a Aldo Barreto a autorização gentilmente cedida para uso dos textos da lista.

Estrutura do corpo

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.

Dados quantitativos

Corpo ANCIB	Número de formas	Número de tipos
Unidades	1698148	76471
Total de palavras	1257785	74286
Palavras em minúscula	840443	34833
Palavras com inicial maiúscula	203720	20698
Palavras todas em maiúsculas	41938	7004
Números	19530	1183
Palavras com números	2489	674
Palavras mistas	2841	1397
Pontuação	109868	2054

Número de unidades estruturais

Atributo	Número
p	60090
s	83469
mwe	12271
autor	2925
mens	3012
assunto	3000
li	0
titulo	0
cita	81

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	91894	184955
Locuções	12271	26527
Palavras gráficas	1257785	1257785
Palavras simples	1046303	1046303
Palavras	1150468	1257785

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	290332	27,75%
Verbos	V.*	128137	12,25%
Adjectivos	ADJ.*	80089	7,65%
Pronomes pessoais	.PERS.	12913	1,23%
Preposições	PRP.*	204102	19,51%
Conjunções	K.*	55718	5,33%
Advérbios	ADV.*	37336	3,57%
Determinantes	.DET.	192781	18,42%
Especificadores	.SPEC.	15293	1,46%
Numerais	NUM.*	30909	2,95%

^{^}Voltar ao início da página

Corpo Avante!

O corpus Avante! contém textos do semanário «Avante!», orgão oficial do Partido Comunista Português. O corpus contém cerca de 6 milhões de palavras, extraídas da versão na rede do jornal, correspondendo a um total de 8.515 artigos de 207 edições do dito jornal, de Abril de 1997 até Fevereiro de 2002.

Corpus Avante, versão de 6 de Março de 2006, anotado a 4 de outubro de 2025, v. 9.3

Estamos gratos à direcção do «Avante!», em especial ao seu director José Casanova, pela autorização gentilmente cedida para a elaboração deste corpus.

Estrutura do corpo

O corpus contém as etiquetas art (artigo), t (título), p (parágrafo), s (frase) e li (elemento de uma lista); os artigos não estão datados, sendo apenas indicado o número da edição, através da indicação <art ed= id=> .

Dados quantitativos

Corpo AVANTE	Número de formas	Número de tipos
Unidades	7782139	122235
Total de palavras	6615426	122205
Palavras em minúscula	5097287	67904
Palavras com inicial maiúscula	661355	29163
Palavras todas em maiúsculas	82617	3433
Números	62607	2787
Palavras com números	1094	340
Palavras mistas	1702	744
Pontuação	330920	8

Número de unidades estruturais

Atributo	Número
art	8055
t	26379
a	2
p	62527
li	7725
s	193105
mwe	119349

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	285693	514716
Locuções	119349	257210
Palavras gráficas	6615426	6615426
Palavras simples	5843500	5843500
Palavras	6248542	6615426

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	1441056	24,66%
Verbos	V.*	780040	13,35%
Adjectivos	ADJ.*	450652	7,71%
Pronomes pessoais	.PERS.	89212	1,53%
Preposições	PRP.*	1230315	21,05%
Conjunções	K.*	310614	5,32%
Advérbios	ADV.*	287144	4,91%
Determinantes	.DET.	1266527	21,67%
Especificadores	.SPEC.	123473	2,11%
Numerais	NUM.*	104110	1,78%

^{^}Voltar ao início da página

Corpo Corpus Brasileiro

O Corpus Brasileiro é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp. Devido a variados tipos de processamento automático, é possível que nem todo o material incorporado esteja disponível através do AC/DC.

Listas de frequências

As listas de frequência de palavras (unigramas) do corpus podem ser obtidas em:

Componente falado: http://corpusbrasileiro.pucsp.br/temp/tbuf.txt.gz
Componente escrito: http://corpusbrasileiro.pucsp.br/temp/tbue.txt.gz

Referências

Manual: Corpus Brasileiro.
Berber Sardinha, T. (2008). Léxico-gramática e corpus. II Ebralc - Escola Brasileira de Linguística Computacional, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2008). O Corpus Brasileiro. Comunicação apresentada em VII Encontro de Lingüística de Corpus, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T. (2009). Applied Linguistics and Technology. Ames, Iowa State University, USA, January 20, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus: A one-billion word online resource. Comunicação apresentada em 5th Corpus Linguistics Conference, Liverpool, UK, July 21-23, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus. Comunicação apresentada em AACL 2009 - American Association for Corpus Linguistics, Alberta, Canadá, October 8-11, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2010). O Corpus Brasileiro. Comunicação apresentada em 13o Congresso Brasileiro De Língua Portuguesa e 4o Congresso Internacional De Lusofonia, PUCSP, São Paulo, SP, 30 de abril de 2010.
Berber Sardinha, T. (2010). Corpus Linguistics and Metaphor. Conferência plenária apresentada em 2nd International Conference on Corpus Linguistics (CILC), A Coruña, Spain, May 13-15, 2010.
Berber Sardinha, T. (2010). A Linguística de Corpus na Prática. Santiago de Compostela, Espanha: Universidade de Santiago de Compostela, Espanha, 2010.
Berber Sardinha, T. (2010). Corpus Linguistics. Murcia, Espanha: Universidade de Murcia, Espanha, 2010.

Corpus Brasileiro anotado, versão de 13 de junho de 2025, v. 9.0

Tony Berber Sardinha, a quem estamos gratos pela autorização para a disponibilização deste corpus, agradece à Fapesp o financiamento do projeto.

Estrutura do corpo

O corpo está apenas dividido em frases (s).

Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:

genero Gênero Fonte

ei Acadêmico Artigos

ej Acadêmico Teses e dissertações

eq Acadêmico Anais de congresso

en Cinema e TV Roteiros

ee/ef Educação Diversos

ee/ef Educação Diversos

et Enciclopédia Wikipédia

fa Esporte Narração de jogos de futebol

ek Informática Manuais

ed Jornalismo Revistas

eg Jornalismo Jornais

eo Jornalismo Horóscopo

fe Jornalismo Entrevistas

em/ex Legislação Diversos

em/ex Legislação Diversos

eb Literatura Contos

ec Literatura Crônicas

eh/ew Literatura Variados

eh/ew Literatura Variados

eu Literatura Biografias

ea Medicina Bulas de remédio

ep Política Atas de assembléia legislativa

fb Política Debates de TV

fc Política Pronunciamentos do presidente

fd Política Sessões do congresso

el Religião Diversos

ev Religião Bíblia

er/es Técnico Relatórios e manuais diversos

er/es Técnico Relatórios e manuais diversos

Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.

Género Unidades

ea 113.111

eb 61.168

ec 166.529

ed 497.106

ee 77.538.811

ef 2.267.630

eg 255.976.444

eh 1.375.882

ei 184.060.342

ej 270.776.515

ek 717.373

el 926.147

em 227.156

en 319.419

eo 4.308

ep 4.053.183

eq 6.965.045

er 5.722.902

es 6.655.524

et 53.690.513

eu 1.735.800

ev 2.659.377

ew 21.849.612

ex 26.872.755

fa 258.840

fb 65.844

fc 5.424.990

fd 86.907.734

fe 4.015.274

Dados quantitativos

Corpo CBRAS	Número de formas	Número de tipos
Unidades	1134414006	5353468
Total de palavras	959172637	4864314
Palavras em minúscula	641537010	1243719
Palavras com inicial maiúscula	128133164	1055996
Palavras todas em maiúsculas	31919585	358094
Números	21027771	96554
Palavras com números	2324770	384830
Palavras mistas	4002933	363260
Pontuação	62977515	473143

Número de unidades estruturais

Atributo	Número
p	87
s	40986065
mwe	12934813

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	46355017	108606713
Locuções	12934813	27386268
Palavras gráficas	958936451	958936451
Palavras simples	822943470	822943470
Palavras	882233300	958936451

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	219131354	26,63%
Verbos	V.*	106700934	12,97%
Adjectivos	ADJ.*	61361229	7,46%
Pronomes pessoais	.PERS.	12094110	1,47%
Preposições	PRP.*	155797306	18,93%
Conjunções	K.*	37490570	4,56%
Advérbios	ADV.*	32853240	3,99%
Determinantes	.DET.	147778959	17,96%
Especificadores	.SPEC.	11536306	1,40%
Numerais	NUM.*	33522347	4,07%

^{^}Voltar ao início da página

Corpo CD HAREM

O corpo CDHAREM contém as colecções douradas usadas no HAREM (avaliação conjunta de sistemas de Reconhecimento de Entidades Mencionadas), tanto no Primeiro (criadas em 2005 e 2006) como no Segundo (criada em 2008). A forma como este corpo foi criado encontra-se pormenorizadamente descrita em Rocha & Santos (2007).

Corpus Colecção Dourada do HAREM, a partir das versões das CD do Primeiro HAREM de 2007, anotado em 3 de Maio de 2010, criado a 15 de Maio de 2010, versão 3.2

Estrutura do corpo

Atributos estruturais:

DOC (delimitador de documento), p (delimitador de parágrafo), s (delimitador de frase)
EM (delimitador de entidade mencionada)
ABSTRACCAO, ACONTECIMENTO, COISA, LOCAL, OBRA, ORGANIZACAO, PESSOA, TEMPO, VALOR, VARIADO (delimitador de categoria de entidade mencionada)
ALT (delimitador de EM com anotação alternativa).

Atributos posicionais relacionados com a anotação das entidades:

em (entidade mencionada a que o termo pertence)
categoria (categoria(s) de EM)
tipo (subcategoria de EM)
docid (documento da CD)
variante (país de origem do texto, o valor do campo ORIGEM)
genero (género textual)
morf (classificação morfológica na CD)
prem (posição relativa na EM),
abstraccao, acontecimento, coisa, local, obra, organizacao, pessoa, tempo, valor, variado (subcategoria de EM)

Dados quantitativos

Corpo CDHAREM	Número de formas	Número de tipos
Unidades	290001	31214
Total de palavras	225766	30985
Palavras em minúscula	165617	19241
Palavras com inicial maiúscula	32737	7956
Palavras todas em maiúsculas	1400	1046
Números	2887	564
Palavras com números	123	83
Palavras mistas	149	95
Pontuação	15197	229

Número de unidades estruturais

Atributo	Número
DOC	386
TEXTO	386
LOCAL	3494
ORGANIZACAO	2621
VALOR	1153
COISA	640
ACONTECIMENTO	501
OBRA	863
PESSOA	4014
TEMPO	1970
ABSTRACCAO	1195
VARIADO	54
OUTRO	110
p	7262
s	12530
ALT	533
EM	15908
mwe	3913

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	12178	22866
Locuções	3913	8318
Palavras gráficas	225766	225766
Palavras simples	194582	194582
Palavras	210673	225766

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	45363	23,31%
Verbos	V.*	30984	15,92%
Adjectivos	ADJ.*	12191	6,27%
Pronomes pessoais	.PERS.	5198	2,67%
Preposições	PRP.*	35007	17,99%
Conjunções	K.*	10098	5,19%
Advérbios	ADV.*	13231	6,80%
Determinantes	.DET.	38627	19,85%
Especificadores	.SPEC.	3841	1,97%
Numerais	NUM.*	4667	2,40%

^{^}Voltar ao início da página

Corpo CETEMPúblico

O CETEMPúblico contém cerca de 190 milhões de palavras extraídas do diário PÚBLICO. Veja-se a página oficial do CETEMPúblico para mais informação.

Corpus CETEMPúblico anotado: versão 2.0 do texto, criada a 12 de dezembro de 2023, anotada a 14 de outubro de 2025, v. 12.6

Estamos gratos ao Público pela gentil disponibilização dos textos.
Estamos especialmente gratos a José Vitor Malheiros, director da versão electrónica, sem o qual este corpo não existiria, e a Paulo Almeida pelo apoio técnico com os ficheiros electrónicos.
Também agradecemos a Telmo Móia a ajuda prestimosa no teste das primeiras versões do CETEMPúblico 2.0.

Estrutura do corpo

Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase], t [título ou subtítulo], a [identificação do autor], li [elemento de lista], marca.

Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.

semestre tamanho clt clt-soc com des eco nd opi pol soc
91a 7886603 693593 196902 0 938994 554479 3085214 0 1071780 1345641
91b 15192753 1340824 231836 0 1528983 1011469 6131340 0 2301046 2647255
92a 16348268 2673242 571960 0 1629301 1630444 2235740 0 4184456 3423125
92b 12261285 2361819 467620 0 1398860 1393465 545759 0 2895024 3198738
93a 16248024 3376560 956726 0 1594643 1797613 639411 0 3643634 4239437
93b 12954943 2402469 623377 0 1352091 1351559 1151885 0 2735006 3338556
94a 16419555 3227022 932628 0 1622060 1695546 1573158 0 3528260 3840881
94b 15863004 2956393 928838 0 1723261 1687719 1853105 0 3111101 3602587
95a 17771895 2955082 1160531 0 1951429 1730870 2051920 0 3299135 4622928
95b 16710434 2367651 1002660 0 1722706 1521040 2200797 0 3477658 4417922
96a 12726373 1735699 0 13923 1528570 1032941 1288862 665855 2274510 4186013
96b 12428452 1713465 0 0 1651662 846772 1327352 666120 2032749 4190332
97a 10565482 1450540 0 18463 1414919 721358 986619 666125 1745266 3562192
97b 10614785 1447537 0 263668 1321656 701988 1002743 607359 1935869 3333965
98a 13778651 1553186 0 413544 1631575 850610 1872977 690043 2110806 4655910
98b 9554076 1112954 0 290884 1116165 607395 916162 462371 1755329 3292816
Todos 33368036 7073078 1000482 24126875 19135268 28863044 3757873 42101629 57898298

Dados quantitativos

Corpo CETEMPUBLICO	Número de formas	Número de tipos
Unidades	238291013	982265
Total de palavras	195395130	981150
Palavras em minúscula	143674395	272747
Palavras com inicial maiúscula	23531304	308954
Palavras todas em maiúsculas	1433948	32497
Números	2010391	37892
Palavras com números	237589	14374
Palavras mistas	131514	40282
Pontuação	11670895	8

Número de unidades estruturais

Atributo	Número
p	2567953
s	7017148
ext	1500637
t	630938
a	228842
mwe	3480754
marca	3808

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	10406438	18410164
Locuções	3480754	7404351
Palavras gráficas	195395130	195395130
Palavras simples	169580615	169580615
Palavras	183467807	195395130

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	39239008	23,14%
Verbos	V.*	24576965	14,49%
Adjectivos	ADJ.*	11530598	6,80%
Pronomes pessoais	.PERS.	2870052	1,69%
Preposições	PRP.*	34202076	20,17%
Conjunções	K.*	7658033	4,52%
Advérbios	ADV.*	9205102	5,43%
Determinantes	.DET.	34835467	20,54%
Especificadores	.SPEC.	3441927	2,03%
Numerais	NUM.*	4169210	2,46%

^{^}Voltar ao início da página

Corpo CHAVE

O corpus CHAVE contém textos jornalísticos dos jornais Público e Folha de São Paulo dos anos de 1994 e 1995. Este corpus foi criado no âmbito da participação da língua portuguesa no CLEF. Para citar a colecção CHAVE, use Santos & Rocha (2005) ou uma descrição geral do CLEF em Rocha & Santos (2007). Pode obter o corpus completo em formato texto requerendo-o nesta página.

Corpus CHAVE, criado a 11 de outubro de 2025, v. 11.4

Agradecemos ao PÚBLICO e à Folha de São Paulo a gentil autorização de disponibilização dos textos.

Estrutura do corpo

Marcadores estruturais: DOC [documento], s [frase], CATEGORY (secção do jornal), AUTHOR (autor do texto), NE (lista de nomes próprios contidos no documento, usando a anotação do PALAVRAS).

Dados quantitativos

Corpo CHAVE	Número de formas	Número de tipos
Unidades	127436563	738517
Total de palavras	101444276	737712
Palavras em minúscula	73920857	231148
Palavras com inicial maiúscula	12748110	232601
Palavras todas em maiúsculas	867569	27557
Números	1266355	30957
Palavras com números	104104	9357
Palavras mistas	158258	20098
Pontuação	6260957	8

Número de unidades estruturais

Atributo	Número
s	4761904
t	579101
p	2272725
mwe	1683156
data	210731
DOC	210731
CATEGORY	210731
EM	210731

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	5486408	9581481
Locuções	1683156	3582911
Palavras gráficas	101444276	101444276
Palavras simples	88279884	88279884
Palavras	95449448	101444276

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	20987358	23,77%
Verbos	V.*	12975408	14,70%
Adjectivos	ADJ.*	5918821	6,70%
Pronomes pessoais	.PERS.	1485389	1,68%
Preposições	PRP.*	17415803	19,73%
Conjunções	K.*	3969413	4,50%
Advérbios	ADV.*	4563588	5,17%
Determinantes	.DET.	17736622	20,09%
Especificadores	.SPEC.	1688367	1,91%
Numerais	NUM.*	2306139	2,61%

^{^}Voltar ao início da página

Corpo Ciência Viva

O corpo Ciência Viva é constituído por notícias de jornal promovidas pela plataforma "Ciência na Imprensa Regional". Esta é uma iniciativa da Ciência Viva - Agência Nacional para a Cultura Científica e Tecnológica, lançada em 2011, com o objetivo de estimular a comunicação de ciência na imprensa regional em Portugal.

A plataforma "Ciência na Imprensa Regional", http://imprensaregional.cienciaviva.pt, é um sistema digital de edição e distribuição de conteúdos de divulgação científica da autoria de cientistas e profissionais de comunicação de ciência. Após edição e catalogação os conteúdos ficam disponíveis para publicação por todos os órgãos de comunicação social, locais e regionais.

Corpo CIENCIAVIVA, criado a 6 de julho de 2024, v. 4.1

Agradecemos a Carlos Catalão Alves, da Direção da Ciência Viva, esta colaboração.

Estrutura do corpo

O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

Dados quantitativos

Corpo CIENCIAVIVA	Número de formas	Número de tipos
Unidades	805307	42344
Total de palavras	663487	41893
Palavras em minúscula	500181	26504
Palavras com inicial maiúscula	76388	9353
Palavras todas em maiúsculas	4647	930
Números	7728	755
Palavras com números	1117	512
Palavras mistas	447	261
Pontuação	34419	424

Número de unidades estruturais

Atributo	Número
p	12483
s	27266
texto	1124
t	1124
mwe	11489

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	29688	58741
Locuções	11489	24319
Palavras gráficas	663487	663487
Palavras simples	580427	580427
Palavras	621604	663487

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	146325	25,21%
Verbos	V.*	80112	13,80%
Adjectivos	ADJ.*	47858	8,25%
Pronomes pessoais	.PERS.	8228	1,42%
Preposições	PRP.*	116126	20,01%
Conjunções	K.*	27185	4,68%
Advérbios	ADV.*	28725	4,95%
Determinantes	.DET.	118495	20,42%
Especificadores	.SPEC.	11498	1,98%
Numerais	NUM.*	12148	2,09%

^{^}Voltar ao início da página

Corpo Colonia

O Colonia é um corpo eletrônico anotado compilado para pesquisa sobre a história da língua portuguesa, com textos escritos entre 1500 e 1936, desenvolvido por Marcos Zampieri na Universidade de Colónia (Köln). Veja-se https://mzampieri.com/resources.html para mais informações. (Nota: À versão do AC/DC faltam ainda cinco textos.)

Corpo COLONIA, criado a 4 de janeiro de 2026, v. 12.0

Agradecemos a todos os que tornarem este projeto viável, por terem digitalizado e tornado públicas obras de autores brasileiros.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o identificador original do projeto Colonia), tituloobra (o nome da obra), autor (o autor da obra) e dataobra. Também se encontram marcados, nas obras em que são relevantes, partes como parte, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), data, variante e seculo, contendo o século em que a obra foi publicada.

Dados quantitativos

Corpo COLONIA	Número de formas	Número de tipos
Unidades	6658516	174452
Total de palavras	4981875	174438
Palavras em minúscula	3868824	110685
Palavras com inicial maiúscula	457546	29340
Palavras todas em maiúsculas	16317	3435
Números	6785	1050
Palavras com números	66	48
Palavras mistas	2224	909
Pontuação	375492	8

Número de unidades estruturais

Atributo	Número
p	279202
s	279202
obra	92
texto	92
parte	1727
mwe	82042
lixo	14

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	144538	203003
Locuções	82042	177003
Palavras gráficas	4981875	4981875
Palavras simples	4601869	4601869
Palavras	4828449	4981875

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	932482	20,26%
Verbos	V.*	829117	18,02%
Adjectivos	ADJ.*	274092	5,96%
Pronomes pessoais	.PERS.	241347	5,24%
Preposições	PRP.*	700416	15,22%
Conjunções	K.*	285193	6,20%
Advérbios	ADV.*	328282	7,13%
Determinantes	.DET.	844421	18,35%
Especificadores	.SPEC.	125625	2,73%
Numerais	NUM.*	38591	0,84%

^{^}Voltar ao início da página

Corpo CONDIVport

O corpus CONDIVport é o subcorpus de textos dos domínios do futebol, do vestuário/moda e da saúde das décadas de 50, 70 e 2000 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

Este subcorpus contém 3981 extractos de textos de jornais desportivos portugueses e brasileiros, das décadas de 1950, 1970 e 2000; 4372 textos (agrupados em 82 extractos, ou seja, provenientes de 82 edições) de revistas de moda portuguesas e brasileiras, das décadas de 1950, 1970, e 1990-2000, assim como 1815 textos de revistas e jornais de saúde nos mesmos períodos.

Corpus CONDIV, versão texto (futebol) de 15 de Fevereiro de 2006, versão texto (moda) de 18 de Dezembro de 2008, versão texto (saúde) de 2 de Fevereiro de 2010, anotado a 13 de julho de 2024, v. 13.2

Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.

Estrutura do corpo

O corpo está dividido em extractos, assinalados pelo atributo ext; cada extracto está dividido em parágrafos (atributo p) e frases (atributo s). Nos casos da moda e da saúde, os extractos estão ainda subdivididos em textos, que correspondem a notícias completas. Além disso, o CONDIVport contém os atributos posicionais decada (valores: 50, 70, 2000), variante (valores: PT, BR), texto (valores:t1 a tN) e fonte.

Valores de fonte para os jornais desportivos: Bola, Record, MundoDesp, OJogo, JSports, OEestadoSP, GazetaEsp, Lance.
Valores de fonte para a moda/vestuário: Activa, Caras Especial Moda, Cosmopolitan, Crónica Feminina, Elle, Eva, Flama, GQ, Máxima, Maxmen, Men's Health, Modas e Bordados, Técnicas de Alfaiataria, Vestir e Vogue (PT) e Boa Forma, Burda, Cigarra, Cláudia, Cruzeiro, Desfile, Estilo, Figurino, Manchete, Manequim, Marie Claire, Máxima, Moda e Moldes e Vogue (BR).
Valores de fonte para a saúde: Boletins, Eva, Maria, Medicina Saúde, Modas e Bordados, Natura, Saúde e Bem-Estar, Saúde Lar e Século Ilustrado (PT), e Revista Brasileira, Revistas Populares e Revistas Saúde (BR).

Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

Tamanho Futebol Moda/vestuário Saúde
PT 3372912 1703420 325407 1344085
BR 2655074 1371780 801349 481945
Todos 3075200 1126761 1826030

Dados quantitativos

Corpo CONDIV	Número de formas	Número de tipos
Unidades	7200795	157513
Total de palavras	5627261	155195
Palavras em minúscula	4188841	81356
Palavras com inicial maiúscula	592017	36123
Palavras todas em maiúsculas	75781	11033
Números	72362	1699
Palavras com números	2740	812
Palavras mistas	4695	1379
Pontuação	400785	2063

Número de unidades estruturais

Atributo	Número
ext	4081
texto	6222
p	148516
s	301068
mwe	96183

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	240456	346925
Locuções	96183	204145
Palavras gráficas	5627261	5627261
Palavras simples	5076191	5076191
Palavras	5412830	5627261

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	1217241	23,98%
Verbos	V.*	759629	14,96%
Adjectivos	ADJ.*	389317	7,67%
Pronomes pessoais	.PERS.	99745	1,96%
Preposições	PRP.*	904357	17,82%
Conjunções	K.*	255199	5,03%
Advérbios	ADV.*	298592	5,88%
Determinantes	.DET.	963865	18,99%
Especificadores	.SPEC.	95428	1,88%
Numerais	NUM.*	132709	2,61%

^{^}Voltar ao início da página

Corpo CONDIVport2

O corpus CONDIVport2 é o subcorpus de textos dos domínios da política e da sociedade da década de 2010 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

Este subcorpus contém por agora 66150 unidades do Jornal do Brasil (brasileiro) e 57542 do Diário de Notícias (português), perfazendo 344 textos.

Corpus CONDIV2, versão texto de 15 de maio de 2017, anotado a 6 de julho de 2024, v. 4.1

Estrutura do corpo

O corpo está dividido em textos, assinalados pelo atributo texto; cada texto está dividido em parágrafos (atributo p) e frases (atributo s). Além disso, o CONDIVport2 contém os atributos posicionais variante (valores: PT, BR), id (valores: 1 a tN), tema, e fonte.

Valores de fonte possíveis: JB, DN.

Tamanho Futebol Moda/vestuário Saúde
PT 3333411 1679290 316853 1337268
BR 2649379 1367115 801410 480854
Todos 3046405 1118273 1818122

Dados quantitativos

Corpo CONDIV2	Número de formas	Número de tipos
Unidades	212075	20151
Total de palavras	175277	19973
Palavras em minúscula	127975	13458
Palavras com inicial maiúscula	23171	4601
Palavras todas em maiúsculas	1338	376
Números	2236	349
Palavras com números	186	90
Palavras mistas	374	52
Pontuação	9584	177

Número de unidades estruturais

Atributo	Número
texto	520
p	3928
s	6533
mwe	2618

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	10108	18814
Locuções	2618	5488
Palavras gráficas	175277	175277
Palavras simples	150975	150975
Palavras	163701	175277

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	38020	25,18%
Verbos	V.*	22211	14,71%
Adjectivos	ADJ.*	9163	6,07%
Pronomes pessoais	.PERS.	1828	1,21%
Preposições	PRP.*	31560	20,90%
Conjunções	K.*	6970	4,62%
Advérbios	ADV.*	6347	4,20%
Determinantes	.DET.	30849	20,43%
Especificadores	.SPEC.	2775	1,84%
Numerais	NUM.*	4029	2,67%

^{^}Voltar ao início da página

Corpo CoNE

O corpus CoNE (Correio Não Endereçado) é um corpus de mensagens não-endereçadas em português.

O corpus foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 24 de Janeiro de 2006.

Versão do corpus de 15 de janeiro de 2006, anotado a 6 de julho de 2024, v. 8.1

Estrutura do corpo

O corpus está dividido em mensagens, marcadas pelo atributo mens, com informação da data . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

Dados quantitativos

Corpo CONE	Número de formas	Número de tipos
Unidades	921366	46688
Total de palavras	681377	43118
Palavras em minúscula	398042	18508
Palavras com inicial maiúscula	132594	12165
Palavras todas em maiúsculas	39796	5623
Números	14676	787
Palavras com números	2742	590
Palavras mistas	3726	841
Pontuação	59602	3147

Número de unidades estruturais

Atributo	Número
p	19366
s	31559
mwe	7085
autor	1709
mens	1904
assunto	1858
div	0
li	24119
t	0
cita	0

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	54658	102907
Locuções	7085	15084
Palavras gráficas	681377	681377
Palavras simples	563386	563386
Palavras	625129	681377

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	161584	28,68%
Verbos	V.*	70435	12,50%
Adjectivos	ADJ.*	42372	7,52%
Pronomes pessoais	.PERS.	8881	1,58%
Preposições	PRP.*	100940	17,92%
Conjunções	K.*	29713	5,27%
Advérbios	ADV.*	23286	4,13%
Determinantes	.DET.	86013	15,27%
Especificadores	.SPEC.	6061	1,08%
Numerais	NUM.*	25060	4,45%

^{^}Voltar ao início da página

Corpo C-Oral-Brasil

O corpo C-ORAL-BRASIL foi criado pelo projeto C-Oral-Brasil, que "se dedica ao estudo da fala espontânea do português brasileiro, através da compilação de um corpus de textos orais produzidos em contexto natural".

O corpo foi criado simplesmente passando o material distribuído no CD-ROM em formato texto (extensão .txt) pelo conjunto de programas de processamento e anotação sintática e semântica do AC/DC.

As hesitações e repetições foram (por enquanto) removidas, e as pausas longas foram convertidas em ponto de fim de frase, e as pausas curtas em vírgula. Para tornar o texto mais parecido com as convenções gráficas do português escrito, a primeira letra de cada frase foi passada para maiúscula.

Corpus CoralBrasil, anotado em 7 de julho de 2023, v. 7.1

Estamos gratos a Heliana Mello e Tommaso Raso pela autorização de disponibilização do corpo através do AC/DC, e a toda a equipa do C-ORAL-BRASIL pela compilação do corpo.

Estrutura do corpo

O corpo está dividido em arquivos, marcados pelo atributo fich, contendo por sua vez falas, marcadas pelo atributo fala, com informação do nome ou identificação do falante . Além disso, sempre que começa um novo interveniente, está marcado através do atributo estrutural personagem. O corpo está além disso dividido em frases, s, obtidas através das pausas fornecidas pelos compiladores do C-ORAL-BRASIL.

Dados quantitativos

Corpo CORALBRASIL	Número de formas	Número de tipos
Unidades	439519	14583
Total de palavras	267102	14433
Palavras em minúscula	167864	10314
Palavras com inicial maiúscula	30826	3250
Palavras todas em maiúsculas	19464	298
Números	1284	99
Palavras com números
Palavras mistas	157	42
Pontuação	29553	10

Número de unidades estruturais

Atributo	Número
p	0
s	30626
fala	19398
personagem	19395
mwe	2915

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	21239	22484
Locuções	2915	6153
Palavras gráficas	267102	267102
Palavras simples	238465	238465
Palavras	262619	267102

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	34954	14,66%
Verbos	V.*	47972	20,12%
Adjectivos	ADJ.*	9599	4,03%
Pronomes pessoais	.PERS.	13804	5,79%
Preposições	PRP.*	18876	7,92%
Conjunções	K.*	17087	7,17%
Advérbios	ADV.*	25257	10,59%
Determinantes	.DET.	26080	10,94%
Especificadores	.SPEC.	5906	2,48%
Numerais	NUM.*	4197	1,76%

^{^}Voltar ao início da página

Corpo CORDIAL-SIN

O Corpus Dialetal para o Estudo da Sintaxe/Syntax-oriented Corpus of Portuguese Dialects (CORDIAL-SIN) é um corpus anotado (POS-tags e treebank) representativo dos dialetos do português europeu (continentais e insulares). É constituído por transcrições (600.000 palavras) de discurso oral (livre e semidirigido) extraído de gravações do Arquivo Sonoro do Grupo de Dialetologia e Diacronia do Centro de Linguística da Universidade de Lisboa (CLUL), obtidas em 42 pontos do território continental e arquipélagos dos Açores e Madeira. O corpus foi construído no âmbito de projetos financiados pela FCT e deve ser referido como Martins, Ana Maria (coord.). [2000- ]. CORDIAL-SIN: Corpus Dialectal para o Estudo da Sintaxe / Syntax-oriented Corpus of Portuguese Dialects. CC licensed: CORDIAL-SIN by Centro de Linguística da Universidade de Lisboa. ISLRN: 144-935-399-699-8. URL: http://clul.ulisboa.pt/recurso/cordial-sin-syntax-oriented-corpus-portuguese-dialects.

Mais informação sobre o corpus em: http://www.clul.ulisboa.pt/recurso/cordial-sin-syntax-oriented-corpus-portuguese-dialects

E acesso ao CORDIAL-SIN-TreeBank (ISLRN: 337-389-991-117-2) em: acesso

No AC/DC por enquanto apenas usamos o texto editado, mas é possível que incluamos a anotação numa segunda fase.

Corpo CORDIAL-SIN, versão texto de janeiro de 2021, anotado a 6 de julho de 2024, v. 3.1

Agradecemos calorosamente a Ana Maria Martins a pronta autorização para disponibilização do CORDIAL-SIN.

Estrutura do corpo

O corpo contém as etiquetas entrevista (documento), fala (fala de um interlocutor), personagem (identificação do interlocutor), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que excerto cada palavra pertence (ver lista das fontes).

Aqui listamos os metadados associados a cada fonte (excerto de entrevista) do CORDIAL-SIN: Metadados CORDIAL-SIN

E aqui a informação genérica relacionada com os informantes: Informantes CORDIAL-SIN

Dados quantitativos

Corpo CORDIAL-SIN	Número de formas	Número de tipos
Unidades	1494736	29803
Total de palavras	857066	29657
Palavras em minúscula	612848	19565
Palavras com inicial maiúscula	102455	4952
Palavras todas em maiúsculas	19659	20
Números	131	53
Palavras com números	29371	10
Palavras mistas	676	422
Pontuação	111902	145

Número de unidades estruturais

Atributo	Número
p	48938
s	98009
entrevista	2058
fala	48938
personagem	48938
mwe	15919

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	56117	58541
Locuções	15919	32775
Palavras gráficas	857066	857066
Palavras simples	765750	765750
Palavras	837786	857066

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	130789	17,08%
Verbos	V.*	164704	21,51%
Adjectivos	ADJ.*	18896	2,47%
Pronomes pessoais	.PERS.	39554	5,17%
Preposições	PRP.*	83875	10,95%
Conjunções	K.*	50799	6,63%
Advérbios	ADV.*	110669	14,45%
Determinantes	.DET.	121330	15,84%
Especificadores	.SPEC.	27798	3,63%
Numerais	NUM.*	9717	1,27%

^{^}Voltar ao início da página

Corpo CorpiRef

O CorpiRef é um corpo experimental para procurar personagens e as suas ações, usando -- por enquanto -- um processo manual de coreferência e anotação de sujeitos nulos. É um subconjunto do OBras, com as seguintes obras: Canaã, O Cortiço e Úrsula.

A principal diferença em relação ao OBras e/ou aos outros corpos literários é a existência de mais dois atributos posicionais, nomeadamente corref, que indica que aquela posição é correferente com uma personagem, ou que corresponde ao sujeito nulo de uma dada personagem, e argumento, que explicita a função sintática em que aquela palavra se encontra em relação a outras palavras, e que é meramente a explicitação da função sintática atribuída pelo PALAVRAS (por exemplo, "Milkau SUBJ> cavalgar").

Corpo CorpiRef, criado a 14 de outubro de 2025, versão 1.0

Este projeto foi originado por uma tese de mestrado na Universidade Estadual do Maranhão (UEMA).

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra, (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, título ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título], s [frase], e poesia [partes em poesia].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Dados quantitativos

Corpo TYCHO	Número de formas	Número de tipos
Unidades	4226459	149140
Total de palavras	3343966	149117
Palavras em minúscula	2572954	95338
Palavras com inicial maiúscula	359265	28104
Palavras todas em maiúsculas	14788	2069
Números	19044	1442
Palavras com números	800	239
Palavras mistas	4198	1692
Pontuação	175943	8

Número de unidades estruturais

Atributo	Número
s	133393
p	133394
obra	76
t	1918
autor	76
tituloobra	76
data	514
variante	76
genero	76
grafia	76
div	2227
assinatura	1146
saudacao	441
mwe	49812
personagem	21725
fala	17305

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	130749	220329
Locuções	49812	105404
Palavras gráficas	3343966	3343966
Palavras simples	3018233	3018233
Palavras	3198794	3343966

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	595243	19,72%
Verbos	V.*	529681	17,55%
Adjectivos	ADJ.*	156050	5,17%
Pronomes pessoais	.PERS.	158751	5,26%
Preposições	PRP.*	463932	15,37%
Conjunções	K.*	220026	7,29%
Advérbios	ADV.*	197849	6,56%
Determinantes	.DET.	529727	17,55%
Especificadores	.SPEC.	98444	3,26%
Numerais	NUM.*	43075	1,43%

^{^}Voltar ao início da página

Corpo CorTrad, lado português

O corpo CorTrad (parte portuguesa) é um corpo paralelo multiversão português-inglês desenvolvido numa parceria COMET-Linguateca, ver CorTrad.

Mais informação sobre o corpo pode ser obtida em Tagnin et al. (2009), Teixeira et al. (2012), e Santos et al. (2012).

Corpo CorTrad-port, criado a 20 de junho de 2025, v. 2.1

Estrutura do corpo

O corpus tem informação de obra, autor, data, se é tradução ou original, nome dos tradutores, e classe [género: lit - literário, culin - culinária, culib - culinária brasileira, jorn - jornalístico]. Além disso está também dividido em s [frases].

Dados quantitativos

Corpo CORTRAD-PORT	Número de formas	Número de tipos
Unidades	1952456	69885
Total de palavras	1448966	69794
Palavras em minúscula	1108401	44050
Palavras com inicial maiúscula	139545	15778
Palavras todas em maiúsculas	10835	1335
Números	21920	1107
Palavras com números	342	132
Palavras mistas	1581	272
Pontuação	91913	8

Número de unidades estruturais

Atributo	Número
ua	76177
p	18253
s	76163
mwe	24215
texto	1163
receita	312
ModoDeFazer	778
ingred	7701
ListaIngred	883
Coment	250
Class	340
parte	3
t	3090
tempo	312
Foto	43
titulo	369
obra	6

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	85044	84813
Locuções	24215	51812
Palavras gráficas	1448966	1448966
Palavras simples	1312341	1312341
Palavras	1421600	1448966

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	321816	24,52%
Verbos	V.*	207637	15,82%
Adjectivos	ADJ.*	87328	6,65%
Pronomes pessoais	.PERS.	31350	2,39%
Preposições	PRP.*	238700	18,19%
Conjunções	K.*	66232	5,05%
Advérbios	ADV.*	69838	5,32%
Determinantes	.DET.	230132	17,54%
Especificadores	.SPEC.	25337	1,93%
Numerais	NUM.*	34062	2,60%

^{^}Voltar ao início da página

Corpo DHBB

O corpo Dicionários Históricos Brasileiros contém o material de três obras de referência concebidas pelo Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas (CPDOC/FGV): (1) o Dicionário histórico-biográfico da Primeira República (DHBPR), com dados sobre o período que vai da Proclamação da República, em 1889, até a Revolução de 1930; (2) o Dicionário Histórico-Biográfico Brasileiro (DHBB), sobre o período pós-1930 até os dias atuais; e (3) o Dicionário da política republicana do Rio de Janeiro (DPRRJ), sobre a história do estado e da cidade do Rio de Janeiro desde a Proclamação da República. Para saber mais, consulte a página sobre este corpo no AC/DC.

Os três dicionários histórico-biográficos foram concebidos em sua origem com o propósito básico de prover aos estudiosos e demais interessados na história do Brasil, informações sistematizadas sobre personagens e temas considerados relevantes do período e contexto ao qual se referem. Cada um deles é constituído por uma seleção de verbetes cuja produção e curadoria é de responsabilidade do Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas.

No plano biográfico encontramos os ocupantes dos mais relevantes cargos políticos e de repercussão política, assim como participantes de episódios marcantes - presidentes da República, vice-presidentes, governadores, ministros de Estado, senadores, deputados, comandantes das forças armadas, embaixadores, presidentes das mais importantes federações, confederações de empregados e empregadores, jornalistas mais destacados, religiosos e presidentes de partidos políticos. No plano temático, encontramos os partidos políticos e as organizações e movimentos políticos, os principais acontecimentos histórico-políticos, as constituintes, constituições, alguns destacados decretos, leis e códigos; correntes e conceitos básicos da história política; as instituições econômicas e administrativas de maior repercussão no cenário nacional; as mais importantes organizações de trabalhadores e empresários; os jornais e revistas de impacto nacional, principais emissoras de rádio e televisão.

Apenas o Dicionário Histórico-Biográfico Brasileiro (DHBB) encontra-se aberto e integralmente disponível para consulta no portal do CPDOC (https://cpdoc.fgv.br/acervo/dhbb). Os demais podem ser obtidos através da editora da FGV (https://editora.fgv.br/).

Incorporada à Linguateca em 2018/2019, o objetivo é que a coleção possa ser interrogada através da linguagem CQP (Corpus Query Processor) e disponibilizada para treino, teste ou validação de sistemas que trabalham com processamento de linguagem natural, nas mais variadas formas. Trata-se portanto de um trabalho em progresso, que esperamos ajude a aprimorar as ferramentas criadas pela comunidade.

Corpo DHBB, criado a 5 de julho de 2024, v. 10.1

Agradecemos à Fundação Getulio Vargas a autorização para a disponibilização do recurso.

Estrutura do corpo

O corpus contém as etiquetas texto (documento), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que verbete cada palavra pertence (ver lista dos verbetes), enquanto o atributo posicional entidade indica, para cada nome próprio, qual a sua correspondência real, tomando como "verdade" a mesma lista. Quando ainda não foi identificado, é marcado como "NS". Se se sabe que não está no DHBB por, por exemplo, não ser político, é marcado como "NV" (não verbetado).

O atributo posicional cargos tem a lista dos cargos associados a cada verbetado, com a indicação de cargo, estado pelo qual exerceu o cargo, e período temporal.

O atributo posicional sexo contém m se o biografado for masculino, f se for feminino, e N/A (não aplicável) se o verbete for temático.

Prevemos para breve uma classificação mais fina dos textos, com informação de datas de nascimento, assim como alguma limpeza do material.

Distribuição por tipo de texto

Dados quantitativos

Corpo DHBB	Número de formas	Número de tipos
Unidades	16096075	127921
Total de palavras	14177792	122549
Palavras em minúscula	9402985	54766
Palavras com inicial maiúscula	2456981	40736
Palavras todas em maiúsculas	169169	4424
Números	384529	1307
Palavras com números	762	387
Palavras mistas	11952	1292
Pontuação	635594	5324

Número de unidades estruturais

Atributo	Número
p	12045
s	461807
texto	12045
t	0
mwe	154908

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	1041497	2397079
Locuções	154908	335345
Palavras gráficas	14177792	14177792
Palavras simples	11445368	11445368
Palavras	12641773	14177792

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	2804542	24,50%
Verbos	V.*	1394145	12,18%
Adjectivos	ADJ.*	725329	6,34%
Pronomes pessoais	.PERS.	152510	1,33%
Preposições	PRP.*	2956600	25,83%
Conjunções	K.*	400706	3,50%
Advérbios	ADV.*	328829	2,87%
Determinantes	.DET.	2307318	20,16%
Especificadores	.SPEC.	149610	1,31%
Numerais	NUM.*	459882	4,02%

^{^}Voltar ao início da página

Corpo DiaCLAV

O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line. Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contêm textos semelhantes, embora não haja casos de artigos exactamente iguais.

Corpus DIACLAV, versão texto criada em Abril de 2002, anotado a 4 de outubro de 2025, v. 8.3

Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.

Estrutura do corpo

O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

Dados quantitativos

Corpo DIACLAV	Número de formas	Número de tipos
Unidades	7849857	111619
Total de palavras	6710948	111597
Palavras em minúscula	4910135	58832
Palavras com inicial maiúscula	836995	28739
Palavras todas em maiúsculas	46319	3466
Números	60282	2176
Palavras com números	6895	1112
Palavras mistas	2128	846
Pontuação	366453	8

Número de unidades estruturais

Atributo	Número
p	24439
s	210373
art	12802
t	12393
a	4492
mwe	119712

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	350873	692540
Locuções	119712	253418
Palavras gráficas	6710948	6710948
Palavras simples	5764990	5764990
Palavras	6235575	6710948

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	1347083	23,37%
Verbos	V.*	864913	15,00%
Adjectivos	ADJ.*	351121	6,09%
Pronomes pessoais	.PERS.	82728	1,44%
Preposições	PRP.*	1166875	20,24%
Conjunções	K.*	269998	4,68%
Advérbios	ADV.*	308638	5,35%
Determinantes	.DET.	1180965	20,49%
Especificadores	.SPEC.	119021	2,06%
Numerais	NUM.*	128532	2,23%

^{^}Voltar ao início da página

Corpo Diáspora TL-PT

O corpo Diáspora TL-PT (Diáspora Timor Leste - Portugal) é um corpo de 12 entrevistas semi-guiadas a membros da comunidade timorense em Portugal, perfazendo seis horas de gravação, compiladas e transcritas no âmbito do projeto Patterns of multilingualism among different generations of the East-Timorese diasporic community in Portugal liderado por Susana Afonso e Francesco Goglia da Universidade de Exeter, no Reino Unido, e financiado pela British Academy (Small Grant SG100616). Para mais informação veja-se Afonso & Goglia (2012).

O corpo Diáspora TL-PT é composto por 12 ficheiros correspondendo cada um a uma entrevista.

Os entrevistados, membros da comunidade timorense em Portugal, têm diferentes idades e foram escolhidos para, tanto quanto possível, representarem as diferentes vagas de migração para Portugal

Como citar o corpo Diáspora TL-PT:

Goglia, Francesco e Afonso, Susana. 2012. "Multilingualism and Language Maintenance in the East Timorese Diaspora in Portugal". Ellipsis (Journal of the American Portuguese Studies Association), 10: 97-123.
Afonso, Susana e Goglia, Francesco. no prelo. "Linguistic innovations in the immigration context as initial stages of a partially restructured variety: evidence from SE constructions in the Portuguese of the East-Timorese diaspora in Portugal". Studies in Hispanic and Lusophone Linguistics.

Corpus Diáspora TL - PT, anotado em outubro de 2013, criado a 6 de julho de 2024, v. 5.1

Susana Afonso e Francesco Goglia agradecem a João Barros e Hercus Pereira pela recolha dos dados e a todos os que aceitaram participar no projecto.

Estrutura do corpo

Marcadores posicionais: ent Marcadores estruturais: entrevista, pergunta, resposta, p [parágrafo], s [frase].

Dados quantitativos

Corpo DIASPORA	Número de formas	Número de tipos
Unidades	27409	3069
Total de palavras	21908	3047
Palavras em minúscula	16491	2337
Palavras com inicial maiúscula	2314	528
Palavras todas em maiúsculas	32	16
Números	135	55
Palavras com números
Palavras mistas	3	3
Pontuação	1875	19

Número de unidades estruturais

Atributo	Número
pergunta	245
s	1035
v	0
resposta	213
entrevista	5
mwe	304

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	650	846
Locuções	304	661
Palavras gráficas	21908	21908
Palavras simples	20401	20401
Palavras	21355	21908

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	3442	16,87%
Verbos	V.*	3807	18,66%
Adjectivos	ADJ.*	765	3,75%
Pronomes pessoais	.PERS.	786	3,85%
Preposições	PRP.*	2889	14,16%
Conjunções	K.*	1295	6,35%
Advérbios	ADV.*	2375	11,64%
Determinantes	.DET.	3027	14,84%
Especificadores	.SPEC.	546	2,68%
Numerais	NUM.*	279	1,37%

^{^}Voltar ao início da página

Corpo DisPR

O corpo DisPR é um corpo de discursos de Presidentes da República (portugueses e brasileiros) que contém o corpo PRAbril, o corpo PRPosse, e os discursos inaugurais do BrPoliCorpus. O PRAbril, criado por um grupo de investigadores do Centro de Estudos Humanísticos da Universidade do Minho (CEHUM) e do Centro de Linguística da Universidade do Porto (CLUP), reúne os discursos dos presidentes da República (portuguesa) nas comemorações do 25 de Abril desde 1977 até 2024. O corpo PRPosse, criado pela investigadora do CEHUM Micaela Aguiar, no âmbito da sua dissertação de doutoramento (SFRH/BD/117408/2016), reúne os discursos de tomada de posse dos presidentes nos cem anos da República Portuguesa (1911-2011), e vem sendo atualizado até à data presente. O BrPoliCorpus, criado por Rodrigo Esteves de Lima-Lopes, contém os discursos inaugurais de todos os presidentes brasileiros, de Deodoro da Fonseca em 1889 a Lula em 2023.

A recolha do material do PRABril foi iniciada no âmbito de um projeto intitulado O discurso do Presidente. 100 anos de discursos presidenciais em Portugal, tendo sido depois segmentado e concluído para a publicação do livro Vozes que moldam Abril - Os discursos presidenciais na celebração da revolução , publicado no âmbito dos 50 anos do 25 de Abril.

A equipa de investigação é constituída pelos seguintes elementos:

Maria Aldina Marques (UMinho, CEHUM)
Rui Ramos (UMinho, CEHUM)
Isabel Margarida Duarte (FLUP, CLUP)
Isabel Roboredo Seara (UA, CEHUM, CLUNL)
Alexandra Guedes Pinto (FLUP, CLUP)
Rosalice Pinto (FCSHUNL, IFILNOVA, CEDIS)

Mais informação sobre a constituição do PRAbril encontra-se aqui. Também podem ser consultados os metadados do PRAbril.

Quanto ao PRPosse, foi compilado no âmbito da tese de doutoramento Imagens presidenciais nos discursos de tomada de posse nos cem anos da República Portuguesa de Micaela Aguiar (PRPosse 1.0). Em 17 de dezembro de 2024, foi lançado o PRPosse 2.0, incluindo os discursos de tomada de posse de Marcelo Rebelo de Sousa de 2016 e de 2021.

Mais informação sobre a constituição do PRPosse encontra-se aqui. Também podem ser consultados os metadados do PRPosse.

O corpo BrPoliCorpus encontra-se acessível de https://github.com/rll307/BrPoliCorpus, juntamente com um pacote R para o manipular. O manual deve ser citado como

Lima-Lopes, Rodrigo Esteves de. (2024). BrPoliCorpus: Brazilian political corpus V 1.0 [Manual]. https://github.com/rll307/BrPoliCorpus.git

Alguns metadados referentes aos discursos inaugurais contidos no presente corpo, DisPR, encontram-se em metadados dos discursos inaugurais do BrPoliCorpus.

O corpo completo em formato texto, com a anotação estrutural (secções, parágrafos, etc.) pode ser obtido aqui: DisPR3.0.txt.

Corpus DisPR, criado em 17 de dezembro de 2024, v. 3.0

A equipa que criou o PRAbril agradece a Maria Aldina Marques a coordenação do projeto, assim como agradece à Linguateca a colaboração e disponibilidade para acolher e tratar o corpo.

O criador do BrPoliCorpus expressa seus agradecimentos a Fundação Alexandre von Humboldt, Capes e CNPq, que financiaram a iniciativa por meio de projetos de pesquisa individuais. The author of BrPoliCorpus expresses his gratitude to the Alexander von Humboldt Foundation, Capes, and CNPq, which funded the initiative through individual research projects.

A Linguateca agradece aos membros das três equipas a autorização para disponibilizar os três corpos.

Estrutura do corpo

O corpus está dividido em discursos, marcados pelo atributo estrutural texto. Cada texto está dividido em parágrafos p e frases s. O atributo posicional corpo indica se o discurso vem do corpo PRAbril ou PRPosse. O atributo autor contém o nome do presidente, e o atributo ano o ano em que o discurso foi proferido (e redigido). Finalmente, o atributo id marca o identificador do discurso, um número inteiro (de 1 a 47 para o PRAbril, de 48 a 76 para o PRPosse, de 77 a 111 para o BrPoliCorpus).

Dados quantitativos

Corpo DISPR	Número de formas	Número de tipos
Unidades	330043	20901
Total de palavras	275592	20834
Palavras em minúscula	225897	16961
Palavras com inicial maiúscula	21015	2193
Palavras todas em maiúsculas	837	94
Números	1122	183
Palavras com números	49	7
Palavras mistas	34	21
Pontuação	12848	67

Número de unidades estruturais

Atributo	Número
p	5797
s	10647
texto	111
mwe	4220

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	5326	10053
Locuções	4220	9087
Palavras gráficas	275592	275592
Palavras simples	256452	256452
Palavras	265998	275592

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	60030	23,41%
Verbos	V.*	35844	13,98%
Adjectivos	ADJ.*	24224	9,45%
Pronomes pessoais	.PERS.	5465	2,13%
Preposições	PRP.*	48642	18,97%
Conjunções	K.*	15740	6,14%
Advérbios	ADV.*	13569	5,29%
Determinantes	.DET.	54548	21,27%
Especificadores	.SPEC.	6534	2,55%
Numerais	NUM.*	1957	0,76%

^{^}Voltar ao início da página

Corpo ECI-EBR

O corpo ECI-EBR foi criado pela ECI (European Corpus Initiative; Thomson et al. 1994) , baseado no corpo Borba-Ramsey. É uma selecção de excertos de obras brasileiras, contendo pelo menos discurso literário, didáctico e oral cuidado (discursos políticos). O corpo contém pouco mais de 700 mil palavras, e estava codificado em SGML muito leve (além do cabeçalho, apenas continha marcas de parágrafos), cf. a informação da ELSNET.

Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.

Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:

biografia (material biográfico)
crítica_lit (material indicativo de crítica literária)
debate (debates no parlamento)
definição
entrevista
informativo
discurso (discursos políticos, etc.)
jornalismo (notícias, breves, crónicas, etc.)
literatura (texto literário)
literatura ensaio (ensaios são considerados como um subgénero de literatura)
literatura teatro (texto literário do género dramático)

Dentro do género jornalismo, incluímos as subdivisões: crónica, cultura, desporto, economia, entretenimento, generalidades, internacional, país, religião, reportagem, saúde, sociedade, título.

Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.

Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.

Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).

O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.

Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:

Género Unidades Textos

Literatura 384.961 157

Informativo 203.436 288

Jornalismo 89.086 537

Oral 66.092 29

Outros 16.419 33

Indef 16.935 82

Assuntos Unidades Textos

Agricultura 3458 8

Arqueologia 1681 3

Arte 4255 4

Astrologia 1294 1

Biologia 3662 3

Botânica 6095 4

Ciência 7402 9

Clima 302 1

Crónica 3761 11

Culinária 1316 1

Cultura 5795 44

Desporto 8227 39

Direito 1746 4

Ecologia 326 2

Economia 18441 60

Edição 823 1

Educação 1105 1

Entretenimento 5084 31

Entrevista 592 3

Escutismo 424 1

Estatística 1253 1

Filatelia 1113 1

Filosofia 3470 3

Física 627 1

Fotografia 1056 2

Generalidades 5411 44

Generealidades 120 1

Geografia 3721 6

Geologia 77 1

Gestão 2247 2

Hidrografia 1280 1

História 35242 30

Indef 484736 1

Indústria 1375 3

Internacional 8196 57

Jornalismo 284 537

Linguística 8066 11

Literatura 8234 14

Maternidade 344 1

Medicina 16881 18

Música 1717 3

Oceanografia 302 1

País 44860 206

Política 19780 36

Psicologia 2412 5

Religião 21243 32

Reportagem 1298 3

Saúde 4615 19

Sociedade 7399 58

Sociologia 10432 15

Título 174 12

Turismo 188 1

Zoologia 2987 15

Corpus ECI-EBR, versão texto de Abril de 2002, anotado a 6 de julho de 2024, v. 13.1

Agradecemos aos compiladores do corpus por o terem criado e tornado público.

Estrutura do corpo

A partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).

A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.

Marcadores estruturais: s, p, ext e marca.

Dados quantitativos

Corpo ECI-EBR	Número de formas	Número de tipos
Unidades	924904	60376
Total de palavras	728951	60175
Palavras em minúscula	569163	42116
Palavras com inicial maiúscula	73135	12208
Palavras todas em maiúsculas	200	53
Números	1999	461
Palavras com números	56	44
Palavras mistas	179	100
Pontuação	53752	199

Número de unidades estruturais

Atributo	Número
ext	1107
p	12117
s	44379
marca	3
mwe	13459

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	19625	32296
Locuções	13459	29099
Palavras gráficas	728951	728951
Palavras simples	667556	667556
Palavras	700640	728951

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	149607	22,41%
Verbos	V.*	114979	17,22%
Adjectivos	ADJ.*	45082	6,75%
Pronomes pessoais	.PERS.	24850	3,72%
Preposições	PRP.*	112027	16,78%
Conjunções	K.*	33800	5,06%
Advérbios	ADV.*	44315	6,64%
Determinantes	.DET.	125212	18,76%
Especificadores	.SPEC.	16264	2,44%
Numerais	NUM.*	9333	1,40%

^{^}Voltar ao início da página

Corpo ECI-EE

O corpus ECI-EE foi criado pela ECI (European Corpus Initiative, Thomson et al. 1994), e contém o anúncio do programa comunitário ESPRIT . O corpus usa uma codificação SGML leve, com parágrafos e secções/artigos numerados, o que produziu alguns problemas em relação à separação de notas de rodapé (apenas indicadas graficamente por linhas iniciadas por tabuladores, e que tiveram de ser reconstituídas e colocadas após o parágrafo respectivo).

Pode também consultar a informação da ELSNET.

Corpus ECI-EE, versão de Abril de 2002, criado a 6 de julho de 2024, v. 9.1

Agradecemos aos compiladores do corpus por o terem criado e tornado publico.

Estrutura do corpo

Marcadores estruturais: s, p, titulo, nota, marca.

Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
<marca num=3> <nota num=3>

Dados quantitativos

Corpo ECI-EE	Número de formas	Número de tipos
Unidades	30277	4122
Total de palavras	25779	3970
Palavras em minúscula	20655	3235
Palavras com inicial maiúscula	1402	323
Palavras todas em maiúsculas	389	93
Números	419	95
Palavras com números	3	3
Palavras mistas	106	6
Pontuação	1122	150

Número de unidades estruturais

Atributo	Número
p	313
s	789
t	0
nota	0
marca	27
mwe	480

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	610	904
Locuções	480	1062
Palavras gráficas	25779	25779
Palavras simples	23813	23813
Palavras	24903	25779

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	6625	27,82%
Verbos	V.*	2805	11,78%
Adjectivos	ADJ.*	2303	9,67%
Pronomes pessoais	.PERS.	282	1,18%
Preposições	PRP.*	5116	21,48%
Conjunções	K.*	1206	5,06%
Advérbios	ADV.*	800	3,36%
Determinantes	.DET.	4755	19,97%
Especificadores	.SPEC.	341	1,43%
Numerais	NUM.*	646	2,71%

^{^}Voltar ao início da página

Corpo ENPCPUB (parte em português)

O corpus ENPCPUB é um corpus de traduções para português de textos literários em inglês (Johansson et al., 1996, 1999; Oksefjell 1999). Apenas recebemos autorização para dar acesso a uma pequena parte do corpus ENPC, nomeadamente extractos dos textos (identificação do ENPC):

Código	Autor	Obra	Editora	Ano	Tradutor(a)	Título original
JB1PP	Julian Barnes	Amor & C.a	Quetzal Editores, Lisboa	1994	Helena Cardoso	Talking It Over.
BC1	Bruce Chatwin	Utz	Quetzal Editores, Lisboa	1991	José Luís Luna	Utz.
AH1	Arthur Hailey	Remédio Amargo	Distribuidora Record, Rio de Janeiro	s/d	A.B.P. de Lemos.	Strong Medicine.
JH1	Joseph Heller	Imaginem que	Difusão Cultural, Lisboa	1991	Cristina Rodriguez.	Picture This.
NG1	Nadine Gordimer	A história do meu filho	Editora Siciliano, São Paulo	1992	Geraldo Galvão Ferraz	My Son's Story.

O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).

Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).
Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".

Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado a 6 de julho de 2024, v. 10.1

Estamos gratos a Stig Johansson e à equipa do ENPC pela colaboração na criação deste corpus, e aos detentores dos direitos de autor pela autorizações gentilmente cedidas.

Estrutura do corpo

Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.
Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".
O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).

Dados quantitativos

Corpo ENPCPUB	Número de formas	Número de tipos
Unidades	90411	12909
Total de palavras	72837	12894
Palavras em minúscula	57654	10248
Palavras com inicial maiúscula	7034	1673
Palavras todas em maiúsculas	74	50
Números	134	78
Palavras com números	29	2
Palavras mistas	20	16
Pontuação	4952	15

Número de unidades estruturais

Atributo	Número
p	1682
s	4369
texto	5
parte	8
capitulo	25
mwe	239

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	2541	2920
Locuções	239	522
Palavras gráficas	72837	72837
Palavras simples	69395	69395
Palavras	72175	72837

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	13343	19,23%
Verbos	V.*	12844	18,51%
Adjectivos	ADJ.*	3924	5,65%
Pronomes pessoais	.PERS.	3089	4,45%
Preposições	PRP.*	11293	16,27%
Conjunções	K.*	3809	5,49%
Advérbios	ADV.*	4957	7,14%
Determinantes	.DET.	12236	17,63%
Especificadores	.SPEC.	1812	2,61%
Numerais	NUM.*	770	1,11%

^{^}Voltar ao início da página

Corpo Floresta

O corpo FLORESTA contém o material anotado criado no âmbito do projecto Floresta Sintá(c)tica , em particular o Bosque, a Floresta Virgem e a Amazónia. Informação detalhada sobre o conteúdo textual encontra-se aqui

Corpus Floresta, a partir do material da Floresta de Junho de 2010, anotado semanticamente a 22 de Junho de 2013, v. 2.5

Estrutura do corpo

Atributos estruturais:

ext (delimitador de texto/excerto)
s (delimitador de frase)

Atributos posicionais:

variante (país de origem do texto)
id (identificador do texto)

Dados quantitativos

Corpo FLORESTA	Número de formas	Número de tipos
Unidades	7252530	182669
Total de palavras	6046536	179536
Palavras em minúscula	4529984	88948
Palavras com inicial maiúscula	738255	58232
Palavras todas em maiúsculas	27975	3959
Números	50401	1606
Palavras com números	3760	935
Palavras mistas	5814	2248
Pontuação	321301	3132

Número de unidades estruturais

Atributo	Número
ext	24398
s	326667
mwe	103159

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	284084	503417
Locuções	103159	217445
Palavras gráficas	6046536	6046536
Palavras simples	5325674	5325674
Palavras	5712917	6046536

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	1238732	23,26%
Verbos	V.*	846993	15,90%
Adjectivos	ADJ.*	350522	6,58%
Pronomes pessoais	.PERS.	117329	2,20%
Preposições	PRP.*	958823	18,00%
Conjunções	K.*	272888	5,12%
Advérbios	ADV.*	325270	6,11%
Determinantes	.DET.	1036508	19,46%
Especificadores	.SPEC.	106992	2,01%
Numerais	NUM.*	99122	1,86%

^{^}Voltar ao início da página

Corpo FrasesPB

O corpus FrasesPB é um conjunto de frases em português brasileiro.

O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).

Corpus FrasesPB, versão texto de 17 de Abril de 2002, anotado a 4 de julho de 2024, v. 9.1

Estrutura do corpo

Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo. Em dois casos, contudo, o algoritmo separador de frases ainda conseguiu detectar unidades mais pequenas, dando origem pois a dois parágrafos com duas frases cada.

Marcadores estruturais: s, p.

Dados quantitativos

Corpo FRASESPB	Número de formas	Número de tipos
Unidades	23259	6019
Total de palavras	19185	6007
Palavras em minúscula	16421	5263
Palavras com inicial maiúscula	1046	525
Palavras todas em maiúsculas	15	15
Números	49	35
Palavras com números
Palavras mistas	5	5
Pontuação	730	12

Número de unidades estruturais

Atributo	Número
p	648
s	652
mwe	371

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	249	408
Locuções	371	800
Palavras gráficas	19185	19185
Palavras simples	17977	17977
Palavras	18597	19185

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	4613	25,66%
Verbos	V.*	2904	16,15%
Adjectivos	ADJ.*	1420	7,90%
Pronomes pessoais	.PERS.	358	1,99%
Preposições	PRP.*	3378	18,79%
Conjunções	K.*	979	5,45%
Advérbios	ADV.*	974	5,42%
Determinantes	.DET.	3620	20,14%
Especificadores	.SPEC.	404	2,25%
Numerais	NUM.*	161	0,90%

^{^}Voltar ao início da página

Corpo FrasesPP

O corpus FrasesPP é um conjunto de frases em português de Portugal, compilado para o teste de uma gramática computacional, desenvolvido no Grupo Científico IBM-INESC (depois Grupo de Linguagem Natural do INESC) de 1990 a 1992. (Santos (ed.) 1992; Medeiros et al. 1993). Encontrava-se em texto simples e em formato LaTeX.

Corpo FrasesPP, criado a 22 de Junho de 2013, anotado a 6 de julho de 2024, v. 10.1

Estrutura do corpo

Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo.

Marcadores estruturais: s, p.

Os valores da anotação original encontram-se no atributo posicional pos2. Os valores deste atributo (A, N, V, VPP, PF, PONT e CL) foram atribuídos automaticamente e depois revistos manualmente nos casos em que as palavras obtiveram mais do que uma categoria.

Dados quantitativos

Corpo FRASESPP	Número de formas	Número de tipos
Unidades	20030	5104
Total de palavras	16266	5088
Palavras em minúscula	13505	4244
Palavras com inicial maiúscula	1077	567
Palavras todas em maiúsculas	9	6
Números	95	48
Palavras com números	4	4
Palavras mistas
Pontuação	796	16

Número de unidades estruturais

Atributo	Número
p	594
s	594
mwe	296

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	256	409
Locuções	296	648
Palavras gráficas	16266	16266
Palavras simples	15209	15209
Palavras	15761	16266

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	3713	24,41%
Verbos	V.*	2291	15,06%
Adjectivos	ADJ.*	1288	8,47%
Pronomes pessoais	.PERS.	405	2,66%
Preposições	PRP.*	2862	18,82%
Conjunções	K.*	787	5,17%
Advérbios	ADV.*	921	6,06%
Determinantes	.DET.	3109	20,44%
Especificadores	.SPEC.	365	2,40%
Numerais	NUM.*	195	1,28%

^{^}Voltar ao início da página

Corpo Mariano Gago

O corpus JMG contém artigos e notícias associadas a José Mariano Gago: obituários; testemunhos por ocasião da sua morte a 17 de abril de 2015; textos escritos por ele: discursos, cartas, outros textos; entrevistas; artigos sobre ele e a sua política; depoimentos de homenagem. Todos os textos em questão foram retirados da internete, exceto os que já constavam dos outros corpos jornalísticos do AC/DC. Veja a página sobre o corpo para mais informação.

Sobretudo em relação às notícias do óbito, pode haver muito material repetido.

Em maio de 2018 foram acrescentados muito mais textos anteriores que tinham sido preservados pelo Arquivo.pt, e espera-se continuar a aumentar o corpo dessa forma.

Corpo JMG, criado em 6 de julho de 2024, v. 7.1

Agradecemos profundamente ao Professor José Mariano Gago a sua atuação em prol da ciência e da investigação em torno do processamento da língua portuguesa.

Estrutura do corpo

O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

Os valores de classe estão por enquanto marcados da seguinte forma: noticia, se é uma notícia de jornal (ou texto publicado num blogue) após a sua morte; discurso se é um discurso (ou outro texto escrito por Mariano Gago), entrevista se é uma entrevista feita a Mariano Gago. outros marca textos escritos com menção a Mariano Gago antes da sua morte, e vão de críticas a reportagens a simples descrições de acontecimentos. Finalmente, sitiohomenagem contém todos os textos colocado em marianogago.org.

Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

Distribuição por tipo de texto

A sua distribuição, correspondendo à versão 7.1, é a seguinte:

Tipo Descrição Tamanho

noticia texto noticioso 169.445

discurso discursos 17.896

entrevista entrevistas 33.492

outros outros 344.955

sitiohomenagem sítio de homenagem 37.140

Dado o número considerável de diferentes fontes, colocamos a origem de cada texto em ficheiros separados

Mais textos (de Mariano Gago) previstos:

http://confoa08.sdum.uminho.pt/apresentacoes/Mensagem%20MCTES.pdf
http://imagens.publico.pt/imagens.aspx/916095?tp=UH&db=IMAGENS&dl=1&fln=entrevista-a-jose-mariano-gago-20150417-224009.pdf
http://act.fct.pt/wp-content/uploads/2014/05/1_JMG_FCT_2011_Protocolo-de-doa%C3%A7%C3%A3o-acervo-documental.pdf

Dados quantitativos

Corpo JMG	Número de formas	Número de tipos
Unidades	693884	31895
Total de palavras	569843	31627
Palavras em minúscula	413219	21053
Palavras com inicial maiúscula	81713	6316
Palavras todas em maiúsculas	5197	928
Números	5650	358
Palavras com números	255	89
Palavras mistas	212	102
Pontuação	33088	253

Número de unidades estruturais

Atributo	Número
p	11352
s	22923
texto	1375
t	1575
mwe	8105

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	30606	66268
Locuções	8105	17331
Palavras gráficas	569843	569843
Palavras simples	486244	486244
Palavras	524955	569843

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	115708	23,80%
Verbos	V.*	68673	14,12%
Adjectivos	ADJ.*	34176	7,03%
Pronomes pessoais	.PERS.	8340	1,72%
Preposições	PRP.*	98006	20,16%
Conjunções	K.*	25568	5,26%
Advérbios	ADV.*	25320	5,21%
Determinantes	.DET.	98821	20,32%
Especificadores	.SPEC.	11413	2,35%
Numerais	NUM.*	9232	1,90%

^{^}Voltar ao início da página

Corpo LeMe

O LeMe-PT (Leaflets of Medicine) é um corpo constituído por bulas de medicamentos comercializados em Portugal. Para cada substância ativa foi selecionado um medicamento (forma comercial) para o representar. Mais detalhes em: https://github.com/ambs/LeMe/

Corpo LeMe, criado a 6 de julho de 2024, v. 3.1

Agradecemos a Alberto Simões a autorização para a disponibilização do recurso.

Estrutura do corpo

Os textos vinham marcados com <item> e <title>, que foram substituídos por - e por <t> na versão do AC/DC.

O corpo está dividido em textos separados, marcados pelo atributo texto, com informação do identificador do mesmo.

Os textos têm também os marcadores estruturais adicionais p [parágrafo] e s [frase].

Como atributos posicionais adicionais temos o fonte que indica qual o nome do medicamento

Dados quantitativos

Corpo LEME	Número de formas	Número de tipos
Unidades	3496795	43122
Total de palavras	2581509	42086
Palavras em minúscula	1897088	21894
Palavras com inicial maiúscula	280092	9454
Palavras todas em maiúsculas	25044	2171
Números	72146	1951
Palavras com números	6933	823
Palavras mistas	4186	990
Pontuação	165901	884

Número de unidades estruturais

Atributo	Número
p	143620
s	178678
t	13986
texto	1191
mwe	36283

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	105013	184196
Locuções	36283	76195
Palavras gráficas	2581509	2581509
Palavras simples	2321118	2321118
Palavras	2462414	2581509

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	632900	27,27%
Verbos	V.*	353450	15,23%
Adjectivos	ADJ.*	215660	9,29%
Pronomes pessoais	.PERS.	32948	1,42%
Preposições	PRP.*	376285	16,21%
Conjunções	K.*	138448	5,96%
Advérbios	ADV.*	101066	4,35%
Determinantes	.DET.	355472	15,31%
Especificadores	.SPEC.	20899	0,90%
Numerais	NUM.*	80212	3,46%

^{^}Voltar ao início da página

Corpo Literateca

O corpo Literateca inclui todas as obras literárias presentes nos corpos disponibilizados pela Linguateca (Vercial, OBras, NOBRE, Tycho Brahe, Colonia e PANTERA) de forma a permitir que esse material possa ser interrogado duma só vez, evitando ao mesmo tempo sobreposições.

Os corpos que lhe deram origem continuam a existir e a serem mantidos independentemente (e prioritariamente). A Literateca é apenas uma forma mais simples de interagir com todos se o utilizador assim o desejar.

Tal como o corpo TODOS, tem apenas como atributos adicionais os atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas dos corpos individuais que o constituem.

No caso da sobreposição entre os vários corpos, usamos a ordem enunciada anteriormente. "Preferimos" os textos que se encontram no Vercial, etc.

Corpo Literateca, criado a 12 de maio de 2026, v. 14.5

Estrutura do corpo

Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

Para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Dados quantitativos

Corpo LITERATECA	Número de formas	Número de tipos
Unidades	52741328	568681
Total de palavras	37864742	568296
Palavras em minúscula	29076165	302250
Palavras com inicial maiúscula	3611292	113341
Palavras todas em maiúsculas	121489	11648
Números	81857	2218
Palavras com números	1193	681
Palavras mistas	28293	6469
Pontuação	2690934	8

Número de unidades estruturais

Atributo	Número
p	816987
s	2334374
t	2502
v	289303
obra	1006
capitulo	699
parte	619
tit	0
autor	895
tituloobra	895
div	6278
mwe	573678
fala	43102
personagem	47507

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	996314	1661977
Locuções	573678	1238001
Palavras gráficas	37864742	37864742
Palavras simples	34964764	34964764
Palavras	36534756	37864742

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	7220809	20,65%
Verbos	V.*	6166421	17,64%
Adjectivos	ADJ.*	2212336	6,33%
Pronomes pessoais	.PERS.	1774424	5,07%
Preposições	PRP.*	5441590	15,56%
Conjunções	K.*	2000691	5,72%
Advérbios	ADV.*	2316575	6,63%
Determinantes	.DET.	6559089	18,76%
Especificadores	.SPEC.	918619	2,63%
Numerais	NUM.*	326124	0,93%

^{^}Voltar ao início da página

Corpo Marielle, presente!

O corpus Marielle, presente! contém textos escritos por Marielle Franco, e textos escritos sobre ela. Veja-se esta página para uma defesa deste projeto.

Sobretudo em relação às notícias sobre a sua morte, pode haver muito material repetido.

Este corpo está ainda em construção.

Corpus MARIELLE, criado a 6 de julho de 2024, v. 5.1

Agradecemos a todos os que colaboraram na coleção dos textos e notícias...

Estrutura do corpo

O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

Distribuição por tipo de texto

Dados quantitativos

Corpo MARIELLE	Número de formas	Número de tipos
Unidades	506032	26464
Total de palavras	409831	26063
Palavras em minúscula	274779	16212
Palavras com inicial maiúscula	73384	5831
Palavras todas em maiúsculas	7289	1680
Números	5705	407
Palavras com números	402	168
Palavras mistas	1057	153
Pontuação	23844	379

Número de unidades estruturais

Atributo	Número
p	10286
s	20440
texto	624
t	0
mwe	4797

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	29291	63229
Locuções	4797	10095
Palavras gráficas	409831	409831
Palavras simples	336507	336507
Palavras	370595	409831

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	84834	25,21%
Verbos	V.*	46366	13,78%
Adjectivos	ADJ.*	23547	7,00%
Pronomes pessoais	.PERS.	5084	1,51%
Preposições	PRP.*	69500	20,65%
Conjunções	K.*	16124	4,79%
Advérbios	ADV.*	12403	3,69%
Determinantes	.DET.	66917	19,89%
Especificadores	.SPEC.	6000	1,78%
Numerais	NUM.*	8664	2,57%

^{^}Voltar ao início da página

Corpo Moçambula

O corpus Moçambula foi criado no âmbito da tese de mestrado de Torun Reite na Universidade de Oslo, Reite (2013), e contém cartas de leitores publicadas em 2012 em vários jornais moçambicanos.

Os jornais incluídos, e marcados no atributo posicional fonte são: Diário de Moçambique, Jornal A verdade, Notícias, O País e Savana.

Tipo Descrição Tamanho

DdM Diário de Moçambique 24.331

Verd Jornal A verdade 11.253

Not Notícias 15.640

País O País 7.250

Sav Savana 2.719

Corpo MOÇAMBULA, versão texto de novembro de 2012, anotado em 6 de julho de 2024, v. 6.1

Estrutura do corpo

Os textos foram transcritos manualmente ou obtidos através do sítio do jornal.

O corpo está dividido em mensagens/textos separados, marcadas pelo atributo texto, com informação do identificador do mesmo.

Os textos têm também os marcadores estruturais adicionais p [parágrafo] e s [frase].

Como atributos posicionais adicionais temos o fonte que indica em que jornal o texto foi publicado.

Dados quantitativos

Corpo MOCAMBULA	Número de formas	Número de tipos
Unidades	69469	10789
Total de palavras	59038	10745
Palavras em minúscula	47775	8450
Palavras com inicial maiúscula	4514	1424
Palavras todas em maiúsculas	274	161
Números	402	109
Palavras com números	21	15
Palavras mistas	61	31
Pontuação	3135	44

Número de unidades estruturais

Atributo	Número
p	133
s	2285
texto	94
mwe	1133

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	1443	2566
Locuções	1133	2466
Palavras gráficas	59038	59038
Palavras simples	54006	54006
Palavras	56582	59038

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	12591	23,31%
Verbos	V.*	9081	16,81%
Adjectivos	ADJ.*	3393	6,28%
Pronomes pessoais	.PERS.	1404	2,60%
Preposições	PRP.*	9894	18,32%
Conjunções	K.*	3186	5,90%
Advérbios	ADV.*	3331	6,17%
Determinantes	.DET.	10689	19,79%
Especificadores	.SPEC.	1531	2,83%
Numerais	NUM.*	718	1,33%

^{^}Voltar ao início da página

Corpo Museu da Pessoa

O corpus Museu da Pessoa é um corpus de cento e sete entrevistas transcritas pelo Núcleo Português do Museu da Pessoa (ver Almeida et al. 2000) no âmbito dos seus projectos, mais cento e seis entrevistas transcritas pelo Museu da Pessoa brasileiro. As entrevistas portuguesas sofreram um processo de revisão adicional.

Em "XML simples", as entrevistas completas do Museu da Pessoa encontram-se aqui num formato com separação de frases e marcação de pergunta e resposta:

Entrevistas em Portugal, compiladas por Alberto Simões, Paulo Rocha e Rui Vilela e revistas por Paula Taveira
Entrevistas no Brasil, compiladas por Paulo Rocha
Entrevistas no Brasil, compiladas por Lise Bianchini e Cláudia Freitas

Corpus Museu da Pessoa, versão do texto português de Abril de 2005, versão do texto brasileiro de Dezembro de 2008, anotado em 30 de setembro de 2025, v. 10.3

Agradecemos ao Núcleo Português do Museu da Pessoa a disponibilização dos textos. Estamos gratos ao Museu da Pessoa brasileiro por disponibilzarem os textos na Internet, e a Lise Bianchini pelo seu tratamento. Agradecemos a Paula Taveira pela revisão (em curso) dos textos portugueses.

Estrutura do corpo

Marcadores estruturais: entrevista [entrevista completa], p [parágrafo], s [frase], resposta, pergunta, legenda [legenda de uma fotografia], introd [texto de introdução antes da entrevista]

Para cada entrevista temos a indicação dos dados possíveis sobre cada entrevistado aqui.

Variante Tamanho

BR 2303596

PT 346458

Sexo Tamanho

F 749.487

M 1.876.316

X 24.251

Dados quantitativos

Corpo MUSEUDAPESSOA	Número de formas	Número de tipos
Unidades	1846889	42637
Total de palavras	1431615	42627
Palavras em minúscula	1116519	30233
Palavras com inicial maiúscula	143464	8281
Palavras todas em maiúsculas	4862	394
Números	8674	365
Palavras com números	117	73
Palavras mistas	228	109
Pontuação	105418	8

Número de unidades estruturais

Atributo	Número
mwe	24609
p	11770
s	93465
entrevista	215
pergunta	11015
resposta	11351
legenda	47
introd	4
corr	19

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	35304	57390
Locuções	24609	52282
Palavras gráficas	1431615	1431615
Palavras simples	1321943	1321943
Palavras	1381856	1431615

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	237178	17,94%
Verbos	V.*	265168	20,06%
Adjectivos	ADJ.*	50137	3,79%
Pronomes pessoais	.PERS.	75439	5,71%
Preposições	PRP.*	169572	12,83%
Conjunções	K.*	79602	6,02%
Advérbios	ADV.*	133385	10,09%
Determinantes	.DET.	223651	16,92%
Especificadores	.SPEC.	41806	3,16%
Numerais	NUM.*	18678	1,41%

^{^}Voltar ao início da página

Corpo Natura/Minho

O corpus Natura/Minho é um corpus jornalístico contendo texto do jornal regional português Diário do Minho, criado no âmbito do projecto Natura. O corpus (correspondente à versão 3 diariodoMinho.3.cor) contém notícias completas, separadas em edições e marcadas pela data. No texto encontravam-se assinalados, numa codificação de tipo XML, títulos, assinaturas e legendas, além de conter marcação (markup) de parágrafos e de formatação, esta última retirada do corpus final.

Segundo o projecto Natura, o corpus original é assim descrito:
Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de provas).

Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.

Corpus Natura/Minho (de 9 de Março de 2001), versão texto criada em Abril de 2002, anotado a 6 de julho de 2024, v. 11.1

Estamos gratos à direcção do Diário do Minho pela gentil autorização de disponibilização dos tex

Estrutura do corpo

A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. A partir da versão 3.0, introduzimos a anotação li para assinalar listas.

Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.

Dados quantitativos

Corpo NATMINHO	Número de formas	Número de tipos
Unidades	2255442	69861
Total de palavras	1800223	68325
Palavras em minúscula	1284145	39047
Palavras com inicial maiúscula	249489	17475
Palavras todas em maiúsculas	15596	2143
Números	22452	1206
Palavras com números	2941	415
Palavras mistas	970	486
Pontuação	119437	1530

Número de unidades estruturais

Atributo	Número
p	56926
s	70246
assinatura	541
legenda	782
t	7666
art	5117
marca	0
mwe	27032

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	103595	218855
Locuções	27032	57530
Palavras gráficas	1800223	1800223
Palavras simples	1523838	1523838
Palavras	1654465	1800223

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	376185	24,69%
Verbos	V.*	208282	13,67%
Adjectivos	ADJ.*	99438	6,53%
Pronomes pessoais	.PERS.	19531	1,28%
Preposições	PRP.*	323136	21,21%
Conjunções	K.*	68920	4,52%
Advérbios	ADV.*	63896	4,19%
Determinantes	.DET.	313292	20,56%
Especificadores	.SPEC.	28517	1,87%
Numerais	NUM.*	42703	2,80%

^{^}Voltar ao início da página

Corpo NOBRE

O corpo NOBRE (Novas OBRas publicadas na Europa) é um corpo de textos literários em português que já alcançaram o domínio público, criado para simplificar a construção do lado português do ELTEC, no âmbito do projeto COST "Distant Reading for European Literary History".

Corpo NOBRE, criado a 12 de maio de 2026, v. 13.5

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

Dados quantitativos

Corpo NOBRE	Número de formas	Número de tipos
Unidades	13044521	248608
Total de palavras	9519239	247222
Palavras em minúscula	7391780	151436
Palavras com inicial maiúscula	805613	37562
Palavras todas em maiúsculas	11492	2219
Números	8920	983
Palavras com números	445	269
Palavras mistas	4677	1933
Pontuação	681888	8

Número de unidades estruturais

Atributo	Número
p	189074
s	542396
v	0
obra	180
capitulo	0
parte	0
tit	0
autor	180
tituloobra	180
div	314
mwe	142147
fala	555
personagem	560
t	260

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	246510	374586
Locuções	142147	309413
Palavras gráficas	9519239	9519239
Palavras simples	8835240	8835240
Palavras	9223897	9519239

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	1762893	19,95%
Verbos	V.*	1608735	18,21%
Adjectivos	ADJ.*	542305	6,14%
Pronomes pessoais	.PERS.	465163	5,26%
Preposições	PRP.*	1375016	15,56%
Conjunções	K.*	485908	5,50%
Advérbios	ADV.*	601391	6,81%
Determinantes	.DET.	1630563	18,46%
Especificadores	.SPEC.	231207	2,62%
Numerais	NUM.*	70282	0,80%

^{^}Voltar ao início da página

Corpo OBras

O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio, a Universidade Estadual do Maranhão (UEMA) e Anya Campos. Para mais informações veja-se a página do projeto.

Corpo OBras, criado a 7 de marÃ§o de 2026, v. 18.2

Agradecemos a todos os que tornarem este projeto viável, por terem digitalizado e tornado públicas obras de autores brasileiros.

Estrutura do corpo

Dados quantitativos

Corpo OBRAS	Número de formas	Número de tipos
Unidades	14517326	234140
Total de palavras	10292746	234040
Palavras em minúscula	8058973	138344
Palavras com inicial maiúscula	873799	38281
Palavras todas em maiúsculas	11570	3033
Números	9000	791
Palavras com números	222	139
Palavras mistas	2034	1124
Pontuação	784385	8

Número de unidades estruturais

Atributo	Número
p	235795
s	635765
t	1872
v	23015
obra	337
capitulo	699
parte	13
tit	0
autor	337
tituloobra	337
div	2621
mwe	182237

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	242945	340586
Locuções	182237	395512
Palavras gráficas	10292746	10292746
Palavras simples	9556648	9556648
Palavras	9981830	10292746

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	2005147	20,98%
Verbos	V.*	1735172	18,16%
Adjectivos	ADJ.*	613296	6,42%
Pronomes pessoais	.PERS.	481031	5,03%
Preposições	PRP.*	1489577	15,59%
Conjunções	K.*	523264	5,48%
Advérbios	ADV.*	659926	6,91%
Determinantes	.DET.	1828894	19,14%
Especificadores	.SPEC.	239075	2,50%
Numerais	NUM.*	81241	0,85%

^{^}Voltar ao início da página

Corpo PANTERA, lado português

O corpo PANTERA (Portuguese And Norwegian Texts for Education, Research and Acquisition of relevant knowledge) é um corpo paralelo português-norueguês, ver PANTERA.

Mais informação sobre o corpo pode ser obtida em Santos (2019)

Corpo pantera-port, criado a 5 de janeiro de 2026

Estrutura do corpo

O corpus está dividido em textos, e tem informação de data, data da tradução, variante e variante da tradução. Além disso está também dividido em s [frases].

Dados quantitativos

pantera-port	Número de formas	Número de tipos
Unidades	950926	47304
Total de palavras	642728	47288
Palavras em minúscula	504245	33350
Palavras com inicial maiúscula	61520	7376
Palavras todas em maiúsculas	7159	336
Números	704	236
Palavras com números	102	95
Palavras mistas	236	126
Pontuação	58894	8

Número de unidades estruturais

Atributo	Número
ua	45547
p	15630
s	46028
mwe	14413
texto	123
data	123
datatrad	123
variante	123
variantetrad	123
act-s	0
marca	67
fala	2190
indic	931
instr	0
star	0
foreign	1

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	22182	22170
Locuções	14413	31081
Palavras gráficas	642728	642728
Palavras simples	589477	589477
Palavras	626072	642728

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	116100	19,70%
Verbos	V.*	118619	20,12%
Adjectivos	ADJ.*	32819	5,57%
Pronomes pessoais	.PERS.	31292	5,31%
Preposições	PRP.*	91469	15,52%
Conjunções	K.*	34734	5,89%
Advérbios	ADV.*	52727	8,94%
Determinantes	.DET.	105765	17,94%
Especificadores	.SPEC.	17923	3,04%
Numerais	NUM.*	5314	0,90%

^{^}Voltar ao início da página

Corpo P'lo Norte

O corpo P'lo norte é constituído por blogues de portugueses sobre a Noruega, compilados manualmente.

O corpus Plonorte é composto (neste momento) por 38 textos.

Corpo PLONORTE, anotado a 6 de julho de 2024, v. 5.1

Corpo compilado por Ana Rita Ferreira e Diana Santos.

Estrutura do corpo

Marcadores posicionais: estatuto [visitante, residente, outro], autor, data, sexo

Marcadores estruturais: texto [nome do texto], p [parágrafo], s [frase].

Distribuições

A sua distribuição, correspondendo à versão 5.1, é a seguinte:

Estatuto Tamanho

outro 5.432

residente 17.221

visitante 21.380

Sexo Tamanho

F 30.606

M 13.427

Blogue Tamanho

alesund 698

analogias 193

autocarro 462

barbaros 641

bergen 218

bolso 964

breivik 3.745

cabonorte 1.658

chuvabagas 572

dicas 1.061

dicastrabalho 1.071

duas 659

entrevista 1.672

exemplar 1.038

festival 477

fiordes 788

fofocas 392

fondant 372

gratulerer 1.832

gravidez 228

idilico 675

limpar 853

mapa 575

mochila 5.518

multa 152

noruega 1.569

olha 726

passeando 3.084

Paulo 144

pipocas 119

princesas 3.345

sardinha 919

svalbard 606

teambuilding 107

trondheim 1.002

trondheim2 2.371

tubarao 1.477

viajarcriancas 2.050

Distribuição por fonte

fofocas	M	23.01.07	residente	http://umportuguesnanoruega.blogspot.no/2007/01/dia-19.html
fondant	F	10.02.10	residente	http://webcache.googleusercontent.com/search?q=cache:YAlq1opGVbIJ:eduarda-na-noruega.blogspot.com/&num=1&client=firefox-b-ab&hl=pt-PT&gl=pt&strip=1&vwsrc=0
multa	M	14.07.10	residente	http://tugananoruega.blogspot.no/2010/07/multa.html
dicastrabalho	M	16.06.08	residente	http://portugalilainen.blogspot.pt/2008/06/trabalhar-na-noruega-dicas.html
festival	F	14.05.17	residente	http://quiosquedajoana.blogs.sapo.pt/da-noruega-para-portugal-com-amor-112310
entrevista	F	27.02.16	residente	https://halfway2happiness.wordpress.com/2016/02/27/portugal-no-globo-noruega/
sardinha	F	08.03.17	residente	https://umasardinhananoruega.wordpress.com/2017/03/08/nas-minhas-34-voltas-ao-sol/
Paulo	M	18.05.07	residente	http://terrasgelidasdonorte.blogspot.no/2007/05/17-de-maio-17-mai.html
princesas	F	11.10.10	residente	http://in-bergen.blogspot.no/2010/10/princesses-in-bergen.html
trondheim2	F	26.05.17	residente	http://www.almadeviajante.com/viver-em-trondheim-carla-carvalho/
trondheim	F	08.09.12	residente	http://p3.publico.pt/node/4497
viajarcriancas	F	27.05.14	residente	http://pikitim.com/trondheim-com-criancas-dicas-de-alice-pinto/
gravidez	F	13.01.12	residente	http://demaeparamae.pt/forum/gravidez-noruega
mochila	F	18.03.14	visitante	https://viajardemochilaascostas.blogspot.pt/2014/03/noruega.html
svalbard	F	09.04.15	visitante	http://viajarentreviagens.blogspot.pt/2015/04/o-apelo-do-arctico-correndo-de-trenos.html
fiordes	F	12.03.10	visitante	http://viajante-do-mundo.blogspot.pt/2010/03/fiordes-da-noruega.html
dicas	M	29.06.15	visitante	http://www.viagensasolta.com/2015/06/dicas-para-viajar-na-terra-dos-fiordes.html
cabonorte	M	06.09.10	visitante	http://cabonorte2010.blogspot.no/2010/09/bodon-mo-i-ranan-319kms.html
idilico	F	26.07.08	visitante	https://asvoltasdovento.blogspot.no/2008/07/noruega-um-pas-idlico.html
passeando	F	10.03.11	visitante	http://passeando-pela-europa.blogspot.pt/2011/03/noruega.html
exemplar	M	24.07.11	visitante	http://retalhos-de-sintra.blogspot.pt/2011/07/noruega-um-pais-exemplar-2.html
bergen	M	26.10.15	visitante	http://soentrenos.blogs.sapo.pt/bergen-noruega-195633
barbaros	F	05.03.06	outro	http://apoliticadospoliticos.blogs.sapo.pt/29323.html
limpar	F	22.11.09	outro	http://jugular.blogs.sapo.pt/1331558.html
mapa	M	01.04.14	visitante	https://demapanamao.wordpress.com/noruega/
gratulerer	F	21.05.14	visitante	https://cartografiapessoal.wordpress.com/2014/05/21/gratulerer-med-dagen-norge/
bolso	F	16.08.16	visitante	https://alguresnomundo.wordpress.com/2016/08/16/foram-me-ao-bolso-e-eu-gostei-noruega/
alesund	F	07.04.14	visitante	https://solnaeiraechuvanonabal.wordpress.com/2017/04/07/alesund-pequena-perola-nos-fjords-da-noruega/
autocarro	F	25.04.17	visitante	https://solnaeiraechuvanonabal.wordpress.com/2017/04/25/fjords-da-noruega/#more-1423
breivik	M	29.07.11	outro	http://5dias.net/2011/07/29/a-noruega-nao-e-um-exemplo-de-tolerancia-de-democracia-e-de-respeito-pelos-direitos-humanos/
noruega	M	12.09.16	residente	http://www.coquetteaportuguesa.com/2016/09/noruega.html
tubarao	F	04.08.11	visitante	https://cartografiapessoal.wordpress.com/2011/08/04/na-boca-do-tubarao/
teambuilding	M	25.11.13	residente	http://aminhavidananoruega.blogspot.no/2013/11/sobre-o-team-building.html
pipocas	M	05.02.15	residente	http://aminhavidananoruega.blogspot.no/2015/02/como-pipocas.html
analogias	M	28.10.11	outro	http://irparaanoruega.blogspot.no/2011/10/guerra-fria-e-guerra-quente.html
chuvabagas	F	17.07.16	residente	http://goingnorthtilnorway.blogspot.no/2016/07/chuvabagas-e-futebol-como-passar-um-dia.html
duas	M	09.10.14	residente	http://duas-ou-tres.blogspot.no/2014/10/portugal-na-noruega.html
olha	M	03.10.16	visitante	http://olhaqueresfalarsobreisso.blogspot.no/2016/10/um-portugues-pela-noruega.html

Dados quantitativos

Corpo PLONORTE	Número de formas	Número de tipos
Unidades	52751	8220
Total de palavras	41226	8162
Palavras em minúscula	32284	6047
Palavras com inicial maiúscula	4195	1403
Palavras todas em maiúsculas	119	79
Números	459	155
Palavras com números	45	32
Palavras mistas	65	34
Pontuação	2807	55

Número de unidades estruturais

Atributo	Número
p	1121
s	2379
texto	38
mwe	817

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	1633	2207
Locuções	817	1741
Palavras gráficas	41226	41226
Palavras simples	37278	37278
Palavras	39728	41226

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	8661	23,23%
Verbos	V.*	6055	16,24%
Adjectivos	ADJ.*	2531	6,79%
Pronomes pessoais	.PERS.	843	2,26%
Preposições	PRP.*	6900	18,51%
Conjunções	K.*	2083	5,59%
Advérbios	ADV.*	2707	7,26%
Determinantes	.DET.	7156	19,20%
Especificadores	.SPEC.	892	2,39%
Numerais	NUM.*	789	2,12%

^{^}Voltar ao início da página

Corpo Português Falado - Documentos Autênticos

O corpus PortFalDA é um corpo de entrevistas transcritas proveniente dos quatro CD-ROM Português Falado: Documentos Autênticos (Gravações audio com transcrição alinhada), produzidos pelo Centro de Linguística da Universidade de Lisboa (CLUL) e pelo Instituto Camões em 1995-1997. Este material foi coletado maioritariamente no âmbito do projeto Português Falado, Variedades Geográficas e Sociais, levado a cabo pelo CLUL em parceria com as universidades francesas de Toulouse-le-Mirail e de Provence-Aix-Marseille. Para mais informação sobre este corpo, veja-se Bacelar do Nascimento (2001a) (em inglês) e Bacelar do Nascimento (2001b) (em francês).

O corpus PortFalDA é composto (neste momento) por 50 textos, de Portugal e do Brasil.

Como citar o (conteúdo do) corpus PortFALDA:

Português Falado: Documentos Autênticos (Gravações audio com transcriçao alinhada), conjunto de quatro CD-ROM, produzido pelo Centro de Linguística da Universidade de Lisboa (CLUL), Instituto Camões, com apoio da União Europeia (Programas LINGUA e SOCRATES/LINGUA) numa parceria entre o CLUL, a Universidade de Toulouse-le-Mirail e a Universidade de Aix-en-Provence.

Corpo PORTFALDA, texto original dos CD-ROM, anotado a 6 de julho de 2024, versÃ£o 6.1

Agradecemos a (ainda em aberto) para incluir no AC/DC.

Estrutura do corpo

Marcadores posicionais: variante

Marcadores estruturais: texto [nome do texto], pergunta, resposta, p [parágrafo], s [frase].

Distribuição por variante

A sua distribuição, correspondendo à versão 1.0, é a seguinte:

Dados quantitativos

Corpo PORTFALDA	Número de formas	Número de tipos
Unidades	148582	8637
Total de palavras	107215	8629
Palavras em minúscula	84568	7602
Palavras com inicial maiúscula	1367	516
Palavras todas em maiúsculas	51	15
Números	1	1
Palavras com números	2	2
Palavras mistas	32	10
Pontuação	8288	8

Número de unidades estruturais

Atributo	Número
p	3500
s	7569
texto	86
pergunta	1642
resposta	1858
mwe	1925

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	972	1420
Locuções	1925	4152
Palavras gráficas	107215	107215
Palavras simples	101643	101643
Palavras	104540	107215

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	14569	14,33%
Verbos	V.*	19228	18,92%
Adjectivos	ADJ.*	3361	3,31%
Pronomes pessoais	.PERS.	4593	4,52%
Preposições	PRP.*	11114	10,93%
Conjunções	K.*	6059	5,96%
Advérbios	ADV.*	11680	11,49%
Determinantes	.DET.	13510	13,29%
Especificadores	.SPEC.	2839	2,79%
Numerais	NUM.*	1269	1,25%

^{^}Voltar ao início da página

Corpo ReLi

O corpus ReLi é um corpo de 1601 resenhas de treze livros (de sete autores diferentes), compiladas de um sítio brasileiro de resenhas de livros, pela PUC-Rio, e acessível daqui. Essas resenhas foram anotadas em relação à opinião, ao objeto da opinião, e à sua polaridade, veja-se Freitas et al. (2012).

O corpus ReLi é composto de 7 arquivos, com as resenhas das obras de cada autor. Foram manualmente marcadas as seguintes informações:

object - indica segmento alvo de opinião. É designado por OBJXX, onde XX é o identificador do objeto no escopo da resenha, sendo 00 o objeto implícito livro

opinion - indica segmento que expressa opinião sobre um OBJXX. Tem a forma opXXS, onde S={-,+} para indicar a polaridade da opinião e XX é o ponteiro para o objeto

polarity - indica frase com opinião. Pode assumir os valores + e -.

Como citar o corpus ReLi: Freitas, C.; Motta, E.; Milidiú, R.; Cesar, J. Vampiro que brilha... rá! Desafios na anotação de opinião em um corpus de resenhas de livros. In: XI Encontro de Linguística de Corpus (ELC 2012), São Paulo, Brasil, 2012.

Corpus ReLi, versão do texto de Maio de 2013, anotado a 6 de julho de 2024, v. 8.1

Agradecemos a Cláudia Freitas, Eduardo Motta, Ruy Milidiú e Juliana Cesar a autorização para incluir no AC/DC.

Estrutura do corpo

Marcadores posicionais: objeto, opiniao, polaridade Marcadores estruturais: livro [nome do livro resenhado], resenha, p [parágrafo], s [frase].

Distribuição por livro e autor

Dados quantitativos

Corpo RELI	Número de formas	Número de tipos
Unidades	157560	14274
Total de palavras	128784	13086
Palavras em minúscula	92330	10697
Palavras com inicial maiúscula	9963	1797
Palavras todas em maiúsculas	392	264
Números	405	74
Palavras com números	4	4
Palavras mistas	7924	20
Pontuação	7608	61

Número de unidades estruturais

Atributo	Número
mwe	2230
p	0
t	0
s	7230
livro	0
rev	0

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	6540	4609
Locuções	2230	4840
Palavras gráficas	128784	128784
Palavras simples	119335	119335
Palavras	128105	128784

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	24112	20,21%
Verbos	V.*	21954	18,40%
Adjectivos	ADJ.*	8606	7,21%
Pronomes pessoais	.PERS.	4337	3,63%
Preposições	PRP.*	17667	14,80%
Conjunções	K.*	7031	5,89%
Advérbios	ADV.*	9308	7,80%
Determinantes	.DET.	21984	18,42%
Especificadores	.SPEC.	3848	3,22%
Numerais	NUM.*	1160	0,97%

^{^}Voltar ao início da página

Corpo NILC/São Carlos

O corpus NILC/São Carlos do Núcleo Interinstitucional de Lingüística Computacional, sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo em São Carlos, contém textos brasileiros do registo jornalístico, didáctico, epistolar e redacções de alunos (Nunes et al., 1996a, 1996b). Para um descrição mais abrangente, veja-se a página de descrição do corpus NILC e sua descendência.

Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.

Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; criado a 8 de outubro de 2025, v. 15.5

Estamos gratos à Folha de São Paulo pela autorização gentilmente concedida para uso dos seus textos.
Estamos gratos ao Núcleo Interinstitucional de Lingüística Computacional, em especial a Graça Nunes, por nos ter disponibilizado o texto do corpus em formato electrónico, autorizado a sua disponibilização através do projecto AC/DC e negociado com a Folha de São Paulo a autorização anteriormente mencionada.

Estrutura do corpo

Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura,
Para os textos da folha de São Paulo, a (autor), artigo, caixa, situacao, li (elemento de lista).

As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.

Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.

A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.

O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 15.5, é a seguinte:

Tipo Descrição Tamanho

DI texto didáctico 426.387

ENC enciclopédia 286.797

ENS ensaio 2.214.803

EP texto epistolar 3.826

JO.* jornalístico 29.938.947

JOCF jornalístico só CETENFolha 27.837.462

JO jornalístico sem CETENFolha 2.101.485

LE texto legal 1.084.112

LI literário 925.385

RE revista 155.395

O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.

A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .

A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):

Procurar a palavra punhal no CETENFolha: [word="punhal" & classe="JOCF"]
Procurar palavras acabadas em ornada no CETENFolha: ".*ornada" [classe="JOCF"]

Dados quantitativos

Corpo SAOCARLOS	Número de formas	Número de tipos
Unidades	43249538	436492
Total de palavras	32886779	436350
Palavras em minúscula	23235381	158501
Palavras com inicial maiúscula	4585260	127858
Palavras todas em maiúsculas	447405	22852
Números	578062	15764
Palavras com números	47054	5336
Palavras mistas	91751	8513
Pontuação	2148887	8

Número de unidades estruturais

Atributo	Número
mwe	466173
p	827382
s	1954773
texto	341940
subtitulo	3749
assinatura	13
artigo	0
caixa	20695
situacao	5031
t	148902
a	80180
li	49673

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	1992521	3343309
Locuções	466173	990115
Palavras gráficas	32886779	32886779
Palavras simples	28553355	28553355
Palavras	31012049	32886779

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	7143814	25,02%
Verbos	V.*	4302614	15,07%
Adjectivos	ADJ.*	1830287	6,41%
Pronomes pessoais	.PERS.	460068	1,61%
Preposições	PRP.*	5487896	19,22%
Conjunções	K.*	1211912	4,24%
Advérbios	ADV.*	1311543	4,59%
Determinantes	.DET.	5561633	19,48%
Especificadores	.SPEC.	455053	1,59%
Numerais	NUM.*	918336	3,22%

^{^}Voltar ao início da página

Corpo todos juntos

O corpo TODOS foi criado pela Linguateca de forma a permitir que todos os corpos da Linguateca pudessem ser interrogados duma só vez, evitando ao mesmo tempo que sobreposições de material produzissem repetição escusada e enganadora de concordâncias ou frequências.

É, portanto, especialmente apropriado para investigações relacionadas com género textual ou com anotação semântica.

Porque é automaticamente produzido a partir de todos os outros corpos do AC/DC, contém apenas os atributos estruturais e posicionais que pertençam à interseção de todos os corpos, além dos atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas de corpos individuais.

No caso da sobreposição entre o corpo NILC/São Carlos e o CHAVE, e do corpo CETEMPúblico e o CHAVE, foi escolhido o material do CHAVE.

O corpo contém cerca de 1300 milhões de palavras, distribuídas entre vários géneros e temas, correspondendo ao conteúdo de todos os corpos presentes no AC/DC.

Género Unidades

academico 409.552.077

blog 4.253.225

cartas 842.924

desc 3.432.044

encic 17.734.659

ensaio 2.219.797

jorn 669.804.963

legal 9.791.855

lit 48.597.042

littrad 77.742

mail 2.084.027

misto 389.380

oraldebate 37.004

oralent 6.674.191

oralfut 86.132

oralinf 292.678

oralmono 77.526.185

recensoes 265.223

religioso 874.402

revistas 647.609

teatro 1.148.728

tecnico 86.312.671

variado 137.824

Corpus todos, criado a 4 de setembro de 2022, v. 8.1

Agradecemos aos compiladores de todos os corpos incluídos por os terem criado e (deixado) tornar públicos.

Estrutura do corpo

Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

Dados quantitativos

Corpo TODOS	Número de formas	Número de tipos
Unidades	1518927964	6295254
Total de palavras	1261058299	5491047
Palavras em minúscula	888732290	1455100
Palavras com inicial maiúscula	157473488	1130986
Palavras todas em maiúsculas	25115356	375442
Números	21026152	55906
Palavras com números	2505480	395382
Palavras mistas	3406250	412691
Pontuação	83288930	551356

Número de unidades estruturais

Atributo	Número
TEXTO	0
CATEGORY	192967
	0
art	21801
assinatura	1556
assunto	4858
autor	71244
caixa	1077
capitulo	714
cita	80
div	6932
entrevista	2278
ext	1415377
fala	115137
introd	4
legenda	836
li	100101
marca	16664
mens	4911
mwe	18130528
nota	2329
obra	897
p	5951417
parte	11631
pergunta	12902
personagem	121024
resposta	13422
s	55180342
situacao	561
subtitulo	3719
t	1192583
texto	23968
titulo	2210
tituloobra	897
u	1927081
v	294798
a	221343
data	193395
indic	5643

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	86280986	127913038
Locuções	18130528	38609211
Palavras gráficas	1261058299	1261058299
Palavras simples	1094536050	1094536050
Palavras	1198947564	1261058299

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	277167661	25,32%
Verbos	V.*	145537153	13,30%
Adjectivos	ADJ.*	77778842	7,11%
Pronomes pessoais	.PERS.	17336037	1,58%
Preposições	PRP.*	204459658	18,68%
Conjunções	K.*	48772948	4,46%
Advérbios	ADV.*	48246109	4,41%
Determinantes	.DET.	198022464	18,09%
Especificadores	.SPEC.	18158155	1,66%
Numerais	NUM.*	36601144	3,34%

^{^}Voltar ao início da página

Corpo Tycho Brahe

O Corpus Histórico do Português Tycho Brahe é um corpo eletrônico anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845, compilado pela Universidade de Campinas (UniCamp). A sua página principal é http://www.tycho.iel.unicamp.br/corpus/index.html, onde todas as informações estão disponíveis.

Corpo Tycho Brahe, versão do texto simples de 2017, criado a 4 de janeiro de 2026, versão 12.0

Agradecemos a Charlotte Galves a gentil autorização para disponibilizar o corpo Tycho Brahe através do AC/DC.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (com o identificador original), tituloobra, (o nome da obra), autor (o autor da obra), data (data de nascimento do autor), genero (o gênero de obra segundo os critérios do Tycho Brahe), grafia (preservada ou editada) e a variante (PT ou BR conforme publicado em Portugal ou Brasil). Também se encontram marcados, nas obras em que são relevantes, partes como assinatura, saudacao e data, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (o gênero de obra segundo os critérios do Tycho Brahe), grafia (preservada ou editada), seculo (de nascimento do autor) e a variante (PT ou BR conforme publicado em Portugal ou Brasil).

Dados quantitativos

Corpo TYCHO	Número de formas	Número de tipos
Unidades	4226634	149162
Total de palavras	3344141	149139
Palavras em minúscula	2573237	95360
Palavras com inicial maiúscula	359287	28110
Palavras todas em maiúsculas	14788	2069
Números	19044	1442
Palavras com números	800	239
Palavras mistas	4179	1688
Pontuação	175943	8

Número de unidades estruturais

Atributo	Número
s	133393
p	133394
obra	76
t	1918
autor	76
tituloobra	76
data	514
variante	76
genero	76
grafia	76
div	2227
assinatura	1146
saudacao	441
mwe	49812
personagem	21725
fala	17305

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	130770	220350
Locuções	49812	105429
Palavras gráficas	3344141	3344141
Palavras simples	3018362	3018362
Palavras	3198944	3344141

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	595241	19,72%
Verbos	V.*	529828	17,55%
Adjectivos	ADJ.*	156065	5,17%
Pronomes pessoais	.PERS.	158751	5,26%
Preposições	PRP.*	463933	15,37%
Conjunções	K.*	220031	7,29%
Advérbios	ADV.*	197849	6,55%
Determinantes	.DET.	529727	17,55%
Especificadores	.SPEC.	98444	3,26%
Numerais	NUM.*	43075	1,43%

^{^}Voltar ao início da página

Corpo Vercial

O corpo Vercial contém 309 obras literárias de 55 autores portugueses, digitalizadas pelo projecto Vercial, cujas datas de publicação variam desde 1500 (Carta a El-rei Dom Manuel Sobre o Achamento do Brasil, de Pero Vaz de Caminha) a 1933 (Memórias III, de Raul Brandão).

Corpus Vercial, criado a 8 de janeiro de 2026, v. 18.0

Agradecemos à equipa do projecto Vercial, especialmente a José Leon Machado, que gentilmente nos cederam os textos para este corpus.

Estrutura do corpo

As 187 obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

As 80 obras de poesia têm os seguintes marcadores estruturais adicionais: div [parte de um poema, assinalada graficamente por números romanos] e v [verso].

As 43 obras de teatro têm os seguintes marcadores estruturais adicionais: fala [juntando a fala de uma personagem] e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (que pode ser Poesia, Prosa ou Teatro), e data (que quando é desconhecida tem o valor "desc").

As obras presentes e respectivos autores são as seguintes:

Dados quantitativos

Corpo VERCIAL	Número de formas	Número de tipos
Unidades	20876163	328583
Total de palavras	14777085	328484
Palavras em minúscula	11100121	176763
Palavras com inicial maiúscula	1609000	72596
Palavras todas em maiúsculas	81258	7337
Números	56471	2023
Palavras com números	477	329
Palavras mistas	17682	2558
Pontuação	1001147	8

Número de unidades estruturais

Atributo	Número
p	228434
s	986935
v	266288
obra	339
capitulo	0
titulo	926
u	785479
fala	29177
autor	339
tituloobra	339
div	2353
mwe	203995
indic	4505
poesia	0
nota	1127
marca	10064

Contabilização de multipalavras

	Número de entidades	Número de unidades
Nomes próprios	504518	775345
Locuções	203995	435471
Palavras gráficas	14777085	14777085
Palavras simples	13566269	13566269
Palavras	14274782	14777085

Distribuição por categoria gramatical

Categoria gramatical	Expressão de procura	Número de palavras	Percentagem do corpo
Substantivos	N\|N[^U].*	2855005	21,04%
Verbos	V.*	2281979	16,82%
Adjectivos	ADJ.*	892100	6,58%
Pronomes pessoais	.PERS.	668116	4,92%
Preposições	PRP.*	2129228	15,70%
Conjunções	K.*	787499	5,80%
Advérbios	ADV.*	850602	6,27%
Determinantes	.DET.	2569046	18,94%
Especificadores	.SPEC.	357746	2,64%
Numerais	NUM.*	146815	1,08%

^{^}Voltar ao início da página

[ Acesso | Anotação | Atomização | Exemplos | Agradecimentos ]

Última actualização: 29 de Janeiro de 2021

Perguntas, comentários e sugestões

AmostRA-NILC	Seleção de textos do corpo NILC, em português brasileiro, contendo textos dos géneros didático, jornalístico e literário, anotada com classificação gramatical, criada no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC
ANCIB	Corpo de correio electrónico da lista ANCIB
Avante!	Corpo de artigos da edição electrónica do Avante!, jornal semanal do Partido Comunista Português
CBRAS	Um grande corpo de português brasileiro contendo muitos géneros diferentes, obtido da Rede
CDHAREM	As colecções douradas usadas no HAREM
CETEMPúblico	CETEMPúblico (Corpo de Extractos de Textos Electrónicos MCT/Público)
CHAVE	Corpo de texto jornalístico usado no CLEF
CIENCIAVIVA	Textos escritos sobre ciência em Portugal
COLONIA	Corpo de textos históricos do século XVI ao XIX, de Portugal e do Brasil
C-ORAL-BRASIL	Corpo oral de conversas informais no estado de Minas Gerais
CONDIVport	Parte do corpo CONDIVport, contendo textos de jornais desportivos de Portugal e do Brasil
CoNE	Corpo de Correio Não-Endereçado, criado pela Linguateca
CORDIAL-SIN	Corpo de excertos de conversas orais, semidirigidas, em Portugal
DHBB	Corpo de verbetes enciclopédicos sobre políticos brasileiros
DiaCLAV	Corpo de artigos da edição electrónica de jornais regionais da região centro de Portugal (Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário)
Diáspora TL-PT	Corpo de entrevistas a timorenses radicados em Portugal
ECI-EBR	A parte do corpo Borba-Ramsey, contido no European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ECI-EE	A parte da apresentação do programa Esprit do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ENPCPUB	Parte disponibilizável do subconjunto em português do English-Norwegian Parallel Corpus (ENPC) (traduções para português de originais em inglês)
Floresta	Corpo relativo ao material da Floresta Sintá(c)tica
FrasesPP	Corpo FrasesPP, desenvolvido no Grupo de PLN do INESC em 1990-93
FrasesPB	Corpo FrasesPB, criado no âmbito do Projecto Processamento Computacional do Português
Mariano Gago	Notícias sobre Mariano Gago e textos dele e sobre ele
Marielle, presente!	Textos escritos por Marielle Franco, e sobre ela
Moçambula	Carta de leitores em jornais moçambicanos
Museu da Pessoa	Corpo de entrevistas portuguesas e brasileiras realizadas pelo Museu da Pessoa
Natura/Minho	Corpo jornalístico Natura/Diário do Minho
NOBRE	Corpo de texto literário lusófono publicado na Europa
OBras	Corpo de texto literário brasileiro
P'lo Norte	Corpo de blogues de portugueses sobre a Noruega
ReLi	Corpo de resenhas de livros na Rede, criadas por alunos brasileiros, anotadas com polaridade e objeto de opinião
NILC/São Carlos	Corpo NILC/São Carlos (parte corrigida), contendo texto jornalístico, didáctico e epistolar.
Tycho Brahe	Corpo Tycho Brahe
TodosJuntos	Todos os corpos combinados, evitando repetições.
Vercial	Corpo de textos literários portugueses clássicos, disponibilizados pelo projecto Vercial.

Corpo	Nº de frases	Nº de parágrafos	Nº de palavras (formas)	Nº de palavras (tipos)	Nº de unidades
AmostRA-NILC	4.965	4.904	99.267	17.155	128.517
ANCIB	83.504	60.116	1.257.785	74.286	1.698.148
Avante!	193.107	62.527	6.615.426	122.205	7.782.139
Corpus Brasileiro	43.044.013	11.275	959.172.637	4.864.314	1.134.414.006
CD HAREM	12.558	7.276	225.766	30.985	290.001
CETEMPúblico	7.017.260	2.568.010	195.231.421	950.002	239.113.359
CHAVE	4.762.289	2.272.811	101.444.276	737.712	127.436.563
Ciência Viva	27.270	12.483	663.487	41.893	805.307
Colonia	283.547	283.547	4.981.875	174.438	6.658.516
CONDIVport	301.077	148.893	5.627.261	155.195	7.200.795
CONDIVport2	6.533	3.929	175.277	19.973	212.075
CoNE	31.563	19.416	681.377	43.118	921.366
C-Oral-Brasil	30.634	0	267.102	14.433	439.519
CORDIAL-SIN	98.010	48.938	857.066	29.657	1.494.736
CorpiRef	0	0	0	0
CorTrad, lado português	76.246	18.254	1.448.966	69.794	1.952.456
DHBB	461.808	12.045	14.177.792	122.549	16.096.075
DiaCLAV	210.373	24.439	6.710.948	111.597	7.849.857
Diáspora TL-PT	1.035	0	21.908	3.047	27.409
DisPR	10.647	5.819	275.592	20.834	330.043
ECI-EBR	44.381	12.117	728.951	60.175	924.904
ECI-EE	789	340	25.779	3.970	30.277
ENPCPUB (parte em português)	4.371	1.682	72.798	12.884	92.679
Floresta	257.017	37.681	4.779.248	160.147	5.815.359
FrasesPB	652	648	19.185	6.007	23.259
FrasesPP	594	594	16.266	5.088	20.030
Mariano Gago	22.931	11.357	569.843	31.627	693.884
LeMe	178.686	143.624	2.581.509	42.086	3.496.795
Literateca	2.336.988	817.670	37.864.742	568.296	52.741.328
Marielle, presente!	20.444	10.291	409.831	26.063	506.032
Moçambula	2.285	133	59.038	10.745	69.469
Museu da Pessoa	93.466	11.771	1.431.615	42.627	1.846.889
Natura/Minho	70.277	56.927	1.800.223	68.325	2.255.442
NOBRE	542.753	189.081	9.519.239	247.222	13.044.521
OBras	636.552	235.911	10.292.746	234.040	14.517.326
PANTERA, lado português	46.065	15.817	642.728	47.288	950.926
P'lo Norte	2.381	1.121	41.226	8.162	52.751
Português Falado - Documentos Autênticos	7.569	3.500	107.215	8.629	148.582
ReLi	7.231	0	128.784	13.086	157.560
NILC/São Carlos	2.054.104	873.552	32.886.779	436.350	43.249.538
todos juntos	56.970.430	6.101.626	1.261.058.299	5.491.047	1.518.927.964
Tycho Brahe	135.623	136.065	3.344.141	149.139	4.226.634
Vercial	987.669	228.567	14.777.085	328.484	20.876.163
Total	64.109.267	8.353.131	1.422.034.200	--	1.720.591.235

Corpus	Formas
Corpus	N	ADJ	ADV	V	NUM	GRAM	todos
AmostRA	6387	2736	423	5948	300	532	17202
ANCIB	21897	9586	1179	18001	5201	1472	76471
Avante!	32009	18435	2485	46261	4994	2143	122235
CDHAREM	10212	4228	610	8887	979	628	31180
CETEMPúblico	205369	93621	9562	217258	121891	12533	982265
CHAVE	164565	76600	7373	173039	91949	8466	738517
Ciência Viva	12771	7083	907	12751	1515	825	42344
Colonia	49017	24535	3017	87128	1430	2108	174452
ConDIVport	44597	25411	2958	55364	5958	2413	157513
ConDIVport2	6666	2674	432	5994	850	558	20151
ConE	14514	5685	715	9607	3979	1522	46688
C-ORAL_Brasil	5534	1819	358	4920	339	963	14583
CORDIAL-SIN	11325	2754	375	14355	155	948	29803
Parte portuguesa do CorTrad	21613	11140	1166	25234	1704	1573	69885
DHBB	29290	15317	1559	36349	9905	1956	127964
DiaCLAV	31460	15494	1692	39092	5663	1789	111619
Diáspora TL-PT	986	311	163	1087	89	348	3069
DisPR	5885	3971	743	9520	295	567	20901
ECI-EBR	19629	10135	1256	24007	768	1015	60376
ECI-EE	1333	829	202	1259	217	304	4122
ENPC (parte pública)	4423	1978	455	5044	138	497	12909
Floresta	46916	21872	2189	48643	6024	3144	164357
FrasesPB	2576	951	216	1767	66	334	6019
FrasesPP	2058	873	211	1452	76	323	5104
Mariano Gago	9739	4919	853	11653	865	870	31895
LeMe	12905	8448	689	8702	3921	1068	43122
Literateca	148377	73744	8413	281913	4573	6188	568681
Marielle, presente!	8222	3679	573	8621	1110	843	26464
Moçambula	3745	1648	418	3785	178	518	10789
Museu da Pessoa	14677	5996	774	17245	572	894	42637
Natura/Minho	20814	10114	1223	21702	3948	1260	69861
NOBRE	63811	36066	4648	131204	1556	3996	248608
OBras	59574	33072	4102	127317	1546	2389	234140
Plonorte	2888	1181	337	2579	249	460	8220
PortFalDA	3312	1124	260	3435	56	418	8637
ReLi	4258	2483	563	4980	141	1722	14274
NILC/São Carlos	105161	48971	4507	105471	61462	4545	436492
Vercial	82466	41846	4793	166044	3377	3230	328583
	393586	178483	16371	461789	206806	25298	1753945

Corpus	Lemas
Corpus	N	ADJ	ADV	V	NUM	GRAM	PROP	todos	todos/pos
AmostRA	4882	1873	329	1863	322	172	1486	10752	10933
ANCIB	11581	4364	841	3084	5511	467	34149	58715	60002
Avante!	17282	7640	1980	4450	6183	741	52451	89195	90733
CDHAREM	7150	2709	459	2145	983	191	6930	20258	20567
CETEMPúblico	111283	33151	6751	12016	135907	7330	1092647	1376871	1399092
CHAVE	81102	27091	5425	10472	100426	4241	691127	904078	919891
Ciência Viva	8285	3613	738	2349	1662	271	10039	26398	26962
Colonia	26229	9891	2308	7708	1806	608	26424	73254	74980
ConDIVport	21480	9962	2159	5253	7313	673	46044	90475	92889
ConDIVport2	4625	1667	340	1581	867	192	4109	13066	13387
ConE	7571	2693	474	2022	4093	325	16510	33017	33693
C-ORAL_Brasil	4058	1174	231	1381	332	246	1845	8846	9273
CORDIAL-SIN	6295	1401	224	2085	304	281	1900	12260	12496
Parte portuguesa do CorTrad	13106	5520	953	3627	2120	652	15539	40192	41523
DHBB	17558	6566	1272	3764	10471	1128	148066	186889	188832
DiaCLAV	16825	6687	1305	4023	6377	825	64046	98545	100094
Diáspora TL-PT	799	221	116	353	87	128	221	1847	1931
DisPR	4090	2169	624	1837	311	179	1066	10157	10282
ECI-EBR	12492	5363	1029	3794	1127	324	8947	32405	33082
ECI-EE	990	529	180	480	220	106	133	2584	2644
ENPC (parte pública)	3452	1384	369	1432	122	161	722	7534	7648
Floresta	30516	11249	1886	6797	6138	610	86695	142045	143896
FrasesPB	2126	733	187	826	58	117	214	4175	4267
FrasesPP	1680	673	183	660	71	122	191	3532	3586
Mariano Gago	6308	2700	668	2110	927	288	7234	19937	20241
LeMe	7938	4514	528	2026	3942	1176	15458	34277	35587
Literateca	71297	25957	6261	17294	6345	1242	161817	279733	290221
Marielle, presente!	4981	2058	434	1885	1187	263	6496	16967	17310
Moçambula	2780	1122	320	1241	180	170	815	6537	6634
Museu da Pessoa	9095	3204	594	2804	739	318	7951	24030	24711
Natura/Minho	11544	4762	926	3199	4473	456	30240	54755	55606
NOBRE	31296	13375	3549	8902	2023	692	35639	92215	95482
OBras	28560	11800	3257	8224	2039	673	34001	85886	88560
Plonorte	2170	786	253	850	246	160	765	5129	5236
PortFalDA	2647	767	243	1028	132	186	424	5312	5433
ReLi	2949	1410	372	1358	142	221	792	6931	7250
NILC/São Carlos	47817	17949	3310	8299	66911	1834	289881	427567	436007
Vercial	41277	15242	3689	10981	4234	840	89928	161363	166197
	207292	64450	11328	27819	229830	12172	1868925	2379721	2420807

Tabela 1 - Corpus de treinamento e teste
Tipo de Corpus		Tamanho do corpus
D	Didático	16.255 palavras
J	Jornalístico	56.653 palavras
L	Literário	32.054 palavras

genero	Gênero	Fonte
ei	Acadêmico	Artigos
ej	Acadêmico	Teses e dissertações
eq	Acadêmico	Anais de congresso
en	Cinema e TV	Roteiros
ee/ef	Educação	Diversos
ee/ef	Educação	Diversos
et	Enciclopédia	Wikipédia
fa	Esporte	Narração de jogos de futebol
ek	Informática	Manuais
ed	Jornalismo	Revistas
eg	Jornalismo	Jornais
eo	Jornalismo	Horóscopo
fe	Jornalismo	Entrevistas
em/ex	Legislação	Diversos
em/ex	Legislação	Diversos
eb	Literatura	Contos
ec	Literatura	Crônicas
eh/ew	Literatura	Variados
eh/ew	Literatura	Variados
eu	Literatura	Biografias
ea	Medicina	Bulas de remédio
ep	Política	Atas de assembléia legislativa
fb	Política	Debates de TV
fc	Política	Pronunciamentos do presidente
fd	Política	Sessões do congresso
el	Religião	Diversos
ev	Religião	Bíblia
er/es	Técnico	Relatórios e manuais diversos
er/es	Técnico	Relatórios e manuais diversos

Género	Unidades
ea	113.111
eb	61.168
ec	166.529
ed	497.106
ee	77.538.811
ef	2.267.630
eg	255.976.444
eh	1.375.882
ei	184.060.342
ej	270.776.515
ek	717.373
el	926.147
em	227.156
en	319.419
eo	4.308
ep	4.053.183
eq	6.965.045
er	5.722.902
es	6.655.524
et	53.690.513
eu	1.735.800
ev	2.659.377
ew	21.849.612
ex	26.872.755
fa	258.840
fb	65.844
fc	5.424.990
fd	86.907.734
fe	4.015.274

semestre	tamanho	clt	clt-soc	com	des	eco	nd	opi	pol	soc
91a	7886603	693593	196902	0	938994	554479	3085214	0	1071780	1345641
91b	15192753	1340824	231836	0	1528983	1011469	6131340	0	2301046	2647255
92a	16348268	2673242	571960	0	1629301	1630444	2235740	0	4184456	3423125
92b	12261285	2361819	467620	0	1398860	1393465	545759	0	2895024	3198738
93a	16248024	3376560	956726	0	1594643	1797613	639411	0	3643634	4239437
93b	12954943	2402469	623377	0	1352091	1351559	1151885	0	2735006	3338556
94a	16419555	3227022	932628	0	1622060	1695546	1573158	0	3528260	3840881
94b	15863004	2956393	928838	0	1723261	1687719	1853105	0	3111101	3602587
95a	17771895	2955082	1160531	0	1951429	1730870	2051920	0	3299135	4622928
95b	16710434	2367651	1002660	0	1722706	1521040	2200797	0	3477658	4417922
96a	12726373	1735699	0	13923	1528570	1032941	1288862	665855	2274510	4186013
96b	12428452	1713465	0	0	1651662	846772	1327352	666120	2032749	4190332
97a	10565482	1450540	0	18463	1414919	721358	986619	666125	1745266	3562192
97b	10614785	1447537	0	263668	1321656	701988	1002743	607359	1935869	3333965
98a	13778651	1553186	0	413544	1631575	850610	1872977	690043	2110806	4655910
98b	9554076	1112954	0	290884	1116165	607395	916162	462371	1755329	3292816
Todos		33368036	7073078	1000482	24126875	19135268	28863044	3757873	42101629	57898298

	Tamanho	Futebol	Moda/vestuário	Saúde
PT	3372912	1703420	325407	1344085
BR	2655074	1371780	801349	481945
Todos		3075200	1126761	1826030

	Tamanho	Futebol	Moda/vestuário	Saúde
PT	3333411	1679290	316853	1337268
BR	2649379	1367115	801410	480854
Todos		3046405	1118273	1818122

Género	Unidades	Textos
Literatura	384.961	157
Informativo	203.436	288
Jornalismo	89.086	537
Oral	66.092	29
Outros	16.419	33
Indef	16.935	82

Assuntos	Unidades	Textos
Agricultura	3458	8
Arqueologia	1681	3
Arte	4255	4
Astrologia	1294	1
Biologia	3662	3
Botânica	6095	4
Ciência	7402	9
Clima	302	1
Crónica	3761	11
Culinária	1316	1
Cultura	5795	44
Desporto	8227	39
Direito	1746	4
Ecologia	326	2
Economia	18441	60
Edição	823	1
Educação	1105	1
Entretenimento	5084	31
Entrevista	592	3
Escutismo	424	1
Estatística	1253	1
Filatelia	1113	1
Filosofia	3470	3
Física	627	1
Fotografia	1056	2
Generalidades	5411	44
Generealidades	120	1
Geografia	3721	6
Geologia	77	1
Gestão	2247	2
Hidrografia	1280	1
História	35242	30
Indef	484736	1
Indústria	1375	3
Internacional	8196	57
Jornalismo	284	537
Linguística	8066	11
Literatura	8234	14
Maternidade	344	1
Medicina	16881	18
Música	1717	3
Oceanografia	302	1
País	44860	206
Política	19780	36
Psicologia	2412	5
Religião	21243	32
Reportagem	1298	3
Saúde	4615	19
Sociedade	7399	58
Sociologia	10432	15
Título	174	12
Turismo	188	1
Zoologia	2987	15

Tipo	Descrição	Tamanho
noticia	texto noticioso	169.445
discurso	discursos	17.896
entrevista	entrevistas	33.492
outros	outros	344.955
sitiohomenagem	sítio de homenagem	37.140

Estatuto	Tamanho
outro	5.432
residente	17.221
visitante	21.380

Blogue	Tamanho
alesund	698
analogias	193
autocarro	462
barbaros	641
bergen	218
bolso	964
breivik	3.745
cabonorte	1.658
chuvabagas	572
dicas	1.061
dicastrabalho	1.071
duas	659
entrevista	1.672
exemplar	1.038
festival	477
fiordes	788
fofocas	392
fondant	372
gratulerer	1.832
gravidez	228
idilico	675
limpar	853
mapa	575
mochila	5.518
multa	152
noruega	1.569
olha	726
passeando	3.084
Paulo	144
pipocas	119
princesas	3.345
sardinha	919
svalbard	606
teambuilding	107
trondheim	1.002
trondheim2	2.371
tubarao	1.477
viajarcriancas	2.050

Género	Unidades
academico	409.552.077
blog	4.253.225
cartas	842.924
desc	3.432.044
encic	17.734.659
ensaio	2.219.797
jorn	669.804.963
legal	9.791.855
lit	48.597.042
littrad	77.742
mail	2.084.027
misto	389.380
oraldebate	37.004
oralent	6.674.191
oralfut	86.132
oralinf	292.678
oralmono	77.526.185
recensoes	265.223
religioso	874.402
revistas	647.609
teatro	1.148.728
tecnico	86.312.671
variado	137.824