Além de apontar para a informação original fornecida pelos compiladores e de apresentar uma contabilização sumária de todos os corpos em forma de tabela, descreve várias opções básicas tomadas na codificação dos corpos no ambiente escolhido, o CWB. Sem que estas opções sejam explicitadas, não é possível compreender os resultados quantitativos ou comparar com outros trabalhos sobre os mesmos corpos.
Todos os corpos foram anotados pelo PALAVRAS, o analisador sintáctico criado Eckhard Bick, Bick (2000). Veja-se a página de anotação para mais informações sobre essa anotação.
AmostRA-NILC | Seleção de textos do corpo NILC, em português brasileiro, contendo textos dos géneros didático, jornalístico e literário, anotada com classificação gramatical, criada no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC |
ANCIB | Corpo de correio electrónico da lista ANCIB |
Avante! | Corpo de artigos da edição electrónica do Avante!, jornal semanal do Partido Comunista Português |
CBRAS | Um grande corpo de português brasileiro contendo muitos géneros diferentes, obtido da Rede |
CDHAREM | As colecções douradas usadas no HAREM |
CETEMPúblico | CETEMPúblico (Corpo de Extractos de Textos Electrónicos MCT/Público) |
CHAVE | Corpo de texto jornalístico usado no CLEF |
CIENCIAVIVA | Textos escritos sobre ciência em Portugal |
COLONIA | Corpo de textos históricos do século XVI ao XIX, de Portugal e do Brasil |
C-ORAL-BRASIL | Corpo oral de conversas informais no estado de Minas Gerais |
CONDIVport | Parte do corpo CONDIVport, contendo textos de jornais desportivos de Portugal e do Brasil |
CoNE | Corpo de Correio Não-Endereçado, criado pela Linguateca |
CORDIAL-SIN | Corpo de excertos de conversas orais, semidirigidas, em Portugal |
DHBB | Corpo de verbetes enciclopédicos sobre políticos brasileiros |
DiaCLAV | Corpo de artigos da edição electrónica de jornais regionais da região centro de Portugal (Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário) |
Diáspora TL-PT | Corpo de entrevistas a timorenses radicados em Portugal |
ECI-EBR | A parte do corpo Borba-Ramsey, contido no European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI) |
ECI-EE | A parte da apresentação do programa Esprit do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI) |
ENPCPUB | Parte disponibilizável do subconjunto em português do English-Norwegian Parallel Corpus (ENPC) (traduções para português de originais em inglês) |
Floresta | Corpo relativo ao material da Floresta Sintá(c)tica |
FrasesPP | Corpo FrasesPP, desenvolvido no Grupo de PLN do INESC em 1990-93 |
FrasesPB | Corpo FrasesPB, criado no âmbito do Projecto Processamento Computacional do Português |
Mariano GagoNotícias sobre Mariano Gago e textos dele e sobre ele | |
Marielle, presente!Textos escritos por Marielle Franco, e sobre ela | |
MoçambulaCarta de leitores em jornais moçambicanos | |
Museu da PessoaCorpo de entrevistas portuguesas e brasileiras realizadas pelo Museu da Pessoa | |
Natura/Minho | Corpo jornalístico Natura/Diário do Minho |
NOBRECorpo de texto literário lusófono publicado na Europa | |
OBrasCorpo de texto literário brasileiro | |
P'lo NorteCorpo de blogues de portugueses sobre a Noruega | |
ReLiCorpo de resenhas de livros na Rede, criadas por alunos brasileiros, anotadas com polaridade e objeto de opinião | |
NILC/São Carlos | Corpo NILC/São Carlos (parte corrigida), contendo texto jornalístico, didáctico e epistolar. |
Tycho Brahe | Corpo Tycho Brahe |
TodosJuntos | Todos os corpos combinados, evitando repetições. |
Vercial | Corpo de textos literários portugueses clássicos, disponibilizados pelo projecto Vercial. |
Este processo, que chamamos atomização, encontra-se descrito em Atomização, e inclui também a divisão em frases, obtida automaticamente na maior parte dos casos.
De forma a poder comparar os vários corpos numa única tabela, convém notar que os elementos classificados como títulos, legendas, etc. não foram considerados frases para efeitos desta contagem. Por outro lado, os parágrafos (geralmente curtos) sem pontuação final são marcados como frases, do tipo fragmento.
Esta contabilização é atualizada sempre que há criação de novas versões.
Corpo | Nº de frases | Nº de parágrafos | Nº de palavras (formas) | Nº de palavras (tipos) | Nº de unidades |
AmostRA-NILC | 4.965 | 4.904 | 99.267 | 17.155 | 128.517 |
ANCIB | 83.504 | 60.116 | 1.257.785 | 74.286 | 1.698.148 |
Avante! | 193.107 | 62.527 | 6.611.270 | 120.676 | 7.790.515 |
Corpus Brasileiro | 41.252.530 | 10.664 | 908.625.706 | 5.175.522 | 1.074.930.997 |
CD HAREM | 12.558 | 7.276 | 225.766 | 30.985 | 290.001 |
CETEMPúblico | 7.017.260 | 2.568.010 | 195.231.421 | 950.002 | 239.113.359 |
CHAVE | 4.762.290 | 2.272.811 | 101.324.906 | 712.188 | 127.881.425 |
Ciência Viva | 27.270 | 12.483 | 663.487 | 41.893 | 805.307 |
Colonia | 299.171 | 299.171 | 5.196.107 | 173.976 | 6.965.290 |
CONDIVport | 301.077 | 148.893 | 5.627.261 | 155.195 | 7.200.795 |
CONDIVport2 | 6.533 | 3.929 | 175.277 | 19.973 | 212.075 |
CoNE | 31.563 | 19.416 | 681.377 | 43.118 | 921.366 |
C-Oral-Brasil | 30.634 | 0 | 267.102 | 14.433 | 439.519 |
CORDIAL-SIN | 98.010 | 48.938 | 857.066 | 29.657 | 1.494.736 |
CorTrad, lado português | 65.370 | 16.019 | 1.307.745 | 66.737 | 1.739.029 |
DHBB | 461.808 | 12.045 | 14.177.792 | 122.549 | 16.096.075 |
DiaCLAV | 210.373 | 24.439 | 6.701.348 | 109.308 | 7.854.974 |
Diáspora TL-PT | 1.035 | 0 | 21.908 | 3.047 | 27.409 |
DisPR | 10.647 | 5.819 | 275.592 | 20.834 | 330.043 |
ECI-EBR | 44.381 | 12.117 | 728.951 | 60.175 | 924.904 |
ECI-EE | 789 | 340 | 25.779 | 3.970 | 30.277 |
ENPCPUB (parte em português) | 4.371 | 1.682 | 72.798 | 12.884 | 92.679 |
Floresta | 257.017 | 37.681 | 4.779.248 | 160.147 | 5.815.359 |
FrasesPB | 652 | 648 | 19.185 | 6.007 | 23.259 |
FrasesPP | 594 | 594 | 16.266 | 5.088 | 20.030 |
Mariano Gago | 22.931 | 11.357 | 569.843 | 31.627 | 693.884 |
LeMe | 178.686 | 143.624 | 2.581.509 | 42.086 | 3.496.795 |
Literateca | 2.311.471 | 818.445 | 37.326.463 | 560.325 | 52.083.367 |
Marielle, presente! | 20.444 | 10.291 | 409.831 | 26.063 | 506.032 |
Moçambula | 2.285 | 133 | 59.038 | 10.745 | 69.469 |
Museu da Pessoa | 93.466 | 11.771 | 1.431.277 | 42.502 | 1.847.292 |
Natura/Minho | 70.277 | 56.927 | 1.800.223 | 68.325 | 2.255.442 |
NOBRE | 504.411 | 177.222 | 8.856.498 | 239.499 | 12.149.628 |
OBras | 636.607 | 235.357 | 10.274.921 | 232.415 | 14.512.445 |
PANTERA, lado português | 43.240 | 15.471 | 636.189 | 46.206 | 939.091 |
P'lo Norte | 2.381 | 1.121 | 41.226 | 8.162 | 52.751 |
Português Falado - Documentos Autênticos | 7.569 | 3.500 | 107.215 | 8.629 | 148.582 |
ReLi | 7.231 | 0 | 128.784 | 13.086 | 157.560 |
NILC/São Carlos | 2.148.320 | 903.087 | 35.145.895 | 414.436 | 46.194.786 |
todos juntos | 56.970.430 | 6.101.626 | 1.261.058.299 | 5.491.047 | 1.518.927.964 |
Tycho Brahe | 135.842 | 136.284 | 3.341.892 | 148.914 | 4.220.057 |
Vercial | 986.803 | 228.119 | 14.741.576 | 326.980 | 20.856.814 |
Total | 62.349.473 | 8.383.231 | 1.372.422.790 | -- | 1.663.010.083 |
A maior parte dos corpos requereu tratamento específico e opções dedicadas, que serão mencionadas na descrição de cada caso. Como opções gerais, mais detalhadas na página de atomização, temos:
Citando Aires 2000 (secção 4.1.1)
" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:
(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.
(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)
Tabela 1 - Corpus de treinamento e teste | ||
---|---|---|
Tipo de Corpus | Tamanho do corpus | |
D | Didático | 16.255 palavras |
J | Jornalístico | 56.653 palavras |
L | Literário | 32.054 palavras |
(fim de citação)
Corpus AmostRA-NILC duplamente anotado, versão texto de 7 de Agosto de 2003 com primeira anotação do NILC (Rachel Aires), anotado a 13 de julho de 2024, v. 8.2
Agradecemos a Rachel Aires a disponibilização do corpus.
Corpo AMOSTRA | Número de formas | Número de tipos |
Unidades | 128517 | 17202 |
Total de palavras | 99267 | 17155 |
Palavras em minúscula | 78338 | 13522 |
Palavras com inicial maiúscula | 8253 | 2401 |
Palavras todas em maiúsculas | 464 | 19 |
Números | 909 | 186 |
Palavras com números | 73 | 48 |
Palavras mistas | 41 | 24 |
Pontuação | 6254 | 47 |
Atributo | Número |
s | 4965 |
p | 4904 |
mwe | 1629 |
Número de entidades | Número de unidades | |
Nomes próprios | 3494 | 5044 |
Locuções | 1629 | 3454 |
Palavras gráficas | 99267 | 99267 |
Palavras simples | 90769 | 90769 |
Palavras | 95892 | 99267 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 23041 | 25,38% |
Verbos | V.* | 14189 | 15,63% |
Adjectivos | ADJ.* | 6430 | 7,08% |
Pronomes pessoais | .*PERS.* | 2262 | 2,49% |
Preposições | PRP.* | 17074 | 18,81% |
Conjunções | K.* | 4038 | 4,45% |
Advérbios | ADV.* | 4669 | 5,14% |
Determinantes | .*DET.* | 17435 | 19,21% |
Especificadores | .*SPEC.* | 1621 | 1,79% |
Numerais | NUM.* | 1789 | 1,97% |
Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.
Corpus ANCIB, versão texto de Junho de 2009, anotado a 6 de julho de 2024, v. 10.1
Agradecemos a Aldo Barreto a autorização gentilmente cedida para uso dos textos da lista.
Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.
Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.
Foram transformados alguns caracteres ['A==>À, e'==>é, etc].
O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].
O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.
Corpo ANCIB | Número de formas | Número de tipos |
Unidades | 1698148 | 76471 |
Total de palavras | 1257785 | 74286 |
Palavras em minúscula | 840443 | 34833 |
Palavras com inicial maiúscula | 203720 | 20698 |
Palavras todas em maiúsculas | 41938 | 7004 |
Números | 19530 | 1183 |
Palavras com números | 2489 | 674 |
Palavras mistas | 2841 | 1397 |
Pontuação | 109868 | 2054 |
Atributo | Número |
p | 60090 |
s | 83469 |
mwe | 12271 |
autor | 2925 |
mens | 3012 |
assunto | 3000 |
li | 0 |
titulo | 0 |
cita | 81 |
Número de entidades | Número de unidades | |
Nomes próprios | 91894 | 184955 |
Locuções | 12271 | 26527 |
Palavras gráficas | 1257785 | 1257785 |
Palavras simples | 1046303 | 1046303 |
Palavras | 1150468 | 1257785 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 290332 | 27,75% |
Verbos | V.* | 128137 | 12,25% |
Adjectivos | ADJ.* | 80089 | 7,65% |
Pronomes pessoais | .*PERS.* | 12913 | 1,23% |
Preposições | PRP.* | 204102 | 19,51% |
Conjunções | K.* | 55718 | 5,33% |
Advérbios | ADV.* | 37336 | 3,57% |
Determinantes | .*DET.* | 192781 | 18,42% |
Especificadores | .*SPEC.* | 15293 | 1,46% |
Numerais | NUM.* | 30909 | 2,95% |
Corpus Avante, versão de 6 de Março de 2006, anotado a 7 de julho de 2024, v. 9.1
Estamos gratos à direcção do «Avante!», em especial ao seu director José Casanova, pela autorização gentilmente cedida para a elaboração deste corpus.
Corpo AVANTE | Número de formas | Número de tipos |
Unidades | 7790515 | 122196 |
Total de palavras | 6611270 | 120676 |
Palavras em minúscula | 5096947 | 67869 |
Palavras com inicial maiúscula | 661316 | 29162 |
Palavras todas em maiúsculas | 82605 | 3432 |
Números | 58485 | 1596 |
Palavras com números | 1094 | 340 |
Palavras mistas | 1703 | 745 |
Pontuação | 350834 | 1498 |
Atributo | Número |
art | 8055 |
t | 26379 |
a | 2 |
p | 62527 |
li | 7725 |
s | 193105 |
mwe | 115662 |
Número de entidades | Número de unidades | |
Nomes próprios | 285675 | 514699 |
Locuções | 115662 | 249874 |
Palavras gráficas | 6611270 | 6611270 |
Palavras simples | 5846697 | 5846697 |
Palavras | 6248034 | 6611270 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 1440977 | 24,65% |
Verbos | V.* | 779908 | 13,34% |
Adjectivos | ADJ.* | 450652 | 7,71% |
Pronomes pessoais | .*PERS.* | 89212 | 1,53% |
Preposições | PRP.* | 1232261 | 21,08% |
Conjunções | K.* | 310614 | 5,31% |
Advérbios | ADV.* | 287144 | 4,91% |
Determinantes | .*DET.* | 1259066 | 21,53% |
Especificadores | .*SPEC.* | 130866 | 2,24% |
Numerais | NUM.* | 104110 | 1,78% |
Corpus Brasileiro anotado, versão de 24 de setembro de 2023, v. 7.0
Tony Berber Sardinha, a quem estamos gratos pela autorização para a disponibilização deste corpus, agradece à Fapesp o financiamento do projeto.
Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:
genero | Gênero | Fonte |
ei | Acadêmico | Artigos |
ej | Acadêmico | Teses e dissertações |
eq | Acadêmico | Anais de congresso |
en | Cinema e TV | Roteiros |
ee/ef | Educação | Diversos |
ee/ef | Educação | Diversos |
et | Enciclopédia | Wikipédia |
fa | Esporte | Narração de jogos de futebol |
ek | Informática | Manuais |
ed | Jornalismo | Revistas |
eg | Jornalismo | Jornais |
eo | Jornalismo | Horóscopo |
fe | Jornalismo | Entrevistas |
em/ex | Legislação | Diversos |
em/ex | Legislação | Diversos |
eb | Literatura | Contos |
ec | Literatura | Crônicas |
eh/ew | Literatura | Variados |
eh/ew | Literatura | Variados |
eu | Literatura | Biografias |
ea | Medicina | Bulas de remédio |
ep | Política | Atas de assembléia legislativa |
fb | Política | Debates de TV |
fc | Política | Pronunciamentos do presidente |
fd | Política | Sessões do congresso |
el | Religião | Diversos |
ev | Religião | Bíblia |
er/es | Técnico | Relatórios e manuais diversos |
er/es | Técnico | Relatórios e manuais diversos |
Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.
Genero | Unidades |
ea | 113.004 |
eb | 60.868 |
ec | 162.270 |
ed | 493.987 |
ee | 77.837.313 |
ef | 2.238.525 |
eg | 252.463.912 |
eh | 1.175.698 |
ei | 250.833.467 |
ej | 181.548.444 |
ek | 708.979 |
el | 917.894 |
em | 227.015 |
en | 316.515 |
eo | 4.295 |
ep | 4.046.134 |
eq | 6.892.724 |
er | 5.702.083 |
es | 6.626.983 |
et | 51.643.541 |
eu | 1.149.622 |
ev | 1.748.662 |
ew | 14.463.244 |
ex | 17.885.556 |
fa | 171.494 |
fb | 43.900 |
fc | 3.609.644 |
fd | 81.409.234 |
fe | 3.996.416 |
Corpo CBRAS | Número de formas | Número de tipos |
Unidades | 1074930997 | 5729167 |
Total de palavras | 908625706 | 5175522 |
Palavras em minúscula | 616724751 | 1284008 |
Palavras com inicial maiúscula | 121001747 | 1108312 |
Palavras todas em maiúsculas | 27235131 | 377934 |
Números | 19580384 | 98961 |
Palavras com números | 2194475 | 425360 |
Palavras mistas | 3627211 | 382962 |
Pontuação | 59978372 | 534519 |
Atributo | Número |
p | 83 |
s | 39267248 |
mwe | 11863111 |
Número de entidades | Número de unidades | |
Nomes próprios | 64131442 | 103782846 |
Locuções | 11863111 | 25218989 |
Palavras gráficas | 908618773 | 908618773 |
Palavras simples | 779616938 | 779616938 |
Palavras | 855611491 | 908618773 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 211065924 | 27,07% |
Verbos | V.* | 100852521 | 12,94% |
Adjectivos | ADJ.* | 59488230 | 7,63% |
Pronomes pessoais | .*PERS.* | 11276561 | 1,45% |
Preposições | PRP.* | 149418513 | 19,17% |
Conjunções | K.* | 35688842 | 4,58% |
Advérbios | ADV.* | 31145023 | 3,99% |
Determinantes | .*DET.* | 139008837 | 17,83% |
Especificadores | .*SPEC.* | 11783243 | 1,51% |
Numerais | NUM.* | 31521741 | 4,04% |
Corpus Colecção Dourada do HAREM, a partir das versões das CD do Primeiro HAREM de 2007, anotado em 3 de Maio de 2010, criado a 15 de Maio de 2010, versão 3.2
Corpo CDHAREM | Número de formas | Número de tipos |
Unidades | 290001 | 31214 |
Total de palavras | 225766 | 30985 |
Palavras em minúscula | 165617 | 19241 |
Palavras com inicial maiúscula | 32737 | 7956 |
Palavras todas em maiúsculas | 1400 | 1046 |
Números | 2887 | 564 |
Palavras com números | 123 | 83 |
Palavras mistas | 149 | 95 |
Pontuação | 15197 | 229 |
Atributo | Número |
DOC | 386 |
TEXTO | 386 |
LOCAL | 3494 |
ORGANIZACAO | 2621 |
VALOR | 1153 |
COISA | 640 |
ACONTECIMENTO | 501 |
OBRA | 863 |
PESSOA | 4014 |
TEMPO | 1970 |
ABSTRACCAO | 1195 |
VARIADO | 54 |
OUTRO | 110 |
p | 7262 |
s | 12530 |
ALT | 533 |
EM | 15908 |
mwe | 3913 |
Número de entidades | Número de unidades | |
Nomes próprios | 12178 | 22866 |
Locuções | 3913 | 8318 |
Palavras gráficas | 225766 | 225766 |
Palavras simples | 194582 | 194582 |
Palavras | 210673 | 225766 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 45363 | 23,31% |
Verbos | V.* | 30984 | 15,92% |
Adjectivos | ADJ.* | 12191 | 6,27% |
Pronomes pessoais | .*PERS.* | 5198 | 2,67% |
Preposições | PRP.* | 35007 | 17,99% |
Conjunções | K.* | 10098 | 5,19% |
Advérbios | ADV.* | 13231 | 6,80% |
Determinantes | .*DET.* | 38627 | 19,85% |
Especificadores | .*SPEC.* | 3841 | 1,97% |
Numerais | NUM.* | 4667 | 2,40% |
Corpus CETEMPúblico anotado: versão 2.0 do texto, criada a 12 de dezembro de 2023, anotada a 7 de julho de 2024, v. 12.4
Estamos gratos ao Público pela gentil disponibilização dos textos.
Estamos especialmente gratos a José Vitor Malheiros, director da versão electrónica, sem o qual este corpo não existiria, e a Paulo Almeida pelo apoio técnico com os ficheiros electrónicos.
Também agradecemos a Telmo Móia a ajuda prestimosa no teste das primeiras versões do CETEMPúblico 2.0.
Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.
semestre | tamanho | clt | clt-soc | com | des | eco | nd | opi | pol | soc |
---|---|---|---|---|---|---|---|---|---|---|
91a | 7886603 | 693593 | 196902 | 0 | 938994 | 554479 | 3085214 | 0 | 1071780 | 1345641 |
91b | 15192753 | 1340824 | 231836 | 0 | 1528983 | 1011469 | 6131340 | 0 | 2301046 | 2647255 |
92a | 16348268 | 2673242 | 571960 | 0 | 1629301 | 1630444 | 2235740 | 0 | 4184456 | 3423125 |
92b | 12261285 | 2361819 | 467620 | 0 | 1398860 | 1393465 | 545759 | 0 | 2895024 | 3198738 |
93a | 16248024 | 3376560 | 956726 | 0 | 1594643 | 1797613 | 639411 | 0 | 3643634 | 4239437 |
93b | 12954943 | 2402469 | 623377 | 0 | 1352091 | 1351559 | 1151885 | 0 | 2735006 | 3338556 |
94a | 16419555 | 3227022 | 932628 | 0 | 1622060 | 1695546 | 1573158 | 0 | 3528260 | 3840881 |
94b | 15863004 | 2956393 | 928838 | 0 | 1723261 | 1687719 | 1853105 | 0 | 3111101 | 3602587 |
95a | 17771895 | 2955082 | 1160531 | 0 | 1951429 | 1730870 | 2051920 | 0 | 3299135 | 4622928 |
95b | 16710434 | 2367651 | 1002660 | 0 | 1722706 | 1521040 | 2200797 | 0 | 3477658 | 4417922 |
96a | 12726373 | 1735699 | 0 | 13923 | 1528570 | 1032941 | 1288862 | 665855 | 2274510 | 4186013 |
96b | 12428452 | 1713465 | 0 | 0 | 1651662 | 846772 | 1327352 | 666120 | 2032749 | 4190332 |
97a | 10565482 | 1450540 | 0 | 18463 | 1414919 | 721358 | 986619 | 666125 | 1745266 | 3562192 |
97b | 10614785 | 1447537 | 0 | 263668 | 1321656 | 701988 | 1002743 | 607359 | 1935869 | 3333965 |
98a | 13778651 | 1553186 | 0 | 413544 | 1631575 | 850610 | 1872977 | 690043 | 2110806 | 4655910 |
98b | 9554076 | 1112954 | 0 | 290884 | 1116165 | 607395 | 916162 | 462371 | 1755329 | 3292816 |
Todos | 33368036 | 7073078 | 1000482 | 24126875 | 19135268 | 28863044 | 3757873 | 42101629 | 57898298 |
Corpo CETEMPUBLICO | Número de formas | Número de tipos |
Unidades | 239113359 | 982037 |
Total de palavras | 195231421 | 950002 |
Palavras em minúscula | 143657392 | 272522 |
Palavras com inicial maiúscula | 23531016 | 308922 |
Palavras todas em maiúsculas | 1433952 | 32496 |
Números | 1822324 | 10514 |
Palavras com números | 237589 | 14374 |
Palavras mistas | 131543 | 40307 |
Pontuação | 12858631 | 30928 |
Atributo | Número |
p | 2567974 |
s | 7017219 |
ext | 1500650 |
t | 630946 |
a | 228845 |
mwe | 3379657 |
marca | 3808 |
Número de entidades | Número de unidades | |
Nomes próprios | 10406525 | 18410429 |
Locuções | 3379657 | 7198445 |
Palavras gráficas | 195231421 | 195231421 |
Palavras simples | 169622547 | 169622547 |
Palavras | 183408729 | 195231421 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 39233114 | 23,13% |
Verbos | V.* | 24571823 | 14,49% |
Adjectivos | ADJ.* | 11530430 | 6,80% |
Pronomes pessoais | .*PERS.* | 2870079 | 1,69% |
Preposições | PRP.* | 34255424 | 20,20% |
Conjunções | K.* | 7658103 | 4,51% |
Advérbios | ADV.* | 9205190 | 5,43% |
Determinantes | .*DET.* | 34632744 | 20,42% |
Especificadores | .*SPEC.* | 3644771 | 2,15% |
Numerais | NUM.* | 4169230 | 2,46% |
Corpus CHAVE, criado a 8 de julho de 2024, v. 11.1
Agradecemos ao PÚBLICO e à Folha de São Paulo a gentil autorização de disponibilização dos textos.
Corpo CHAVE | Número de formas | Número de tipos |
Unidades | 127881425 | 738397 |
Total de palavras | 101324906 | 712188 |
Palavras em minúscula | 73917530 | 231021 |
Palavras com inicial maiúscula | 12747887 | 232578 |
Palavras todas em maiúsculas | 867566 | 27556 |
Números | 1106453 | 7449 |
Palavras com números | 104104 | 9357 |
Palavras mistas | 158281 | 20119 |
Pontuação | 6915358 | 25412 |
Atributo | Número |
s | 4761899 |
t | 579096 |
p | 2272720 |
mwe | 1638219 |
data | 210731 |
DOC | 210731 |
CATEGORY | 210731 |
EM | 210731 |
Número de entidades | Número de unidades | |
Nomes próprios | 5485812 | 9580949 |
Locuções | 1638219 | 3493966 |
Palavras gráficas | 101324906 | 101324906 |
Palavras simples | 88249991 | 88249991 |
Palavras | 95374022 | 101324906 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 20987921 | 23,78% |
Verbos | V.* | 12973251 | 14,70% |
Adjectivos | ADJ.* | 5918829 | 6,71% |
Pronomes pessoais | .*PERS.* | 1485389 | 1,68% |
Preposições | PRP.* | 17441149 | 19,76% |
Conjunções | K.* | 3969413 | 4,50% |
Advérbios | ADV.* | 4563588 | 5,17% |
Determinantes | .*DET.* | 17647307 | 20,00% |
Especificadores | .*SPEC.* | 1777562 | 2,01% |
Numerais | NUM.* | 2306139 | 2,61% |
A plataforma "Ciência na Imprensa Regional", http://imprensaregional.cienciaviva.pt, é um sistema digital de edição e distribuição de conteúdos de divulgação científica da autoria de cientistas e profissionais de comunicação de ciência. Após edição e catalogação os conteúdos ficam disponíveis para publicação por todos os órgãos de comunicação social, locais e regionais.
Corpo CIENCIAVIVA, criado a 6 de julho de 2024, v. 4.1
Agradecemos a Carlos Catalão Alves, da Direção da Ciência Viva, esta colaboração.
O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).
Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.
Corpo CIENCIAVIVA | Número de formas | Número de tipos |
Unidades | 805307 | 42344 |
Total de palavras | 663487 | 41893 |
Palavras em minúscula | 500181 | 26504 |
Palavras com inicial maiúscula | 76388 | 9353 |
Palavras todas em maiúsculas | 4647 | 930 |
Números | 7728 | 755 |
Palavras com números | 1117 | 512 |
Palavras mistas | 447 | 261 |
Pontuação | 34419 | 424 |
Atributo | Número |
p | 12483 |
s | 27266 |
texto | 1124 |
t | 1124 |
mwe | 11489 |
Número de entidades | Número de unidades | |
Nomes próprios | 29688 | 58741 |
Locuções | 11489 | 24319 |
Palavras gráficas | 663487 | 663487 |
Palavras simples | 580427 | 580427 |
Palavras | 621604 | 663487 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 146325 | 25,21% |
Verbos | V.* | 80112 | 13,80% |
Adjectivos | ADJ.* | 47858 | 8,25% |
Pronomes pessoais | .*PERS.* | 8228 | 1,42% |
Preposições | PRP.* | 116126 | 20,01% |
Conjunções | K.* | 27185 | 4,68% |
Advérbios | ADV.* | 28725 | 4,95% |
Determinantes | .*DET.* | 118495 | 20,42% |
Especificadores | .*SPEC.* | 11498 | 1,98% |
Numerais | NUM.* | 12148 | 2,09% |
Corpo COLONIA, criado a 5 de julho de 2024, v. 10.15
Agradecemos a todos os que tornarem este projeto viável, por terem digitalizado e tornado públicas obras de autores brasileiros.
Utilizámos como marcadores estruturais para todas as obras obra (que contém o identificador original do projeto Colonia), tituloobra (o nome da obra), autor (o autor da obra) e dataobra. Também se encontram marcados, nas obras em que são relevantes, partes como parte, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].
Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), data, variante e seculo, contendo o século em que a obra foi publicada.
Corpo COLONIA | Número de formas | Número de tipos |
Unidades | 6965290 | 174445 |
Total de palavras | 5196107 | 173976 |
Palavras em minúscula | 4042832 | 110566 |
Palavras com inicial maiúscula | 475560 | 29326 |
Palavras todas em maiúsculas | 16503 | 3434 |
Números | 6786 | 1047 |
Palavras com números | 66 | 48 |
Palavras mistas | 2255 | 914 |
Pontuação | 401781 | 342 |
Atributo | Número |
p | 294826 |
s | 294826 |
texto | 0 |
parte | 1805 |
mwe | 83859 |
Número de entidades | Número de unidades | |
Nomes próprios | 144271 | 209224 |
Locuções | 83859 | 181488 |
Palavras gráficas | 5196107 | 5196107 |
Palavras simples | 4805395 | 4805395 |
Palavras | 5033525 | 5196107 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 971796 | 20,22% |
Verbos | V.* | 868053 | 18,06% |
Adjectivos | ADJ.* | 285521 | 5,94% |
Pronomes pessoais | .*PERS.* | 253967 | 5,29% |
Preposições | PRP.* | 734390 | 15,28% |
Conjunções | K.* | 296848 | 6,18% |
Advérbios | ADV.* | 344283 | 7,16% |
Determinantes | .*DET.* | 877327 | 18,26% |
Especificadores | .*SPEC.* | 136842 | 2,85% |
Numerais | NUM.* | 40059 | 0,83% |
Este subcorpus contém 3981 extractos de textos de jornais desportivos portugueses e brasileiros, das décadas de 1950, 1970 e 2000; 4372 textos (agrupados em 82 extractos, ou seja, provenientes de 82 edições) de revistas de moda portuguesas e brasileiras, das décadas de 1950, 1970, e 1990-2000, assim como 1815 textos de revistas e jornais de saúde nos mesmos períodos.
Corpus CONDIV, versão texto (futebol) de 15 de Fevereiro de 2006, versão texto (moda) de 18 de Dezembro de 2008, versão texto (saúde) de 2 de Fevereiro de 2010, anotado a 13 de julho de 2024, v. 13.2
Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.
Tamanho | Futebol | Moda/vestuário | Saúde | |
---|---|---|---|---|
PT | 3372912 | 1703420 | 325407 | 1344085 |
BR | 2655074 | 1371780 | 801349 | 481945 |
Todos | 3075200 | 1126761 | 1826030 |
Corpo CONDIV | Número de formas | Número de tipos |
Unidades | 7200795 | 157513 |
Total de palavras | 5627261 | 155195 |
Palavras em minúscula | 4188841 | 81356 |
Palavras com inicial maiúscula | 592017 | 36123 |
Palavras todas em maiúsculas | 75781 | 11033 |
Números | 72362 | 1699 |
Palavras com números | 2740 | 812 |
Palavras mistas | 4695 | 1379 |
Pontuação | 400785 | 2063 |
Atributo | Número |
ext | 4081 |
texto | 6222 |
p | 148516 |
s | 301068 |
mwe | 96183 |
Número de entidades | Número de unidades | |
Nomes próprios | 240456 | 346925 |
Locuções | 96183 | 204145 |
Palavras gráficas | 5627261 | 5627261 |
Palavras simples | 5076191 | 5076191 |
Palavras | 5412830 | 5627261 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 1217241 | 23,98% |
Verbos | V.* | 759629 | 14,96% |
Adjectivos | ADJ.* | 389317 | 7,67% |
Pronomes pessoais | .*PERS.* | 99745 | 1,96% |
Preposições | PRP.* | 904357 | 17,82% |
Conjunções | K.* | 255199 | 5,03% |
Advérbios | ADV.* | 298592 | 5,88% |
Determinantes | .*DET.* | 963865 | 18,99% |
Especificadores | .*SPEC.* | 95428 | 1,88% |
Numerais | NUM.* | 132709 | 2,61% |
Este subcorpus contém por agora 66150 unidades do Jornal do Brasil (brasileiro) e 57542 do Diário de Notícias (português), perfazendo 344 textos.
Corpus CONDIV2, versão texto de 15 de maio de 2017, anotado a 6 de julho de 2024, v. 4.1
Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.
Tamanho | Futebol | Moda/vestuário | Saúde | |
---|---|---|---|---|
PT | 3333411 | 1679290 | 316853 | 1337268 |
BR | 2649379 | 1367115 | 801410 | 480854 |
Todos | 3046405 | 1118273 | 1818122 |
Corpo CONDIV2 | Número de formas | Número de tipos |
Unidades | 212075 | 20151 |
Total de palavras | 175277 | 19973 |
Palavras em minúscula | 127975 | 13458 |
Palavras com inicial maiúscula | 23171 | 4601 |
Palavras todas em maiúsculas | 1338 | 376 |
Números | 2236 | 349 |
Palavras com números | 186 | 90 |
Palavras mistas | 374 | 52 |
Pontuação | 9584 | 177 |
Atributo | Número |
texto | 520 |
p | 3928 |
s | 6533 |
mwe | 2618 |
Número de entidades | Número de unidades | |
Nomes próprios | 10108 | 18814 |
Locuções | 2618 | 5488 |
Palavras gráficas | 175277 | 175277 |
Palavras simples | 150975 | 150975 |
Palavras | 163701 | 175277 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 38020 | 25,18% |
Verbos | V.* | 22211 | 14,71% |
Adjectivos | ADJ.* | 9163 | 6,07% |
Pronomes pessoais | .*PERS.* | 1828 | 1,21% |
Preposições | PRP.* | 31560 | 20,90% |
Conjunções | K.* | 6970 | 4,62% |
Advérbios | ADV.* | 6347 | 4,20% |
Determinantes | .*DET.* | 30849 | 20,43% |
Especificadores | .*SPEC.* | 2775 | 1,84% |
Numerais | NUM.* | 4029 | 2,67% |
O corpus foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 24 de Janeiro de 2006.
Versão do corpus de 15 de janeiro de 2006, anotado a 6 de julho de 2024, v. 8.1
Corpo CONE | Número de formas | Número de tipos |
Unidades | 921366 | 46688 |
Total de palavras | 681377 | 43118 |
Palavras em minúscula | 398042 | 18508 |
Palavras com inicial maiúscula | 132594 | 12165 |
Palavras todas em maiúsculas | 39796 | 5623 |
Números | 14676 | 787 |
Palavras com números | 2742 | 590 |
Palavras mistas | 3726 | 841 |
Pontuação | 59602 | 3147 |
Atributo | Número |
p | 19366 |
s | 31559 |
mwe | 7085 |
autor | 1709 |
mens | 1904 |
assunto | 1858 |
div | 0 |
li | 24119 |
t | 0 |
cita | 0 |
Número de entidades | Número de unidades | |
Nomes próprios | 54658 | 102907 |
Locuções | 7085 | 15084 |
Palavras gráficas | 681377 | 681377 |
Palavras simples | 563386 | 563386 |
Palavras | 625129 | 681377 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 161584 | 28,68% |
Verbos | V.* | 70435 | 12,50% |
Adjectivos | ADJ.* | 42372 | 7,52% |
Pronomes pessoais | .*PERS.* | 8881 | 1,58% |
Preposições | PRP.* | 100940 | 17,92% |
Conjunções | K.* | 29713 | 5,27% |
Advérbios | ADV.* | 23286 | 4,13% |
Determinantes | .*DET.* | 86013 | 15,27% |
Especificadores | .*SPEC.* | 6061 | 1,08% |
Numerais | NUM.* | 25060 | 4,45% |
O corpo foi criado simplesmente passando o material distribuído no CD-ROM em formato texto (extensão .txt) pelo conjunto de programas de processamento e anotação sintática e semântica do AC/DC.
As hesitações e repetições foram (por enquanto) removidas, e as pausas longas foram convertidas em ponto de fim de frase, e as pausas curtas em vírgula. Para tornar o texto mais parecido com as convenções gráficas do português escrito, a primeira letra de cada frase foi passada para maiúscula.
Corpus CoralBrasil, anotado em 7 de julho de 2023, v. 7.1
Estamos gratos a Heliana Mello e Tommaso Raso pela autorização de disponibilização do corpo através do AC/DC, e a toda a equipa do C-ORAL-BRASIL pela compilação do corpo.
Corpo CORALBRASIL | Número de formas | Número de tipos |
Unidades | 439519 | 14583 |
Total de palavras | 267102 | 14433 |
Palavras em minúscula | 167864 | 10314 |
Palavras com inicial maiúscula | 30826 | 3250 |
Palavras todas em maiúsculas | 19464 | 298 |
Números | 1284 | 99 |
Palavras com números | ||
Palavras mistas | 157 | 42 |
Pontuação | 29553 | 10 |
Atributo | Número |
p | 0 |
s | 30626 |
fala | 19398 |
personagem | 19395 |
mwe | 2915 |
Número de entidades | Número de unidades | |
Nomes próprios | 21239 | 22484 |
Locuções | 2915 | 6153 |
Palavras gráficas | 267102 | 267102 |
Palavras simples | 238465 | 238465 |
Palavras | 262619 | 267102 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 34954 | 14,66% |
Verbos | V.* | 47972 | 20,12% |
Adjectivos | ADJ.* | 9599 | 4,03% |
Pronomes pessoais | .*PERS.* | 13804 | 5,79% |
Preposições | PRP.* | 18876 | 7,92% |
Conjunções | K.* | 17087 | 7,17% |
Advérbios | ADV.* | 25257 | 10,59% |
Determinantes | .*DET.* | 26080 | 10,94% |
Especificadores | .*SPEC.* | 5906 | 2,48% |
Numerais | NUM.* | 4197 | 1,76% |
Mais informação sobre o corpus em: http://www.clul.ulisboa.pt/recurso/cordial-sin-syntax-oriented-corpus-portuguese-dialects
E acesso ao CORDIAL-SIN-TreeBank (ISLRN: 337-389-991-117-2) em: acesso
No AC/DC por enquanto apenas usamos o texto editado, mas é possível que incluamos a anotação numa segunda fase.
Corpo CORDIAL-SIN, versão texto de janeiro de 2021, anotado a 6 de julho de 2024, v. 3.1
Agradecemos calorosamente a Ana Maria Martins a pronta autorização para disponibilização do CORDIAL-SIN.
O atributo posicional fonte indica a que excerto cada palavra pertence (ver lista das fontes).
Aqui listamos os metadados associados a cada fonte (excerto de entrevista) do CORDIAL-SIN: Metadados CORDIAL-SIN
E aqui a informação genérica relacionada com os informantes: Informantes CORDIAL-SIN
Corpo CORDIAL-SIN | Número de formas | Número de tipos |
Unidades | 1494736 | 29803 |
Total de palavras | 857066 | 29657 |
Palavras em minúscula | 612848 | 19565 |
Palavras com inicial maiúscula | 102455 | 4952 |
Palavras todas em maiúsculas | 19659 | 20 |
Números | 131 | 53 |
Palavras com números | 29371 | 10 |
Palavras mistas | 676 | 422 |
Pontuação | 111902 | 145 |
Atributo | Número |
p | 48938 |
s | 98009 |
entrevista | 2058 |
fala | 48938 |
personagem | 48938 |
mwe | 15919 |
Número de entidades | Número de unidades | |
Nomes próprios | 56117 | 58541 |
Locuções | 15919 | 32775 |
Palavras gráficas | 857066 | 857066 |
Palavras simples | 765750 | 765750 |
Palavras | 837786 | 857066 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 130789 | 17,08% |
Verbos | V.* | 164704 | 21,51% |
Adjectivos | ADJ.* | 18896 | 2,47% |
Pronomes pessoais | .*PERS.* | 39554 | 5,17% |
Preposições | PRP.* | 83875 | 10,95% |
Conjunções | K.* | 50799 | 6,63% |
Advérbios | ADV.* | 110669 | 14,45% |
Determinantes | .*DET.* | 121330 | 15,84% |
Especificadores | .*SPEC.* | 27798 | 3,63% |
Numerais | NUM.* | 9717 | 1,27% |
Mais informação sobre o corpo pode ser obtida em Tagnin et al. (2009), Teixeira et al. (2012), e Santos et al. (2012).
Versão do corpus de 30 de janeiro de 2023
Os três dicionários histórico-biográficos foram concebidos em sua origem com o propósito básico de prover aos estudiosos e demais interessados na história do Brasil, informações sistematizadas sobre personagens e temas considerados relevantes do período e contexto ao qual se referem. Cada um deles é constituído por uma seleção de verbetes cuja produção e curadoria é de responsabilidade do Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas.
No plano biográfico encontramos os ocupantes dos mais relevantes cargos políticos e de repercussão política, assim como participantes de episódios marcantes - presidentes da República, vice-presidentes, governadores, ministros de Estado, senadores, deputados, comandantes das forças armadas, embaixadores, presidentes das mais importantes federações, confederações de empregados e empregadores, jornalistas mais destacados, religiosos e presidentes de partidos políticos. No plano temático, encontramos os partidos políticos e as organizações e movimentos políticos, os principais acontecimentos histórico-políticos, as constituintes, constituições, alguns destacados decretos, leis e códigos; correntes e conceitos básicos da história política; as instituições econômicas e administrativas de maior repercussão no cenário nacional; as mais importantes organizações de trabalhadores e empresários; os jornais e revistas de impacto nacional, principais emissoras de rádio e televisão.
Apenas o Dicionário Histórico-Biográfico Brasileiro (DHBB) encontra-se aberto e integralmente disponível para consulta no portal do CPDOC (https://cpdoc.fgv.br/acervo/dhbb). Os demais podem ser obtidos através da editora da FGV (https://editora.fgv.br/).
Incorporada à Linguateca em 2018/2019, o objetivo é que a coleção possa ser interrogada através da linguagem CQP (Corpus Query Processor) e disponibilizada para treino, teste ou validação de sistemas que trabalham com processamento de linguagem natural, nas mais variadas formas. Trata-se portanto de um trabalho em progresso, que esperamos ajude a aprimorar as ferramentas criadas pela comunidade.
Corpo DHBB, criado a 5 de julho de 2024, v. 10.1
Agradecemos à Fundação Getulio Vargas a autorização para a disponibilização do recurso.
O atributo posicional fonte indica a que verbete cada palavra pertence (ver lista dos verbetes), enquanto o atributo posicional entidade indica, para cada nome próprio, qual a sua correspondência real, tomando como "verdade" a mesma lista. Quando ainda não foi identificado, é marcado como "NS". Se se sabe que não está no DHBB por, por exemplo, não ser político, é marcado como "NV" (não verbetado).
O atributo posicional cargos tem a lista dos cargos associados a cada verbetado, com a indicação de cargo, estado pelo qual exerceu o cargo, e período temporal.
O atributo posicional sexo contém m se o biografado for masculino, f se for feminino, e N/A (não aplicável) se o verbete for temático.
Prevemos para breve uma classificação mais fina dos textos, com informação de datas de nascimento, assim como alguma limpeza do material.
Corpo DHBB | Número de formas | Número de tipos |
Unidades | 16096075 | 127921 |
Total de palavras | 14177792 | 122549 |
Palavras em minúscula | 9402985 | 54766 |
Palavras com inicial maiúscula | 2456981 | 40736 |
Palavras todas em maiúsculas | 169169 | 4424 |
Números | 384529 | 1307 |
Palavras com números | 762 | 387 |
Palavras mistas | 11952 | 1292 |
Pontuação | 635594 | 5324 |
Atributo | Número |
p | 12045 |
s | 461807 |
texto | 12045 |
t | 0 |
mwe | 154908 |
Número de entidades | Número de unidades | |
Nomes próprios | 1041497 | 2397079 |
Locuções | 154908 | 335345 |
Palavras gráficas | 14177792 | 14177792 |
Palavras simples | 11445368 | 11445368 |
Palavras | 12641773 | 14177792 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 2804542 | 24,50% |
Verbos | V.* | 1394145 | 12,18% |
Adjectivos | ADJ.* | 725329 | 6,34% |
Pronomes pessoais | .*PERS.* | 152510 | 1,33% |
Preposições | PRP.* | 2956600 | 25,83% |
Conjunções | K.* | 400706 | 3,50% |
Advérbios | ADV.* | 328829 | 2,87% |
Determinantes | .*DET.* | 2307318 | 20,16% |
Especificadores | .*SPEC.* | 149610 | 1,31% |
Numerais | NUM.* | 459882 | 4,02% |
Corpus DIACLAV, versão texto criada em Abril de 2002, anotado a 7 de julho de 2024, v. 8.1
Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.
O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.
Corpo DIACLAV | Número de formas | Número de tipos |
Unidades | 7854974 | 111593 |
Total de palavras | 6701348 | 109308 |
Palavras em minúscula | 4909508 | 58810 |
Palavras com inicial maiúscula | 836911 | 28736 |
Palavras todas em maiúsculas | 46318 | 3465 |
Números | 57914 | 1292 |
Palavras com números | 6895 | 1112 |
Palavras mistas | 2127 | 845 |
Pontuação | 388408 | 2271 |
Atributo | Número |
p | 24439 |
s | 210373 |
art | 12802 |
t | 12391 |
a | 4492 |
mwe | 116093 |
Número de entidades | Número de unidades | |
Nomes próprios | 350860 | 692534 |
Locuções | 116093 | 246174 |
Palavras gráficas | 6701348 | 6701348 |
Palavras simples | 5762640 | 5762640 |
Palavras | 6229593 | 6701348 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 1346750 | 23,37% |
Verbos | V.* | 864728 | 15,01% |
Adjectivos | ADJ.* | 351121 | 6,09% |
Pronomes pessoais | .*PERS.* | 82727 | 1,44% |
Preposições | PRP.* | 1169054 | 20,29% |
Conjunções | K.* | 269998 | 4,69% |
Advérbios | ADV.* | 308638 | 5,36% |
Determinantes | .*DET.* | 1173640 | 20,37% |
Especificadores | .*SPEC.* | 126226 | 2,19% |
Numerais | NUM.* | 128532 | 2,23% |
O corpo Diáspora TL-PT é composto por 12 ficheiros correspondendo cada um a uma entrevista.
Os entrevistados, membros da comunidade timorense em Portugal, têm diferentes idades e foram escolhidos para, tanto quanto possível, representarem as diferentes vagas de migração para Portugal
Como citar o corpo Diáspora TL-PT:
Corpus Diáspora TL - PT, anotado em outubro de 2013, criado a 6 de julho de 2024, v. 5.1
Susana Afonso e Francesco Goglia agradecem a João Barros e Hercus Pereira pela recolha dos dados e a todos os que aceitaram participar no projecto.
Corpo DIASPORA | Número de formas | Número de tipos |
Unidades | 27409 | 3069 |
Total de palavras | 21908 | 3047 |
Palavras em minúscula | 16491 | 2337 |
Palavras com inicial maiúscula | 2314 | 528 |
Palavras todas em maiúsculas | 32 | 16 |
Números | 135 | 55 |
Palavras com números | ||
Palavras mistas | 3 | 3 |
Pontuação | 1875 | 19 |
Atributo | Número |
pergunta | 245 |
s | 1035 |
v | 0 |
resposta | 213 |
entrevista | 5 |
mwe | 304 |
Número de entidades | Número de unidades | |
Nomes próprios | 650 | 846 |
Locuções | 304 | 661 |
Palavras gráficas | 21908 | 21908 |
Palavras simples | 20401 | 20401 |
Palavras | 21355 | 21908 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 3442 | 16,87% |
Verbos | V.* | 3807 | 18,66% |
Adjectivos | ADJ.* | 765 | 3,75% |
Pronomes pessoais | .*PERS.* | 786 | 3,85% |
Preposições | PRP.* | 2889 | 14,16% |
Conjunções | K.* | 1295 | 6,35% |
Advérbios | ADV.* | 2375 | 11,64% |
Determinantes | .*DET.* | 3027 | 14,84% |
Especificadores | .*SPEC.* | 546 | 2,68% |
Numerais | NUM.* | 279 | 1,37% |
A recolha do material do PRABril foi iniciada no âmbito de um projeto intitulado O discurso do Presidente. 100 anos de discursos presidenciais em Portugal, tendo sido depois segmentado e concluído para a publicação do livro Vozes que moldam Abril - Os discursos presidenciais na celebração da revolução , publicado no âmbito dos 50 anos do 25 de Abril.
A equipa de investigação é constituída pelos seguintes elementos:
Quanto ao PRPosse, foi compilado no âmbito da tese de doutoramento Imagens presidenciais nos discursos de tomada de posse nos cem anos da República Portuguesa de Micaela Aguiar (PRPosse 1.0). Em 17 de dezembro de 2024, foi lançado o PRPosse 2.0, incluindo os discursos de tomada de posse de Marcelo Rebelo de Sousa de 2016 e de 2021.
Mais informação sobre a constituição do PRPosse encontra-se aqui. Também podem ser consultados os metadados do PRPosse.
O corpo BrPoliCorpus encontra-se acessível de https://github.com/rll307/BrPoliCorpus, juntamente com um pacote R para o manipular. O manual deve ser citado como
O corpo completo em formato texto, com a anotação estrutural (secções, parágrafos, etc.) pode ser obtido aqui: DisPR3.0.txt.
Corpus DisPR, criado em 17 de dezembro de 2024, v. 3.0
A equipa que criou o PRAbril agradece a Maria Aldina Marques a coordenação do projeto, assim como agradece à Linguateca a colaboração e disponibilidade para acolher e tratar o corpo.
O criador do BrPoliCorpus expressa seus agradecimentos a Fundação Alexandre von Humboldt, Capes e CNPq, que financiaram a iniciativa por meio de projetos de pesquisa individuais. The author of BrPoliCorpus expresses his gratitude to the Alexander von Humboldt Foundation, Capes, and CNPq, which funded the initiative through individual research projects.
A Linguateca agradece aos membros das três equipas a autorização para disponibilizar os três corpos.
Corpo DISPR | Número de formas | Número de tipos |
Unidades | 330043 | 20901 |
Total de palavras | 275592 | 20834 |
Palavras em minúscula | 225897 | 16961 |
Palavras com inicial maiúscula | 21015 | 2193 |
Palavras todas em maiúsculas | 837 | 94 |
Números | 1122 | 183 |
Palavras com números | 49 | 7 |
Palavras mistas | 34 | 21 |
Pontuação | 12848 | 67 |
Atributo | Número |
p | 5797 |
s | 10647 |
texto | 111 |
mwe | 4220 |
Número de entidades | Número de unidades | |
Nomes próprios | 5326 | 10053 |
Locuções | 4220 | 9087 |
Palavras gráficas | 275592 | 275592 |
Palavras simples | 256452 | 256452 |
Palavras | 265998 | 275592 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 60030 | 23,41% |
Verbos | V.* | 35844 | 13,98% |
Adjectivos | ADJ.* | 24224 | 9,45% |
Pronomes pessoais | .*PERS.* | 5465 | 2,13% |
Preposições | PRP.* | 48642 | 18,97% |
Conjunções | K.* | 15740 | 6,14% |
Advérbios | ADV.* | 13569 | 5,29% |
Determinantes | .*DET.* | 54548 | 21,27% |
Especificadores | .*SPEC.* | 6534 | 2,55% |
Numerais | NUM.* | 1957 | 0,76% |
Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.
Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:
Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.
Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.
Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).
O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.
Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:
Género | Unidades | Textos |
Literatura | 384.961 | 157 |
Informativo | 203.436 | 288 |
Jornalismo | 89.086 | 537 |
Oral | 66.092 | 29 |
Outros | 16.419 | 33 |
Indef | 16.935 | 82 |
Assuntos | Unidades | Textos |
Agricultura | 3458 | 8 |
Arqueologia | 1681 | 3 |
Arte | 4255 | 4 |
Astrologia | 1294 | 1 |
Biologia | 3662 | 3 |
Botânica | 6095 | 4 |
Ciência | 7402 | 9 |
Clima | 302 | 1 |
Crónica | 3761 | 11 |
Culinária | 1316 | 1 |
Cultura | 5795 | 44 |
Desporto | 8227 | 39 |
Direito | 1746 | 4 |
Ecologia | 326 | 2 |
Economia | 18441 | 60 |
Edição | 823 | 1 |
Educação | 1105 | 1 |
Entretenimento | 5084 | 31 |
Entrevista | 592 | 3 |
Escutismo | 424 | 1 |
Estatística | 1253 | 1 |
Filatelia | 1113 | 1 |
Filosofia | 3470 | 3 |
Física | 627 | 1 |
Fotografia | 1056 | 2 |
Generalidades | 5411 | 44 |
Generealidades | 120 | 1 |
Geografia | 3721 | 6 |
Geologia | 77 | 1 |
Gestão | 2247 | 2 |
Hidrografia | 1280 | 1 |
História | 35242 | 30 |
Indef | 484736 | 1 |
Indústria | 1375 | 3 |
Internacional | 8196 | 57 |
Jornalismo | 284 | 537 |
Linguística | 8066 | 11 |
Literatura | 8234 | 14 |
Maternidade | 344 | 1 |
Medicina | 16881 | 18 |
Música | 1717 | 3 |
Oceanografia | 302 | 1 |
País | 44860 | 206 |
Política | 19780 | 36 |
Psicologia | 2412 | 5 |
Religião | 21243 | 32 |
Reportagem | 1298 | 3 |
Saúde | 4615 | 19 |
Sociedade | 7399 | 58 |
Sociologia | 10432 | 15 |
Título | 174 | 12 |
Turismo | 188 | 1 |
Zoologia | 2987 | 15 |
Corpus ECI-EBR, versão texto de Abril de 2002, anotado a 6 de julho de 2024, v. 13.1
Agradecemos aos compiladores do corpus por o terem criado e tornado público.
A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.
Marcadores estruturais: s, p, ext e marca.
Corpo ECI-EBR | Número de formas | Número de tipos |
Unidades | 924904 | 60376 |
Total de palavras | 728951 | 60175 |
Palavras em minúscula | 569163 | 42116 |
Palavras com inicial maiúscula | 73135 | 12208 |
Palavras todas em maiúsculas | 200 | 53 |
Números | 1999 | 461 |
Palavras com números | 56 | 44 |
Palavras mistas | 179 | 100 |
Pontuação | 53752 | 199 |
Atributo | Número |
ext | 1107 |
p | 12117 |
s | 44379 |
marca | 3 |
mwe | 13459 |
Número de entidades | Número de unidades | |
Nomes próprios | 19625 | 32296 |
Locuções | 13459 | 29099 |
Palavras gráficas | 728951 | 728951 |
Palavras simples | 667556 | 667556 |
Palavras | 700640 | 728951 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 149607 | 22,41% |
Verbos | V.* | 114979 | 17,22% |
Adjectivos | ADJ.* | 45082 | 6,75% |
Pronomes pessoais | .*PERS.* | 24850 | 3,72% |
Preposições | PRP.* | 112027 | 16,78% |
Conjunções | K.* | 33800 | 5,06% |
Advérbios | ADV.* | 44315 | 6,64% |
Determinantes | .*DET.* | 125212 | 18,76% |
Especificadores | .*SPEC.* | 16264 | 2,44% |
Numerais | NUM.* | 9333 | 1,40% |
Pode também consultar a informação da ELSNET.
Corpus ECI-EE, versão de Abril de 2002, criado a 6 de julho de 2024, v. 9.1
Agradecemos aos compiladores do corpus por o terem criado e tornado publico.
Marcadores estruturais: s, p, titulo, nota, marca.
Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
<marca num=3> <nota num=3>
Corpo ECI-EE | Número de formas | Número de tipos |
Unidades | 30277 | 4122 |
Total de palavras | 25779 | 3970 |
Palavras em minúscula | 20655 | 3235 |
Palavras com inicial maiúscula | 1402 | 323 |
Palavras todas em maiúsculas | 389 | 93 |
Números | 419 | 95 |
Palavras com números | 3 | 3 |
Palavras mistas | 106 | 6 |
Pontuação | 1122 | 150 |
Atributo | Número |
p | 313 |
s | 789 |
t | 0 |
nota | 0 |
marca | 27 |
mwe | 480 |
Número de entidades | Número de unidades | |
Nomes próprios | 610 | 904 |
Locuções | 480 | 1062 |
Palavras gráficas | 25779 | 25779 |
Palavras simples | 23813 | 23813 |
Palavras | 24903 | 25779 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 6625 | 27,82% |
Verbos | V.* | 2805 | 11,78% |
Adjectivos | ADJ.* | 2303 | 9,67% |
Pronomes pessoais | .*PERS.* | 282 | 1,18% |
Preposições | PRP.* | 5116 | 21,48% |
Conjunções | K.* | 1206 | 5,06% |
Advérbios | ADV.* | 800 | 3,36% |
Determinantes | .*DET.* | 4755 | 19,97% |
Especificadores | .*SPEC.* | 341 | 1,43% |
Numerais | NUM.* | 646 | 2,71% |
Código | Autor | Obra | Editora | Ano | Tradutor(a) | Título original |
---|---|---|---|---|---|---|
JB1PP | Julian Barnes | Amor & C.a | Quetzal Editores, Lisboa | 1994 | Helena Cardoso | Talking It Over. |
BC1 | Bruce Chatwin | Utz | Quetzal Editores, Lisboa | 1991 | José Luís Luna | Utz. |
AH1 | Arthur Hailey | Remédio Amargo | Distribuidora Record, Rio de Janeiro | s/d | A.B.P. de Lemos. | Strong Medicine. |
JH1 | Joseph Heller | Imaginem que | Difusão Cultural, Lisboa | 1991 | Cristina Rodriguez. | Picture This. |
NG1 | Nadine Gordimer | A história do meu filho | Editora Siciliano, São Paulo | 1992 | Geraldo Galvão Ferraz | My Son's Story. |
O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).
Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua
correspondência com o texto original (alinhamento).
Não mantivemos a informação de formatação (por exemplo itálico), de revisão
(correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das
obras não estarem divididas em partes, juntámos uma divisão "parte única".
Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado a 6 de julho de 2024, v. 10.1
Estamos gratos a Stig Johansson e à equipa do ENPC pela colaboração na criação deste corpus, e aos detentores dos direitos de autor pela autorizações gentilmente cedidas.
Utilizámos como marcadores estruturais texto, parte, capitulo, p e
s.
Não mantivemos a informação de formatação (por exemplo itálico), de revisão
(correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das
obras não estarem divididas em partes, juntámos uma divisão "parte única".
O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).
Corpo ENPCPUB | Número de formas | Número de tipos |
Unidades | 90411 | 12909 |
Total de palavras | 72837 | 12894 |
Palavras em minúscula | 57654 | 10248 |
Palavras com inicial maiúscula | 7034 | 1673 |
Palavras todas em maiúsculas | 74 | 50 |
Números | 134 | 78 |
Palavras com números | 29 | 2 |
Palavras mistas | 20 | 16 |
Pontuação | 4952 | 15 |
Atributo | Número |
p | 1682 |
s | 4369 |
texto | 5 |
parte | 8 |
capitulo | 25 |
mwe | 239 |
Número de entidades | Número de unidades | |
Nomes próprios | 2541 | 2920 |
Locuções | 239 | 522 |
Palavras gráficas | 72837 | 72837 |
Palavras simples | 69395 | 69395 |
Palavras | 72175 | 72837 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 13343 | 19,23% |
Verbos | V.* | 12844 | 18,51% |
Adjectivos | ADJ.* | 3924 | 5,65% |
Pronomes pessoais | .*PERS.* | 3089 | 4,45% |
Preposições | PRP.* | 11293 | 16,27% |
Conjunções | K.* | 3809 | 5,49% |
Advérbios | ADV.* | 4957 | 7,14% |
Determinantes | .*DET.* | 12236 | 17,63% |
Especificadores | .*SPEC.* | 1812 | 2,61% |
Numerais | NUM.* | 770 | 1,11% |
Corpus Floresta, a partir do material da Floresta de Junho de 2010, anotado semanticamente a 22 de Junho de 2013, v. 2.5
Corpo FLORESTA | Número de formas | Número de tipos |
Unidades | 7252530 | 182669 |
Total de palavras | 6046536 | 179536 |
Palavras em minúscula | 4529984 | 88948 |
Palavras com inicial maiúscula | 738255 | 58232 |
Palavras todas em maiúsculas | 27975 | 3959 |
Números | 50401 | 1606 |
Palavras com números | 3760 | 935 |
Palavras mistas | 5814 | 2248 |
Pontuação | 321301 | 3132 |
Atributo | Número |
ext | 24398 |
s | 326667 |
mwe | 103159 |
Número de entidades | Número de unidades | |
Nomes próprios | 284084 | 503417 |
Locuções | 103159 | 217445 |
Palavras gráficas | 6046536 | 6046536 |
Palavras simples | 5325674 | 5325674 |
Palavras | 5712917 | 6046536 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 1238732 | 23,26% |
Verbos | V.* | 846993 | 15,90% |
Adjectivos | ADJ.* | 350522 | 6,58% |
Pronomes pessoais | .*PERS.* | 117329 | 2,20% |
Preposições | PRP.* | 958823 | 18,00% |
Conjunções | K.* | 272888 | 5,12% |
Advérbios | ADV.* | 325270 | 6,11% |
Determinantes | .*DET.* | 1036508 | 19,46% |
Especificadores | .*SPEC.* | 106992 | 2,01% |
Numerais | NUM.* | 99122 | 1,86% |
O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).
Corpus FrasesPB, versão texto de 17 de Abril de 2002, anotado a 4 de julho de 2024, v. 9.1
Marcadores estruturais: s, p.
Corpo FRASESPB | Número de formas | Número de tipos |
Unidades | 23259 | 6019 |
Total de palavras | 19185 | 6007 |
Palavras em minúscula | 16421 | 5263 |
Palavras com inicial maiúscula | 1046 | 525 |
Palavras todas em maiúsculas | 15 | 15 |
Números | 49 | 35 |
Palavras com números | ||
Palavras mistas | 5 | 5 |
Pontuação | 730 | 12 |
Atributo | Número |
p | 648 |
s | 652 |
mwe | 371 |
Número de entidades | Número de unidades | |
Nomes próprios | 249 | 408 |
Locuções | 371 | 800 |
Palavras gráficas | 19185 | 19185 |
Palavras simples | 17977 | 17977 |
Palavras | 18597 | 19185 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 4613 | 25,66% |
Verbos | V.* | 2904 | 16,15% |
Adjectivos | ADJ.* | 1420 | 7,90% |
Pronomes pessoais | .*PERS.* | 358 | 1,99% |
Preposições | PRP.* | 3378 | 18,79% |
Conjunções | K.* | 979 | 5,45% |
Advérbios | ADV.* | 974 | 5,42% |
Determinantes | .*DET.* | 3620 | 20,14% |
Especificadores | .*SPEC.* | 404 | 2,25% |
Numerais | NUM.* | 161 | 0,90% |
Corpo FrasesPP, criado a 22 de Junho de 2013, anotado a 6 de julho de 2024, v. 10.1
Marcadores estruturais: s, p.
Os valores da anotação original encontram-se no atributo posicional pos2. Os valores deste atributo (A, N, V, VPP, PF, PONT e CL) foram atribuídos automaticamente e depois revistos manualmente nos casos em que as palavras obtiveram mais do que uma categoria.
Corpo FRASESPP | Número de formas | Número de tipos |
Unidades | 20030 | 5104 |
Total de palavras | 16266 | 5088 |
Palavras em minúscula | 13505 | 4244 |
Palavras com inicial maiúscula | 1077 | 567 |
Palavras todas em maiúsculas | 9 | 6 |
Números | 95 | 48 |
Palavras com números | 4 | 4 |
Palavras mistas | ||
Pontuação | 796 | 16 |
Atributo | Número |
p | 594 |
s | 594 |
mwe | 296 |
Número de entidades | Número de unidades | |
Nomes próprios | 256 | 409 |
Locuções | 296 | 648 |
Palavras gráficas | 16266 | 16266 |
Palavras simples | 15209 | 15209 |
Palavras | 15761 | 16266 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 3713 | 24,41% |
Verbos | V.* | 2291 | 15,06% |
Adjectivos | ADJ.* | 1288 | 8,47% |
Pronomes pessoais | .*PERS.* | 405 | 2,66% |
Preposições | PRP.* | 2862 | 18,82% |
Conjunções | K.* | 787 | 5,17% |
Advérbios | ADV.* | 921 | 6,06% |
Determinantes | .*DET.* | 3109 | 20,44% |
Especificadores | .*SPEC.* | 365 | 2,40% |
Numerais | NUM.* | 195 | 1,28% |
Sobretudo em relação às notícias do óbito, pode haver muito material repetido.
Em maio de 2018 foram acrescentados muito mais textos anteriores que tinham sido preservados pelo Arquivo.pt, e espera-se continuar a aumentar o corpo dessa forma.
Corpo JMG, criado em 6 de julho de 2024, v. 7.1
Agradecemos profundamente ao Professor José Mariano Gago a sua atuação em prol da ciência e da investigação em torno do processamento da língua portuguesa.
O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).
Os valores de classe estão por enquanto marcados da seguinte forma: noticia, se é uma notícia de jornal (ou texto publicado num blogue) após a sua morte; discurso se é um discurso (ou outro texto escrito por Mariano Gago), entrevista se é uma entrevista feita a Mariano Gago. outros marca textos escritos com menção a Mariano Gago antes da sua morte, e vão de críticas a reportagens a simples descrições de acontecimentos. Finalmente, sitiohomenagem contém todos os textos colocado em marianogago.org.
Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.
Tipo | Descrição | Tamanho |
noticia | texto noticioso | 169.445 |
discurso | discursos | 17.896 |
entrevista | entrevistas | 33.492 |
outros | outros | 344.955 |
sitiohomenagem | sítio de homenagem | 37.140 |
Corpo JMG | Número de formas | Número de tipos |
Unidades | 693884 | 31895 |
Total de palavras | 569843 | 31627 |
Palavras em minúscula | 413219 | 21053 |
Palavras com inicial maiúscula | 81713 | 6316 |
Palavras todas em maiúsculas | 5197 | 928 |
Números | 5650 | 358 |
Palavras com números | 255 | 89 |
Palavras mistas | 212 | 102 |
Pontuação | 33088 | 253 |
Atributo | Número |
p | 11352 |
s | 22923 |
texto | 1375 |
t | 1575 |
mwe | 8105 |
Número de entidades | Número de unidades | |
Nomes próprios | 30606 | 66268 |
Locuções | 8105 | 17331 |
Palavras gráficas | 569843 | 569843 |
Palavras simples | 486244 | 486244 |
Palavras | 524955 | 569843 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 115708 | 23,80% |
Verbos | V.* | 68673 | 14,12% |
Adjectivos | ADJ.* | 34176 | 7,03% |
Pronomes pessoais | .*PERS.* | 8340 | 1,72% |
Preposições | PRP.* | 98006 | 20,16% |
Conjunções | K.* | 25568 | 5,26% |
Advérbios | ADV.* | 25320 | 5,21% |
Determinantes | .*DET.* | 98821 | 20,32% |
Especificadores | .*SPEC.* | 11413 | 2,35% |
Numerais | NUM.* | 9232 | 1,90% |
Corpo LeMe, criado a 6 de julho de 2024, v. 3.1
Agradecemos a Alberto Simões a autorização para a disponibilização do recurso.
O corpo está dividido em textos separados, marcados pelo atributo texto, com informação do identificador do mesmo.
Os textos têm também os marcadores estruturais adicionais p [parágrafo] e s [frase].
Como atributos posicionais adicionais temos o fonte que indica qual o nome do medicamento
Corpo LEME | Número de formas | Número de tipos |
Unidades | 3496795 | 43122 |
Total de palavras | 2581509 | 42086 |
Palavras em minúscula | 1897088 | 21894 |
Palavras com inicial maiúscula | 280092 | 9454 |
Palavras todas em maiúsculas | 25044 | 2171 |
Números | 72146 | 1951 |
Palavras com números | 6933 | 823 |
Palavras mistas | 4186 | 990 |
Pontuação | 165901 | 884 |
Atributo | Número |
p | 143620 |
s | 178678 |
t | 13986 |
texto | 1191 |
mwe | 36283 |
Número de entidades | Número de unidades | |
Nomes próprios | 105013 | 184196 |
Locuções | 36283 | 76195 |
Palavras gráficas | 2581509 | 2581509 |
Palavras simples | 2321118 | 2321118 |
Palavras | 2462414 | 2581509 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 632900 | 27,27% |
Verbos | V.* | 353450 | 15,23% |
Adjectivos | ADJ.* | 215660 | 9,29% |
Pronomes pessoais | .*PERS.* | 32948 | 1,42% |
Preposições | PRP.* | 376285 | 16,21% |
Conjunções | K.* | 138448 | 5,96% |
Advérbios | ADV.* | 101066 | 4,35% |
Determinantes | .*DET.* | 355472 | 15,31% |
Especificadores | .*SPEC.* | 20899 | 0,90% |
Numerais | NUM.* | 80212 | 3,46% |
Os corpos que lhe deram origem continuam a existir e a serem mantidos independentemente (e prioritariamente). A Literateca é apenas uma forma mais simples de interagir com todos se o utilizador assim o desejar.
Tal como o corpo TODOS, tem apenas como atributos adicionais os atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas dos corpos individuais que o constituem.
No caso da sobreposição entre os vários corpos, usamos a ordem enunciada anteriormente. "Preferimos" os textos que se encontram no Vercial, etc.
Corpo Literateca, criado a 2 de fevereiro de 2025, v. 13.2
Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.
Para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").
Corpo LITERATECA | Número de formas | Número de tipos |
Unidades | 52083367 | 562751 |
Total de palavras | 37326463 | 560325 |
Palavras em minúscula | 28690656 | 299076 |
Palavras com inicial maiúscula | 3566202 | 112431 |
Palavras todas em maiúsculas | 121656 | 11632 |
Números | 81263 | 2113 |
Palavras com números | 1191 | 680 |
Palavras mistas | 28100 | 6470 |
Pontuação | 2710723 | 1972 |
Atributo | Número |
p | 817764 |
s | 2309233 |
t | 2202 |
v | 289303 |
obra | 989 |
capitulo | 686 |
parte | 546 |
tit | 0 |
autor | 878 |
tituloobra | 878 |
div | 5963 |
mwe | 567645 |
fala | 43102 |
personagem | 47507 |
Número de entidades | Número de unidades | |
Nomes próprios | 826669 | 1641413 |
Locuções | 567645 | 1224348 |
Palavras gráficas | 37326463 | 37326463 |
Palavras simples | 34460702 | 34460702 |
Palavras | 35855016 | 37326463 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 7124911 | 20,68% |
Verbos | V.* | 6077004 | 17,63% |
Adjectivos | ADJ.* | 2183411 | 6,34% |
Pronomes pessoais | .*PERS.* | 1752807 | 5,09% |
Preposições | PRP.* | 5370350 | 15,58% |
Conjunções | K.* | 1973575 | 5,73% |
Advérbios | ADV.* | 2285684 | 6,63% |
Determinantes | .*DET.* | 6480296 | 18,80% |
Especificadores | .*SPEC.* | 907526 | 2,63% |
Numerais | NUM.* | 323081 | 0,94% |
Sobretudo em relação às notícias sobre a sua morte, pode haver muito material repetido.
Este corpo está ainda em construção.
Corpus MARIELLE, criado a 6 de julho de 2024, v. 5.1
Agradecemos a todos os que colaboraram na coleção dos textos e notícias...
O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).
Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.
Corpo MARIELLE | Número de formas | Número de tipos |
Unidades | 506032 | 26464 |
Total de palavras | 409831 | 26063 |
Palavras em minúscula | 274779 | 16212 |
Palavras com inicial maiúscula | 73384 | 5831 |
Palavras todas em maiúsculas | 7289 | 1680 |
Números | 5705 | 407 |
Palavras com números | 402 | 168 |
Palavras mistas | 1057 | 153 |
Pontuação | 23844 | 379 |
Atributo | Número |
p | 10286 |
s | 20440 |
texto | 624 |
t | 0 |
mwe | 4797 |
Número de entidades | Número de unidades | |
Nomes próprios | 29291 | 63229 |
Locuções | 4797 | 10095 |
Palavras gráficas | 409831 | 409831 |
Palavras simples | 336507 | 336507 |
Palavras | 370595 | 409831 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 84834 | 25,21% |
Verbos | V.* | 46366 | 13,78% |
Adjectivos | ADJ.* | 23547 | 7,00% |
Pronomes pessoais | .*PERS.* | 5084 | 1,51% |
Preposições | PRP.* | 69500 | 20,65% |
Conjunções | K.* | 16124 | 4,79% |
Advérbios | ADV.* | 12403 | 3,69% |
Determinantes | .*DET.* | 66917 | 19,89% |
Especificadores | .*SPEC.* | 6000 | 1,78% |
Numerais | NUM.* | 8664 | 2,57% |
Os jornais incluídos, e marcados no atributo posicional fonte são: Diário de Moçambique, Jornal A verdade, Notícias, O País e Savana.
Tipo | Descrição | Tamanho |
DdM | Diário de Moçambique | 24.331 |
Verd | Jornal A verdade | 11.253 |
Not | Notícias | 15.640 |
País | O País | 7.250 |
Sav | Savana | 2.719 |
Corpo MOÇAMBULA, versão texto de novembro de 2012, anotado em 6 de julho de 2024, v. 6.1
O corpo está dividido em mensagens/textos separados, marcadas pelo atributo texto, com informação do identificador do mesmo.
Os textos têm também os marcadores estruturais adicionais p [parágrafo] e s [frase].
Como atributos posicionais adicionais temos o fonte que indica em que jornal o texto foi publicado.
Corpo MOCAMBULA | Número de formas | Número de tipos |
Unidades | 69469 | 10789 |
Total de palavras | 59038 | 10745 |
Palavras em minúscula | 47775 | 8450 |
Palavras com inicial maiúscula | 4514 | 1424 |
Palavras todas em maiúsculas | 274 | 161 |
Números | 402 | 109 |
Palavras com números | 21 | 15 |
Palavras mistas | 61 | 31 |
Pontuação | 3135 | 44 |
Atributo | Número |
p | 133 |
s | 2285 |
texto | 94 |
mwe | 1133 |
Número de entidades | Número de unidades | |
Nomes próprios | 1443 | 2566 |
Locuções | 1133 | 2466 |
Palavras gráficas | 59038 | 59038 |
Palavras simples | 54006 | 54006 |
Palavras | 56582 | 59038 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 12591 | 23,31% |
Verbos | V.* | 9081 | 16,81% |
Adjectivos | ADJ.* | 3393 | 6,28% |
Pronomes pessoais | .*PERS.* | 1404 | 2,60% |
Preposições | PRP.* | 9894 | 18,32% |
Conjunções | K.* | 3186 | 5,90% |
Advérbios | ADV.* | 3331 | 6,17% |
Determinantes | .*DET.* | 10689 | 19,79% |
Especificadores | .*SPEC.* | 1531 | 2,83% |
Numerais | NUM.* | 718 | 1,33% |
Em "XML simples", as entrevistas completas do Museu da Pessoa encontram-se aqui num formato com separação de frases e marcação de pergunta e resposta:
Corpus Museu da Pessoa, versão do texto português de Abril de 2005, versão do texto brasileiro de Dezembro de 2008, anotado em 8 de outubro de 2023, v. 9.2
Agradecemos ao Núcleo Português do Museu da Pessoa a disponibilização dos textos. Estamos gratos ao Museu da Pessoa brasileiro por disponibilzarem os textos na Internet, e a Lise Bianchini pelo seu tratamento. Agradecemos a Paula Taveira pela revisão (em curso) dos textos portugueses.
Para cada entrevista temos a indicação dos dados possíveis sobre cada entrevistado aqui.
Variante | Tamanho | |||
BR | 2303596 | |||
PT | 346458 |
Sexo | Tamanho |
F | 749.487 |
M | 1.876.316 |
X | 24.251 |
Corpo MUSEUDAPESSOA | Número de formas | Número de tipos |
Unidades | 1838813 | 42539 |
Total de palavras | 1422975 | 42420 |
Palavras em minúscula | 1116805 | 30144 |
Palavras com inicial maiúscula | 143335 | 8272 |
Palavras todas em maiúsculas | 4862 | 392 |
Números | 8638 | 344 |
Palavras com números | 117 | 73 |
Palavras mistas | 233 | 112 |
Pontuação | 106430 | 117 |
Atributo | Número |
mwe | 24390 |
p | 11770 |
s | 93465 |
entrevista | 215 |
pergunta | 11015 |
resposta | 11351 |
legenda | 47 |
introd | 4 |
corr | 0 |
Número de entidades | Número de unidades | |
Nomes próprios | 35603 | 57297 |
Locuções | 24390 | 51986 |
Palavras gráficas | 1422975 | 1422975 |
Palavras simples | 1313692 | 1313692 |
Palavras | 1373685 | 1422975 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 237105 | 18,05% |
Verbos | V.* | 265129 | 20,18% |
Adjectivos | ADJ.* | 50001 | 3,81% |
Pronomes pessoais | .*PERS.* | 75416 | 5,74% |
Preposições | PRP.* | 170386 | 12,97% |
Conjunções | K.* | 79652 | 6,06% |
Advérbios | ADV.* | 133312 | 10,15% |
Determinantes | .*DET.* | 222949 | 16,97% |
Especificadores | .*SPEC.* | 41900 | 3,19% |
Numerais | NUM.* | 18685 | 1,42% |
Segundo o projecto Natura, o corpus original é assim descrito:
Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de
provas).
Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.
Corpus Natura/Minho (de 9 de Março de 2001), versão texto criada em Abril de 2002, anotado a 6 de julho de 2024, v. 11.1
Estamos gratos à direcção do Diário do Minho pela gentil autorização de disponibilização dos tex
Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.
Corpo NATMINHO | Número de formas | Número de tipos |
Unidades | 2255442 | 69861 |
Total de palavras | 1800223 | 68325 |
Palavras em minúscula | 1284145 | 39047 |
Palavras com inicial maiúscula | 249489 | 17475 |
Palavras todas em maiúsculas | 15596 | 2143 |
Números | 22452 | 1206 |
Palavras com números | 2941 | 415 |
Palavras mistas | 970 | 486 |
Pontuação | 119437 | 1530 |
Atributo | Número |
p | 56926 |
s | 70246 |
assinatura | 541 |
legenda | 782 |
t | 7666 |
art | 5117 |
marca | 0 |
mwe | 27032 |
Número de entidades | Número de unidades | |
Nomes próprios | 103595 | 218855 |
Locuções | 27032 | 57530 |
Palavras gráficas | 1800223 | 1800223 |
Palavras simples | 1523838 | 1523838 |
Palavras | 1654465 | 1800223 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 376185 | 24,69% |
Verbos | V.* | 208282 | 13,67% |
Adjectivos | ADJ.* | 99438 | 6,53% |
Pronomes pessoais | .*PERS.* | 19531 | 1,28% |
Preposições | PRP.* | 323136 | 21,21% |
Conjunções | K.* | 68920 | 4,52% |
Advérbios | ADV.* | 63896 | 4,19% |
Determinantes | .*DET.* | 313292 | 20,56% |
Especificadores | .*SPEC.* | 28517 | 1,87% |
Numerais | NUM.* | 42703 | 2,80% |
Corpo NOBRE, criado a 24 de janeiro de 2025, v. 12.3
Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].
Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").
Corpo NOBRE | Número de formas | Número de tipos |
Unidades | 12149628 | 241396 |
Total de palavras | 8856498 | 239499 |
Palavras em minúscula | 6887162 | 147420 |
Palavras com inicial maiúscula | 748500 | 36124 |
Palavras todas em maiúsculas | 11512 | 2184 |
Números | 8528 | 942 |
Palavras com números | 443 | 268 |
Palavras mistas | 4327 | 1844 |
Pontuação | 647790 | 534 |
Atributo | Número |
p | 177216 |
s | 504403 |
v | 0 |
obra | 167 |
capitulo | 0 |
parte | 0 |
tit | 0 |
autor | 167 |
tituloobra | 167 |
div | 33 |
mwe | 132382 |
fala | 555 |
personagem | 560 |
t | 2 |
Número de entidades | Número de unidades | |
Nomes próprios | 230199 | 350189 |
Locuções | 132382 | 287982 |
Palavras gráficas | 8856498 | 8856498 |
Palavras simples | 8218327 | 8218327 |
Palavras | 8580908 | 8856498 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 1640543 | 19,96% |
Verbos | V.* | 1494794 | 18,19% |
Adjectivos | ADJ.* | 505660 | 6,15% |
Pronomes pessoais | .*PERS.* | 434604 | 5,29% |
Preposições | PRP.* | 1279230 | 15,57% |
Conjunções | K.* | 450756 | 5,48% |
Advérbios | ADV.* | 559099 | 6,80% |
Determinantes | .*DET.* | 1526315 | 18,57% |
Especificadores | .*SPEC.* | 216184 | 2,63% |
Numerais | NUM.* | 66322 | 0,81% |
Corpo OBras, criado a 20 de janeiro de 2025, v. 17.3
Agradecemos a todos os que tornarem este projeto viável, por terem digitalizado e tornado públicas obras de autores brasileiros.
Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título] e s [frase], e poesia [partes em poesia].
Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").
Corpo OBRAS | Número de formas | Número de tipos |
Unidades | 14512445 | 233063 |
Total de palavras | 10274921 | 232415 |
Palavras em minúscula | 8049061 | 137372 |
Palavras com inicial maiúscula | 874351 | 38429 |
Palavras todas em maiúsculas | 11596 | 3029 |
Números | 9063 | 797 |
Palavras com números | 223 | 140 |
Palavras mistas | 2192 | 1201 |
Pontuação | 796548 | 531 |
Atributo | Número |
p | 235240 |
s | 635804 |
t | 1833 |
v | 23015 |
obra | 334 |
capitulo | 686 |
parte | 13 |
tit | 0 |
autor | 334 |
tituloobra | 334 |
div | 2589 |
mwe | 182105 |
Número de entidades | Número de unidades | |
Nomes próprios | 243449 | 341338 |
Locuções | 182105 | 395040 |
Palavras gráficas | 10274921 | 10274921 |
Palavras simples | 9538543 | 9538543 |
Palavras | 9964097 | 10274921 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 2002899 | 21,00% |
Verbos | V.* | 1731413 | 18,15% |
Adjectivos | ADJ.* | 612843 | 6,42% |
Pronomes pessoais | .*PERS.* | 480329 | 5,04% |
Preposições | PRP.* | 1488944 | 15,61% |
Conjunções | K.* | 522983 | 5,48% |
Advérbios | ADV.* | 659024 | 6,91% |
Determinantes | .*DET.* | 1825111 | 19,13% |
Especificadores | .*SPEC.* | 239030 | 2,51% |
Numerais | NUM.* | 81238 | 0,85% |
Mais informação sobre o corpo pode ser obtida em Santos (2019)
Versão do corpus de 22 de maio de 2021
O corpus Plonorte é composto (neste momento) por 38 textos.
Corpo PLONORTE, anotado a 6 de julho de 2024, v. 5.1
Corpo compilado por Ana Rita Ferreira e Diana Santos.
Marcadores estruturais: texto [nome do texto], p [parágrafo], s [frase].
Estatuto | Tamanho |
outro | 5.432 |
residente | 17.221 |
visitante | 21.380 |
Sexo | Tamanho |
F | 30.606 |
M | 13.427 |
Blogue | Tamanho |
alesund | 698 |
analogias | 193 |
autocarro | 462 |
barbaros | 641 |
bergen | 218 |
bolso | 964 |
breivik | 3.745 |
cabonorte | 1.658 |
chuvabagas | 572 |
dicas | 1.061 |
dicastrabalho | 1.071 |
duas | 659 |
entrevista | 1.672 |
exemplar | 1.038 |
festival | 477 |
fiordes | 788 |
fofocas | 392 |
fondant | 372 |
gratulerer | 1.832 |
gravidez | 228 |
idilico | 675 |
limpar | 853 |
mapa | 575 |
mochila | 5.518 |
multa | 152 |
noruega | 1.569 |
olha | 726 |
passeando | 3.084 |
Paulo | 144 |
pipocas | 119 |
princesas | 3.345 |
sardinha | 919 |
svalbard | 606 |
teambuilding | 107 |
trondheim | 1.002 |
trondheim2 | 2.371 |
tubarao | 1.477 |
viajarcriancas | 2.050 |
fofocas | M | 23.01.07 | residente | http://umportuguesnanoruega.blogspot.no/2007/01/dia-19.html |
fondant | F | 10.02.10 | residente | http://webcache.googleusercontent.com/search?q=cache:YAlq1opGVbIJ:eduarda-na-noruega.blogspot.com/&num=1&client=firefox-b-ab&hl=pt-PT&gl=pt&strip=1&vwsrc=0 |
multa | M | 14.07.10 | residente | http://tugananoruega.blogspot.no/2010/07/multa.html |
dicastrabalho | M | 16.06.08 | residente | http://portugalilainen.blogspot.pt/2008/06/trabalhar-na-noruega-dicas.html |
festival | F | 14.05.17 | residente | http://quiosquedajoana.blogs.sapo.pt/da-noruega-para-portugal-com-amor-112310 |
entrevista | F | 27.02.16 | residente | https://halfway2happiness.wordpress.com/2016/02/27/portugal-no-globo-noruega/ |
sardinha | F | 08.03.17 | residente | https://umasardinhananoruega.wordpress.com/2017/03/08/nas-minhas-34-voltas-ao-sol/ |
Paulo | M | 18.05.07 | residente | http://terrasgelidasdonorte.blogspot.no/2007/05/17-de-maio-17-mai.html |
princesas | F | 11.10.10 | residente | http://in-bergen.blogspot.no/2010/10/princesses-in-bergen.html |
trondheim2 | F | 26.05.17 | residente | http://www.almadeviajante.com/viver-em-trondheim-carla-carvalho/ |
trondheim | F | 08.09.12 | residente | http://p3.publico.pt/node/4497 |
viajarcriancas | F | 27.05.14 | residente | http://pikitim.com/trondheim-com-criancas-dicas-de-alice-pinto/ |
gravidez | F | 13.01.12 | residente | http://demaeparamae.pt/forum/gravidez-noruega |
mochila | F | 18.03.14 | visitante | https://viajardemochilaascostas.blogspot.pt/2014/03/noruega.html |
svalbard | F | 09.04.15 | visitante | http://viajarentreviagens.blogspot.pt/2015/04/o-apelo-do-arctico-correndo-de-trenos.html |
fiordes | F | 12.03.10 | visitante | http://viajante-do-mundo.blogspot.pt/2010/03/fiordes-da-noruega.html |
dicas | M | 29.06.15 | visitante | http://www.viagensasolta.com/2015/06/dicas-para-viajar-na-terra-dos-fiordes.html |
cabonorte | M | 06.09.10 | visitante | http://cabonorte2010.blogspot.no/2010/09/bodon-mo-i-ranan-319kms.html |
idilico | F | 26.07.08 | visitante | https://asvoltasdovento.blogspot.no/2008/07/noruega-um-pas-idlico.html |
passeando | F | 10.03.11 | visitante | http://passeando-pela-europa.blogspot.pt/2011/03/noruega.html |
exemplar | M | 24.07.11 | visitante | http://retalhos-de-sintra.blogspot.pt/2011/07/noruega-um-pais-exemplar-2.html |
bergen | M | 26.10.15 | visitante | http://soentrenos.blogs.sapo.pt/bergen-noruega-195633 |
barbaros | F | 05.03.06 | outro | http://apoliticadospoliticos.blogs.sapo.pt/29323.html |
limpar | F | 22.11.09 | outro | http://jugular.blogs.sapo.pt/1331558.html |
mapa | M | 01.04.14 | visitante | https://demapanamao.wordpress.com/noruega/ |
gratulerer | F | 21.05.14 | visitante | https://cartografiapessoal.wordpress.com/2014/05/21/gratulerer-med-dagen-norge/ |
bolso | F | 16.08.16 | visitante | https://alguresnomundo.wordpress.com/2016/08/16/foram-me-ao-bolso-e-eu-gostei-noruega/ |
alesund | F | 07.04.14 | visitante | https://solnaeiraechuvanonabal.wordpress.com/2017/04/07/alesund-pequena-perola-nos-fjords-da-noruega/ |
autocarro | F | 25.04.17 | visitante | https://solnaeiraechuvanonabal.wordpress.com/2017/04/25/fjords-da-noruega/#more-1423 |
breivik | M | 29.07.11 | outro | http://5dias.net/2011/07/29/a-noruega-nao-e-um-exemplo-de-tolerancia-de-democracia-e-de-respeito-pelos-direitos-humanos/ |
noruega | M | 12.09.16 | residente | http://www.coquetteaportuguesa.com/2016/09/noruega.html |
tubarao | F | 04.08.11 | visitante | https://cartografiapessoal.wordpress.com/2011/08/04/na-boca-do-tubarao/ |
teambuilding | M | 25.11.13 | residente | http://aminhavidananoruega.blogspot.no/2013/11/sobre-o-team-building.html |
pipocas | M | 05.02.15 | residente | http://aminhavidananoruega.blogspot.no/2015/02/como-pipocas.html |
analogias | M | 28.10.11 | outro | http://irparaanoruega.blogspot.no/2011/10/guerra-fria-e-guerra-quente.html |
chuvabagas | F | 17.07.16 | residente | http://goingnorthtilnorway.blogspot.no/2016/07/chuvabagas-e-futebol-como-passar-um-dia.html |
duas | M | 09.10.14 | residente | http://duas-ou-tres.blogspot.no/2014/10/portugal-na-noruega.html |
olha | M | 03.10.16 | visitante | http://olhaqueresfalarsobreisso.blogspot.no/2016/10/um-portugues-pela-noruega.html |
Corpo PLONORTE | Número de formas | Número de tipos |
Unidades | 52751 | 8220 |
Total de palavras | 41226 | 8162 |
Palavras em minúscula | 32284 | 6047 |
Palavras com inicial maiúscula | 4195 | 1403 |
Palavras todas em maiúsculas | 119 | 79 |
Números | 459 | 155 |
Palavras com números | 45 | 32 |
Palavras mistas | 65 | 34 |
Pontuação | 2807 | 55 |
Atributo | Número |
p | 1121 |
s | 2379 |
texto | 38 |
mwe | 817 |
Número de entidades | Número de unidades | |
Nomes próprios | 1633 | 2207 |
Locuções | 817 | 1741 |
Palavras gráficas | 41226 | 41226 |
Palavras simples | 37278 | 37278 |
Palavras | 39728 | 41226 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 8661 | 23,23% |
Verbos | V.* | 6055 | 16,24% |
Adjectivos | ADJ.* | 2531 | 6,79% |
Pronomes pessoais | .*PERS.* | 843 | 2,26% |
Preposições | PRP.* | 6900 | 18,51% |
Conjunções | K.* | 2083 | 5,59% |
Advérbios | ADV.* | 2707 | 7,26% |
Determinantes | .*DET.* | 7156 | 19,20% |
Especificadores | .*SPEC.* | 892 | 2,39% |
Numerais | NUM.* | 789 | 2,12% |
O corpus PortFalDA é composto (neste momento) por 50 textos, de Portugal e do Brasil.
Como citar o (conteúdo do) corpus PortFALDA:
Português Falado: Documentos Autênticos (Gravações audio com transcriçao alinhada), conjunto de quatro CD-ROM, produzido pelo Centro de Linguística da Universidade de Lisboa (CLUL), Instituto Camões, com apoio da União Europeia (Programas LINGUA e SOCRATES/LINGUA) numa parceria entre o CLUL, a Universidade de Toulouse-le-Mirail e a Universidade de Aix-en-Provence.
Corpo PORTFALDA, texto original dos CD-ROM, anotado a 6 de julho de 2024, versão 6.1
Agradecemos a (ainda em aberto) para incluir no AC/DC.
Marcadores estruturais: texto [nome do texto], pergunta, resposta, p [parágrafo], s [frase].
Corpo PORTFALDA | Número de formas | Número de tipos |
Unidades | 148582 | 8637 |
Total de palavras | 107215 | 8629 |
Palavras em minúscula | 84568 | 7602 |
Palavras com inicial maiúscula | 1367 | 516 |
Palavras todas em maiúsculas | 51 | 15 |
Números | 1 | 1 |
Palavras com números | 2 | 2 |
Palavras mistas | 32 | 10 |
Pontuação | 8288 | 8 |
Atributo | Número |
p | 3500 |
s | 7569 |
texto | 86 |
pergunta | 1642 |
resposta | 1858 |
mwe | 1925 |
Número de entidades | Número de unidades | |
Nomes próprios | 972 | 1420 |
Locuções | 1925 | 4152 |
Palavras gráficas | 107215 | 107215 |
Palavras simples | 101643 | 101643 |
Palavras | 104540 | 107215 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 14569 | 14,33% |
Verbos | V.* | 19228 | 18,92% |
Adjectivos | ADJ.* | 3361 | 3,31% |
Pronomes pessoais | .*PERS.* | 4593 | 4,52% |
Preposições | PRP.* | 11114 | 10,93% |
Conjunções | K.* | 6059 | 5,96% |
Advérbios | ADV.* | 11680 | 11,49% |
Determinantes | .*DET.* | 13510 | 13,29% |
Especificadores | .*SPEC.* | 2839 | 2,79% |
Numerais | NUM.* | 1269 | 1,25% |
O corpus ReLi é composto de 7 arquivos, com as resenhas das obras de cada autor. Foram manualmente marcadas as seguintes informações:
object - indica segmento alvo de opinião. É designado por OBJXX, onde XX é o identificador do objeto no escopo da resenha, sendo 00 o objeto implícito livro
opinion - indica segmento que expressa opinião sobre um OBJXX. Tem a forma opXXS, onde S={-,+} para indicar a polaridade da opinião e XX é o ponteiro para o objeto
polarity - indica frase com opinião. Pode assumir os valores + e -.
Como citar o corpus ReLi: Freitas, C.; Motta, E.; Milidiú, R.; Cesar, J. Vampiro que brilha... rá! Desafios na anotação de opinião em um corpus de resenhas de livros. In: XI Encontro de Linguística de Corpus (ELC 2012), São Paulo, Brasil, 2012.
Corpus ReLi, versão do texto de Maio de 2013, anotado a 6 de julho de 2024, v. 8.1
Agradecemos a Cláudia Freitas, Eduardo Motta, Ruy Milidiú e Juliana Cesar a autorização para incluir no AC/DC.
Corpo RELI | Número de formas | Número de tipos |
Unidades | 157560 | 14274 |
Total de palavras | 128784 | 13086 |
Palavras em minúscula | 92330 | 10697 |
Palavras com inicial maiúscula | 9963 | 1797 |
Palavras todas em maiúsculas | 392 | 264 |
Números | 405 | 74 |
Palavras com números | 4 | 4 |
Palavras mistas | 7924 | 20 |
Pontuação | 7608 | 61 |
Atributo | Número |
mwe | 2230 |
p | 0 |
t | 0 |
s | 7230 |
livro | 0 |
rev | 0 |
Número de entidades | Número de unidades | |
Nomes próprios | 6540 | 4609 |
Locuções | 2230 | 4840 |
Palavras gráficas | 128784 | 128784 |
Palavras simples | 119335 | 119335 |
Palavras | 128105 | 128784 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 24112 | 20,21% |
Verbos | V.* | 21954 | 18,40% |
Adjectivos | ADJ.* | 8606 | 7,21% |
Pronomes pessoais | .*PERS.* | 4337 | 3,63% |
Preposições | PRP.* | 17667 | 14,80% |
Conjunções | K.* | 7031 | 5,89% |
Advérbios | ADV.* | 9308 | 7,80% |
Determinantes | .*DET.* | 21984 | 18,42% |
Especificadores | .*SPEC.* | 3848 | 3,22% |
Numerais | NUM.* | 1160 | 0,97% |
Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.
Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; criado a 3 de agosto de 2024, v. 15.3
Estamos gratos à Folha de São Paulo pela autorização gentilmente concedida para uso dos seus textos.
Estamos gratos ao Núcleo Interinstitucional de Lingüística Computacional, em especial a Graça Nunes, por nos ter disponibilizado o texto do corpus em formato electrónico, autorizado a sua disponibilização através do projecto AC/DC e negociado com a Folha de São Paulo a autorização anteriormente mencionada.
Marcadores estruturais: s, p,
texto,
t (anteriormente à versão 4.0, estava marcado como titulo),
subtitulo,
assinatura,
Para os textos da folha de São Paulo,
a (autor),
artigo,
caixa,
situacao,
li (elemento de lista).
As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.
Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.
A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.
O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 15.3, é a seguinte:
Tipo | Descrição | Tamanho |
DI | texto didáctico | 426.755 |
ENC | enciclopédia | 287.083 |
ENS | ensaio | 3.783.970 |
EP | texto epistolar | 3.834 |
JO.* | jornalístico | 31.002.400 |
JOCF | jornalístico só CETENFolha | 27.977.441 |
JO | jornalístico sem CETENFolha | 3.024.959 |
LE | texto legal | 1.085.839 |
LI | literário | 928.513 |
RE | revista | 155.474 |
O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.
A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .
A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):
Corpo SAOCARLOS | Número de formas | Número de tipos |
Unidades | 46194786 | 436417 |
Total de palavras | 35145895 | 414436 |
Palavras em minúscula | 25039776 | 158437 |
Palavras com inicial maiúscula | 4806717 | 127850 |
Palavras todas em maiúsculas | 463122 | 22849 |
Números | 533243 | 3248 |
Palavras com números | 49057 | 5336 |
Palavras mistas | 95135 | 8516 |
Pontuação | 2527990 | 21847 |
Atributo | Número |
mwe | 494727 |
p | 856919 |
s | 2048954 |
texto | 342323 |
subtitulo | 4195 |
assinatura | 13 |
artigo | 0 |
caixa | 20695 |
situacao | 5031 |
t | 149285 |
a | 80180 |
li | 49673 |
Número de entidades | Número de unidades | |
Nomes próprios | 2086039 | 3497312 |
Locuções | 494727 | 1055362 |
Palavras gráficas | 35145895 | 35145895 |
Palavras simples | 30593221 | 30593221 |
Palavras | 33173987 | 35145895 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 7657515 | 25,03% |
Verbos | V.* | 4607149 | 15,06% |
Adjectivos | ADJ.* | 1993875 | 6,52% |
Pronomes pessoais | .*PERS.* | 499627 | 1,63% |
Preposições | PRP.* | 5893833 | 19,27% |
Conjunções | K.* | 1311637 | 4,29% |
Advérbios | ADV.* | 1425562 | 4,66% |
Determinantes | .*DET.* | 5950171 | 19,45% |
Especificadores | .*SPEC.* | 521730 | 1,71% |
Numerais | NUM.* | 963235 | 3,15% |
É, portanto, especialmente apropriado para investigações relacionadas com género textual ou com anotação semântica.
Porque é automaticamente produzido a partir de todos os outros corpos do AC/DC, contém apenas os atributos estruturais e posicionais que pertençam à interseção de todos os corpos, além dos atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas de corpos individuais.
No caso da sobreposição entre o corpo NILC/São Carlos e o CHAVE, e do corpo CETEMPúblico e o CHAVE, foi escolhido o material do CHAVE.
O corpo contém cerca de 1300 milhões de palavras, distribuídas entre vários géneros e temas, correspondendo ao conteúdo de todos os corpos presentes no AC/DC.
Género | Unidades |
academico | 409.552.077 |
blog | 4.253.225 |
cartas | 842.924 |
desc | 3.432.044 |
encic | 17.734.659 |
ensaio | 2.219.797 |
jorn | 669.804.963 |
legal | 9.791.855 |
lit | 48.597.042 |
littrad | 77.742 |
2.084.027 | |
misto | 389.380 |
oraldebate | 37.004 |
oralent | 6.674.191 |
oralfut | 86.132 |
oralinf | 292.678 |
oralmono | 77.526.185 |
recensoes | 265.223 |
religioso | 874.402 |
revistas | 647.609 |
teatro | 1.148.728 |
tecnico | 86.312.671 |
variado | 137.824 |
Corpus todos, criado a 4 de setembro de 2022, v. 8.1
Agradecemos aos compiladores de todos os corpos incluídos por os terem criado e (deixado) tornar públicos.
Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.
Corpo TODOS | Número de formas | Número de tipos |
Unidades | 1518927964 | 6295254 |
Total de palavras | 1261058299 | 5491047 |
Palavras em minúscula | 888732290 | 1455100 |
Palavras com inicial maiúscula | 157473488 | 1130986 |
Palavras todas em maiúsculas | 25115356 | 375442 |
Números | 21026152 | 55906 |
Palavras com números | 2505480 | 395382 |
Palavras mistas | 3406250 | 412691 |
Pontuação | 83288930 | 551356 |
Atributo | Número |
TEXTO | 0 |
CATEGORY | 192967 |
0 | |
art | 21801 |
assinatura | 1556 |
assunto | 4858 |
autor | 71244 |
caixa | 1077 |
capitulo | 714 |
cita | 80 |
div | 6932 |
entrevista | 2278 |
ext | 1415377 |
fala | 115137 |
introd | 4 |
legenda | 836 |
li | 100101 |
marca | 16664 |
mens | 4911 |
mwe | 18130528 |
nota | 2329 |
obra | 897 |
p | 5951417 |
parte | 11631 |
pergunta | 12902 |
personagem | 121024 |
resposta | 13422 |
s | 55180342 |
situacao | 561 |
subtitulo | 3719 |
t | 1192583 |
texto | 23968 |
titulo | 2210 |
tituloobra | 897 |
u | 1927081 |
v | 294798 |
a | 221343 |
data | 193395 |
indic | 5643 |
Número de entidades | Número de unidades | |
Nomes próprios | 86280986 | 127913038 |
Locuções | 18130528 | 38609211 |
Palavras gráficas | 1261058299 | 1261058299 |
Palavras simples | 1094536050 | 1094536050 |
Palavras | 1198947564 | 1261058299 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 277167661 | 25,32% |
Verbos | V.* | 145537153 | 13,30% |
Adjectivos | ADJ.* | 77778842 | 7,11% |
Pronomes pessoais | .*PERS.* | 17336037 | 1,58% |
Preposições | PRP.* | 204459658 | 18,68% |
Conjunções | K.* | 48772948 | 4,46% |
Advérbios | ADV.* | 48246109 | 4,41% |
Determinantes | .*DET.* | 198022464 | 18,09% |
Especificadores | .*SPEC.* | 18158155 | 1,66% |
Numerais | NUM.* | 36601144 | 3,34% |
Corpo Tycho Brahe, versão do texto simples de 2017, criado a 5 de julho de 2024, versão 10.12
Agradecemos a Charlotte Galves a gentil autorização para disponibilizar o corpo Tycho Brahe através do AC/DC.
Utilizámos como marcadores estruturais para todas as obras obra (com o identificador original), tituloobra, (o nome da obra), autor (o autor da obra), data (data de nascimento do autor), genero (o gênero de obra segundo os critérios do Tycho Brahe), grafia (preservada ou editada) e a variante (PT ou BR conforme publicado em Portugal ou Brasil). Também se encontram marcados, nas obras em que são relevantes, partes como assinatura, saudacao e data, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].
Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (o gênero de obra segundo os critérios do Tycho Brahe), grafia (preservada ou editada), seculo (de nascimento do autor) e a variante (PT ou BR conforme publicado em Portugal ou Brasil).
Corpo TYCHO | Número de formas | Número de tipos |
Unidades | 4220057 | 149403 |
Total de palavras | 3341892 | 148914 |
Palavras em minúscula | 2572170 | 95283 |
Palavras com inicial maiúscula | 359214 | 28098 |
Palavras todas em maiúsculas | 14787 | 2069 |
Números | 19064 | 1435 |
Palavras com números | 800 | 239 |
Palavras mistas | 4297 | 1746 |
Pontuação | 177815 | 469 |
Atributo | Número |
s | 133611 |
p | 133612 |
obra | 152 |
t | 1918 |
autor | 76 |
tituloobra | 76 |
data | 514 |
variante | 0 |
genero | 76 |
grafia | 76 |
div | 2227 |
assinatura | 1146 |
saudacao | 441 |
mwe | 46157 |
personagem | 21724 |
fala | 17305 |
Número de entidades | Número de unidades | |
Nomes próprios | 130727 | 220171 |
Locuções | 46157 | 98054 |
Palavras gráficas | 3341892 | 3341892 |
Palavras simples | 3023667 | 3023667 |
Palavras | 3200551 | 3341892 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 595435 | 19,69% |
Verbos | V.* | 529518 | 17,51% |
Adjectivos | ADJ.* | 155997 | 5,16% |
Pronomes pessoais | .*PERS.* | 158769 | 5,25% |
Preposições | PRP.* | 465234 | 15,39% |
Conjunções | K.* | 220003 | 7,28% |
Advérbios | ADV.* | 197830 | 6,54% |
Determinantes | .*DET.* | 522342 | 17,28% |
Especificadores | .*SPEC.* | 105709 | 3,50% |
Numerais | NUM.* | 43101 | 1,43% |
Corpus Vercial, criado a 28 de janeiro de 2025, v. 17.3
Agradecemos à equipa do projecto Vercial, especialmente a José Leon Machado, que gentilmente nos cederam os textos para este corpus.
Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra).
As 187 obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].
As 80 obras de poesia têm os seguintes marcadores estruturais adicionais: div [parte de um poema, assinalada graficamente por números romanos] e v [verso].
As 43 obras de teatro têm os seguintes marcadores estruturais adicionais: fala [juntando a fala de uma personagem] e s [frase].
Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (que pode ser Poesia, Prosa ou Teatro), e data (que quando é desconhecida tem o valor "desc").
As obras presentes e respectivos autores são as seguintes:
Corpo VERCIAL | Número de formas | Número de tipos |
Unidades | 20856814 | 328256 |
Total de palavras | 14741576 | 326980 |
Palavras em minúscula | 11085515 | 176560 |
Palavras com inicial maiúscula | 1605906 | 72489 |
Palavras todas em maiúsculas | 81198 | 7332 |
Números | 56229 | 1953 |
Palavras com números | 477 | 329 |
Palavras mistas | 17723 | 2570 |
Pontuação | 1022303 | 1153 |
Atributo | Número |
p | 227986 |
s | 986108 |
v | 266288 |
obra | 339 |
capitulo | 0 |
titulo | 926 |
u | 784652 |
fala | 29177 |
autor | 339 |
tituloobra | 339 |
div | 2353 |
mwe | 203706 |
indic | 4505 |
poesia | 0 |
nota | 1127 |
marca | 10063 |
Número de entidades | Número de unidades | |
Nomes próprios | 503973 | 773310 |
Locuções | 203706 | 434547 |
Palavras gráficas | 14741576 | 14741576 |
Palavras simples | 13533719 | 13533719 |
Palavras | 14241398 | 14741576 |
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
---|---|---|---|
Substantivos | N|N[^U].* | 2851746 | 21,07% |
Verbos | V.* | 2278074 | 16,83% |
Adjectivos | ADJ.* | 891013 | 6,58% |
Pronomes pessoais | .*PERS.* | 667393 | 4,93% |
Preposições | PRP.* | 2126480 | 15,71% |
Conjunções | K.* | 786497 | 5,81% |
Advérbios | ADV.* | 849533 | 6,28% |
Determinantes | .*DET.* | 2565811 | 18,96% |
Especificadores | .*SPEC.* | 357309 | 2,64% |
Numerais | NUM.* | 146541 | 1,08% |
[ Acesso | Anotação | Atomização | Exemplos | Agradecimentos ]