Informação pormenorizada sobre os corpos

Projecto AC/DC, Linguateca


Esta página fornece a informação necessária sobre cada corpo, para que os utilizadores do nosso serviço o possam utilizar como instrumento válido de teste de hipóteses científicas.

Além de apontar para a informação original fornecida pelos compiladores e de apresentar uma contabilização sumária de todos os corpos em forma de tabela, descreve várias opções básicas tomadas na codificação dos corpos no ambiente escolhido, o CWB. Sem que estas opções sejam explicitadas, não é possível compreender os resultados quantitativos ou comparar com outros trabalhos sobre os mesmos corpos.

Todos os corpos foram anotados pelo PALAVRAS, o analisador sintáctico criado Eckhard Bick, Bick (2000). Veja-se a página de anotação para mais informações sobre essa anotação.


Identificação sumária

Informação original fornecida pelos compiladores de corpos, acessível na rede ou publicada. Apenas os identificadores foram atribuídos por nós. Para saber mais informação sobre cada corpo, clique no respectivo identificador.

AmostRA-NILC Seleção de textos do corpo NILC, em português brasileiro, contendo textos dos géneros didático, jornalístico e literário, anotada com classificação gramatical, criada no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC
ANCIB Corpo de correio electrónico da lista ANCIB
Avante! Corpo de artigos da edição electrónica do Avante!, jornal semanal do Partido Comunista Português
CBRAS Um grande corpo de português brasileiro contendo muitos géneros diferentes, obtido da Rede
CDHAREM As colecções douradas usadas no HAREM
CETEMPúblico CETEMPúblico (Corpo de Extractos de Textos Electrónicos MCT/Público)
CHAVE Corpo de texto jornalístico usado no CLEF
CIENCIAVIVA Textos escritos sobre ciência em Portugal
COLONIA Corpo de textos históricos do século XVI ao XIX, de Portugal e do Brasil
C-ORAL-BRASIL Corpo oral de conversas informais no estado de Minas Gerais
CONDIVport Parte do corpo CONDIVport, contendo textos de jornais desportivos de Portugal e do Brasil
CoNECorpo de Correio Não-Endereçado, criado pela Linguateca
CORDIAL-SINCorpo de excertos de conversas orais, semidirigidas, em Portugal
DHBBCorpo de verbetes enciclopédicos sobre políticos brasileiros
DiaCLAV Corpo de artigos da edição electrónica de jornais regionais da região centro de Portugal (Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário)
Diáspora TL-PTCorpo de entrevistas a timorenses radicados em Portugal
ECI-EBR A parte do corpo Borba-Ramsey, contido no European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ECI-EE A parte da apresentação do programa Esprit do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ENPCPUB Parte disponibilizável do subconjunto em português do English-Norwegian Parallel Corpus (ENPC) (traduções para português de originais em inglês)
Floresta Corpo relativo ao material da Floresta Sintá(c)tica
FrasesPP Corpo FrasesPP, desenvolvido no Grupo de PLN do INESC em 1990-93
FrasesPB Corpo FrasesPB, criado no âmbito do Projecto Processamento Computacional do Português
Mariano GagoNotícias sobre Mariano Gago e textos dele e sobre ele
Marielle, presente!Textos escritos por Marielle Franco, e sobre ela
MoçambulaCarta de leitores em jornais moçambicanos
Museu da PessoaCorpo de entrevistas portuguesas e brasileiras realizadas pelo Museu da Pessoa
Natura/Minho Corpo jornalístico Natura/Diário do Minho
NOBRECorpo de texto literário lusófono publicado na Europa
OBrasCorpo de texto literário brasileiro
P'lo NorteCorpo de blogues de portugueses sobre a Noruega
ReLiCorpo de resenhas de livros na Rede, criadas por alunos brasileiros, anotadas com polaridade e objeto de opinião
NILC/São Carlos Corpo NILC/São Carlos (parte corrigida), contendo texto jornalístico, didáctico e epistolar.
Tycho Brahe Corpo Tycho Brahe
TodosJuntos Todos os corpos combinados, evitando repetições.
Vercial Corpo de textos literários portugueses clássicos, disponibilizados pelo projecto Vercial.

Contabilização básica dos corpos

Todos os corpos foram processados de forma a serem codificados pelo IMS-CWB, o que significa que foram previamente transformados no formato de uma unidade por linha, e com um atributo estrutural (que delimita um conjunto de unidades) por linha também.

Este processo, que chamamos atomização, encontra-se descrito em Atomização, e inclui também a divisão em frases, obtida automaticamente na maior parte dos casos.

De forma a poder comparar os vários corpos numa única tabela, convém notar que os elementos classificados como títulos, legendas, etc. não foram considerados frases para efeitos desta contagem. Por outro lado, os parágrafos (geralmente curtos) sem pontuação final são marcados como frases, do tipo fragmento.

Esta contabilização é atualizada sempre que há criação de novas versões.

Corpo Nº de frases Nº de parágrafos Nº de palavras (formas) Nº de palavras (tipos) Nº de unidades
AmostRA-NILC4.9654.90499.26717.155128.517
ANCIB83.50460.1161.257.78574.2861.698.148
Avante!193.10762.5276.615.426122.2057.782.139
Corpus Brasileiro43.044.01311.275959.172.6374.864.3141.134.414.006
CD HAREM12.5587.276225.76630.985290.001
CETEMPúblico7.017.2602.568.010195.231.421950.002239.113.359
CHAVE4.762.2892.272.811101.444.276737.712127.436.563
Ciência Viva27.27012.483663.48741.893805.307
Colonia283.547283.5474.981.875174.4386.658.516
CONDIVport301.077148.8935.627.261155.1957.200.795
CONDIVport26.5333.929175.27719.973212.075
CoNE31.56319.416681.37743.118921.366
C-Oral-Brasil30.6340267.10214.433439.519
CORDIAL-SIN98.01048.938857.06629.6571.494.736
CorpiRef0000
CorTrad, lado português76.24618.2541.448.96669.7941.952.456
DHBB461.80812.04514.177.792122.54916.096.075
DiaCLAV210.37324.4396.710.948111.5977.849.857
Diáspora TL-PT1.035021.9083.04727.409
DisPR10.6475.819275.59220.834330.043
ECI-EBR44.38112.117728.95160.175924.904
ECI-EE78934025.7793.97030.277
ENPCPUB (parte em português)4.3711.68272.79812.88492.679
Floresta257.01737.6814.779.248160.1475.815.359
FrasesPB65264819.1856.00723.259
FrasesPP59459416.2665.08820.030
Mariano Gago22.93111.357569.84331.627693.884
LeMe178.686143.6242.581.50942.0863.496.795
Literateca2.288.110800.17637.032.572562.54751.598.514
Marielle, presente!20.44410.291409.83126.063506.032
Moçambula2.28513359.03810.74569.469
Museu da Pessoa93.46611.7711.431.61542.6271.846.889
Natura/Minho70.27756.9271.800.22368.3252.255.442
NOBRE512.184174.4358.939.028238.37412.257.616
OBras634.762235.17910.255.363232.82414.468.091
PANTERA, lado português46.06515.817642.72847.288950.926
P'lo Norte2.3811.12141.2268.16252.751
Português Falado - Documentos Autênticos7.5693.500107.2158.629148.582
ReLi7.2310128.78413.086157.560
NILC/São Carlos2.054.104873.55232.886.779436.35043.249.538
todos juntos56.970.4306.101.6261.261.058.2995.491.0471.518.927.964
Tycho Brahe135.623136.0653.344.141149.1394.226.634
Vercial987.669228.56714.776.427328.45120.875.505
Total64.028.0308.320.2591.420.583.778 --1.718.611.623


Frequência de formas e lemas por categoria gramatical nos corpos

Para obter as listas de frequências, clique na célula correspondente da tabela abaixo, que indica o número de tipos distintos. Tenha, contudo, em atenção as seguintes informações

CorpusFormas
NADJADVVNUMGRAMtodos
AmostRA63872736423594830053217202
ANCIB2189795861179180015201147276471
Avante!320091843524854626149942143122235
CDHAREM102124228610888797962831180
CETEMPúblico20536993621956221725812189112533982265
CHAVE164565766007373173039919498466738517
Ciência Viva12771708390712751151582542344
Colonia490172453530178712814302108174452
ConDIVport445972541129585536459582413157513
ConDIVport266662674432599485055820151
ConE14514568571596073979152246688
C-ORAL_Brasil55341819358492033996314583
CORDIAL-SIN1132527543751435515594829803
Parte portuguesa do CorTrad21613111401166252341704157369885
DHBB292901531715593634999051956127964
DiaCLAV314601549416923909256631789111619
Diáspora TL-PT9863111631087893483069
DisPR58853971743952029556720901
ECI-EBR1962910135125624007768101560376
ECI-EE133382920212592173044122
ENPC (parte pública)44231978455504413849712909
Floresta469162187221894864360243144164357
FrasesPB25769512161767663346019
FrasesPP20588732111452763235104
Mariano Gago973949198531165386587031895
LeMe12905844868987023921106843122
Literateca14684572834837327893645516122562908
Marielle, presente!822236795738621111084326464
Moçambula37451648418378517851810789
Museu da Pessoa1467759967741724557289442637
Natura/Minho20814101141223217023948126069861
NOBRE6156934816458612630615143859239683
OBras5919532785407312679415462377232917
Plonorte2888118133725792494608220
PortFalDA331211242603435564188637
ReLi425824835634980141172214274
NILC/São Carlos105161489714507105471614624545436492
Vercial8248041855479916596433773227328550
39236817773116341459314206788251771749222

CorpusLemas
NADJADVVNUMGRAMPROPtodostodos/pos
AmostRA48821873329186332217214861075210933
ANCIB11581436484130845511467341495871560002
Avante!172827640198044506183741524518919590733
CDHAREM71502709459214598319169302025820567
CETEMPúblico111283331516751120161359077330109264713768711399092
CHAVE81102270915425104721004264241691127904078919891
Ciência Viva8285361373823491662271100392639826962
Colonia262299891230877081806608264247325474980
ConDIVport214809962215952537313673460449047592889
ConDIVport246251667340158186719241091306613387
ConE7571269347420224093325165103301733693
C-ORAL_Brasil405811742311381332246184588469273
CORDIAL-SIN62951401224208530428119001226012496
Parte portuguesa do CorTrad13106552095336272120652155394019241523
DHBB17558656612723764104711128148066186889188832
DiaCLAV1682566871305402363778256404698545100094
Diáspora TL-PT7992211163538712822118471931
DisPR40902169624183731117910661015710282
ECI-EBR12492536310293794112732489473240533082
ECI-EE99052918048022010613325842644
ENPC (parte pública)34521384369143212216172275347648
Floresta305161124918866797613861086695142045143896
FrasesPB21267331878265811721441754267
FrasesPP16806731836607112219135323586
Mariano Gago63082700668211092728872341993720241
LeMe79384514528202639421176154583427735587
Literateca707712564662301717663101240160220277264287601
Marielle, presente!498120584341885118726364961696717310
Moçambula27801122320124118017081565376634
Museu da Pessoa90953204594280473931879512403024711
Natura/Minho11544476292631994473456302405475555606
NOBRE3051412931350187231958682337388896492053
OBras2845711750323582022037673338748558488234
Plonorte217078625385024616076551295236
PortFalDA2647767243102813218642453125433
ReLi29491410372135814222179269317250
NILC/São Carlos478171794933108299669111834289881427567436007
Vercial4126915241368910980423483689928161356166183
20685964190113042772422980812170186761523776952418661


Contabilização detalhada por corpo

A maior parte dos corpos requereu tratamento específico e opções dedicadas, que serão mencionadas na descrição de cada caso. Como opções gerais, mais detalhadas na página de atomização, temos:

Os dados quantitativos que apresentamos para cada corpo dividem-se em quatro grupos: Nota: em relação aos dados quantitativos, a categoria "pontuação" inclui todos as unidades que contenham sinais de pontuação e que não tenham sido considerados como abreviaturas (incluindo portanto números do tipo "3.876.210", abreviaturas com mais de um ponto como "S.O.S." ou "E.U.A", assim como erros de codificação ainda não depurados, como "primeiro-ministro.").


Corpo AmostRA-NILC

O corpus AmostRA-NILC (Corpus Amostra Rachel Aires - NILC) foi criado no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC, para avaliar e comparar o desempenho de etiquetadores para o português brasileiro (Aires 2000).

Citando Aires 2000 (secção 4.1.1)

" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:

  1. textos simples, isto é, aqueles que seguem uma estrutura formal fixa, por exemplo a escrita técnica (didáticos);
  2. textos mais próximos da linguagem viva (jornalístico);
  3. textos com estrutura livre, isto é, com formas menos comuns como ordem inversa por exemplo, (literários).

(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.

(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)

Tabela 1 - Corpus de treinamento e teste
Tipo de CorpusTamanho do corpus
D Didático 16.255 palavras
J Jornalístico 56.653 palavras
L Literário 32.054 palavras

(fim de citação)

Corpus AmostRA-NILC duplamente anotado, versão texto de 7 de Agosto de 2003 com primeira anotação do NILC (Rachel Aires), anotado a 13 de julho de 2024, v. 8.2

Agradecemos a Rachel Aires a disponibilização do corpus.

Estrutura do corpo

Os atributos estruturais usados são p (parágrafo) e s (frase). É também usado o atributo posicional pos2 (anotação gramatical original do corpus).

Dados quantitativos

Corpo AMOSTRA Número de formasNúmero de tipos
Unidades 12851717202
Total de palavras 9926717155
Palavras em minúscula 7833813522
Palavras com inicial maiúscula82532401
Palavras todas em maiúsculas 46419
Números 909186
Palavras com números7348
Palavras mistas4124
Pontuação625447

Número de unidades estruturais

Atributo Número
s 4965
p 4904
mwe 1629

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 3494 5044
Locuções 1629 3454
Palavras gráficas 99267 99267
Palavras simples 90769 90769
Palavras 95892 99267

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 23041 25,38%
Verbos V.* 14189 15,63%
Adjectivos ADJ.* 6430 7,08%
Pronomes pessoais .*PERS.* 2262 2,49%
Preposições PRP.* 17074 18,81%
Conjunções K.* 4038 4,45%
Advérbios ADV.* 4669 5,14%
Determinantes .*DET.* 17435 19,21%
Especificadores .*SPEC.* 1621 1,79%
Numerais NUM.* 1789 1,97%

^Voltar ao início da página

Corpo ANCIB

O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista homónima da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (até Novembro de 2003) e para a lista abarreto-l, após essa data.

Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.

Corpus ANCIB, versão texto de Junho de 2009, anotado a 6 de julho de 2024, v. 10.1

Agradecemos a Aldo Barreto a autorização gentilmente cedida para uso dos textos da lista.

Estrutura do corpo

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.

Dados quantitativos

Corpo ANCIB Número de formasNúmero de tipos
Unidades 169814876471
Total de palavras 125778574286
Palavras em minúscula 84044334833
Palavras com inicial maiúscula20372020698
Palavras todas em maiúsculas 419387004
Números 195301183
Palavras com números2489674
Palavras mistas28411397
Pontuação1098682054

Número de unidades estruturais

Atributo Número
p 60090
s 83469
mwe 12271
autor 2925
mens 3012
assunto 3000
li 0
titulo 0
cita 81

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 91894 184955
Locuções 12271 26527
Palavras gráficas 1257785 1257785
Palavras simples 1046303 1046303
Palavras 1150468 1257785

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 290332 27,75%
Verbos V.* 128137 12,25%
Adjectivos ADJ.* 80089 7,65%
Pronomes pessoais .*PERS.* 12913 1,23%
Preposições PRP.* 204102 19,51%
Conjunções K.* 55718 5,33%
Advérbios ADV.* 37336 3,57%
Determinantes .*DET.* 192781 18,42%
Especificadores .*SPEC.* 15293 1,46%
Numerais NUM.* 30909 2,95%

^Voltar ao início da página

Corpo Avante!

O corpus Avante! contém textos do semanário «Avante!», orgão oficial do Partido Comunista Português. O corpus contém cerca de 6 milhões de palavras, extraídas da versão na rede do jornal, correspondendo a um total de 8.515 artigos de 207 edições do dito jornal, de Abril de 1997 até Fevereiro de 2002.

Corpus Avante, versão de 6 de Março de 2006, anotado a 4 de outubro de 2025, v. 9.3

Estamos gratos à direcção do «Avante!», em especial ao seu director José Casanova, pela autorização gentilmente cedida para a elaboração deste corpus.

Estrutura do corpo

O corpus contém as etiquetas art (artigo), t (título), p (parágrafo), s (frase) e li (elemento de uma lista); os artigos não estão datados, sendo apenas indicado o número da edição, através da indicação <art ed= id=> .

Dados quantitativos

Corpo AVANTE Número de formasNúmero de tipos
Unidades 7782139122235
Total de palavras 6615426122205
Palavras em minúscula 509728767904
Palavras com inicial maiúscula66135529163
Palavras todas em maiúsculas 826173433
Números 626072787
Palavras com números1094340
Palavras mistas1702744
Pontuação3309208

Número de unidades estruturais

Atributo Número
art 8055
t 26379
a 2
p 62527
li 7725
s 193105
mwe 119349

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 285693 514716
Locuções 119349 257210
Palavras gráficas 6615426 6615426
Palavras simples 5843500 5843500
Palavras 6248542 6615426

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1441056 24,66%
Verbos V.* 780040 13,35%
Adjectivos ADJ.* 450652 7,71%
Pronomes pessoais .*PERS.* 89212 1,53%
Preposições PRP.* 1230315 21,05%
Conjunções K.* 310614 5,32%
Advérbios ADV.* 287144 4,91%
Determinantes .*DET.* 1266527 21,67%
Especificadores .*SPEC.* 123473 2,11%
Numerais NUM.* 104110 1,78%

^Voltar ao início da página

Corpo Corpus Brasileiro

O Corpus Brasileiro é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp. Devido a variados tipos de processamento automático, é possível que nem todo o material incorporado esteja disponível através do AC/DC.

Listas de frequências

As listas de frequência de palavras (unigramas) do corpus podem ser obtidas em:

Referências

Manual: Corpus Brasileiro.
Berber Sardinha, T. (2008). Léxico-gramática e corpus. II Ebralc - Escola Brasileira de Linguística Computacional, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2008). O Corpus Brasileiro. Comunicação apresentada em VII Encontro de Lingüística de Corpus, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T. (2009). Applied Linguistics and Technology. Ames, Iowa State University, USA, January 20, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus: A one-billion word online resource. Comunicação apresentada em 5th Corpus Linguistics Conference, Liverpool, UK, July 21-23, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus. Comunicação apresentada em AACL 2009 - American Association for Corpus Linguistics, Alberta, Canadá, October 8-11, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2010). O Corpus Brasileiro. Comunicação apresentada em 13o Congresso Brasileiro De Língua Portuguesa e 4o Congresso Internacional De Lusofonia, PUCSP, São Paulo, SP, 30 de abril de 2010.
Berber Sardinha, T. (2010). Corpus Linguistics and Metaphor. Conferência plenária apresentada em 2nd International Conference on Corpus Linguistics (CILC), A Coruña, Spain, May 13-15, 2010.
Berber Sardinha, T. (2010). A Linguística de Corpus na Prática. Santiago de Compostela, Espanha: Universidade de Santiago de Compostela, Espanha, 2010.
Berber Sardinha, T. (2010). Corpus Linguistics. Murcia, Espanha: Universidade de Murcia, Espanha, 2010.

Corpus Brasileiro anotado, versão de 13 de junho de 2025, v. 9.0

Tony Berber Sardinha, a quem estamos gratos pela autorização para a disponibilização deste corpus, agradece à Fapesp o financiamento do projeto.

Estrutura do corpo

O corpo está apenas dividido em frases (s).

Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:

generoGêneroFonte
eiAcadêmicoArtigos
ejAcadêmicoTeses e dissertações
eqAcadêmicoAnais de congresso
enCinema e TVRoteiros
ee/efEducaçãoDiversos
ee/efEducaçãoDiversos
etEnciclopédiaWikipédia
faEsporteNarração de jogos de futebol
ekInformáticaManuais
edJornalismoRevistas
egJornalismoJornais
eoJornalismoHoróscopo
feJornalismoEntrevistas
em/exLegislaçãoDiversos
em/exLegislaçãoDiversos
ebLiteraturaContos
ecLiteraturaCrônicas
eh/ewLiteraturaVariados
eh/ewLiteraturaVariados
euLiteraturaBiografias
eaMedicinaBulas de remédio
epPolíticaAtas de assembléia legislativa
fbPolíticaDebates de TV
fcPolíticaPronunciamentos do presidente
fdPolíticaSessões do congresso
elReligiãoDiversos
evReligiãoBíblia
er/esTécnicoRelatórios e manuais diversos
er/esTécnicoRelatórios e manuais diversos

Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.

GéneroUnidades
ea 113.111
eb 61.168
ec 166.529
ed 497.106
ee 77.538.811
ef 2.267.630
eg 255.976.444
eh 1.375.882
ei 184.060.342
ej 270.776.515
ek 717.373
el 926.147
em 227.156
en 319.419
eo 4.308
ep 4.053.183
eq 6.965.045
er 5.722.902
es 6.655.524
et 53.690.513
eu 1.735.800
ev 2.659.377
ew 21.849.612
ex 26.872.755
fa 258.840
fb 65.844
fc 5.424.990
fd 86.907.734
fe 4.015.274

Dados quantitativos

Corpo CBRAS Número de formasNúmero de tipos
Unidades 11344140065353468
Total de palavras 9591726374864314
Palavras em minúscula 6415370101243719
Palavras com inicial maiúscula1281331641055996
Palavras todas em maiúsculas 31919585358094
Números 2102777196554
Palavras com números2324770384830
Palavras mistas4002933363260
Pontuação62977515473143

Número de unidades estruturais

Atributo Número
p 87
s 40986065
mwe 12934813

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 46355017 108606713
Locuções 12934813 27386268
Palavras gráficas 958936451 958936451
Palavras simples 822943470 822943470
Palavras 882233300 958936451

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 219131354 26,63%
Verbos V.* 106700934 12,97%
Adjectivos ADJ.* 61361229 7,46%
Pronomes pessoais .*PERS.* 12094110 1,47%
Preposições PRP.* 155797306 18,93%
Conjunções K.* 37490570 4,56%
Advérbios ADV.* 32853240 3,99%
Determinantes .*DET.* 147778959 17,96%
Especificadores .*SPEC.* 11536306 1,40%
Numerais NUM.* 33522347 4,07%

^Voltar ao início da página

Corpo CD HAREM

O corpo CDHAREM contém as colecções douradas usadas no HAREM (avaliação conjunta de sistemas de Reconhecimento de Entidades Mencionadas), tanto no Primeiro (criadas em 2005 e 2006) como no Segundo (criada em 2008). A forma como este corpo foi criado encontra-se pormenorizadamente descrita em Rocha & Santos (2007).

Corpus Colecção Dourada do HAREM, a partir das versões das CD do Primeiro HAREM de 2007, anotado em 3 de Maio de 2010, criado a 15 de Maio de 2010, versão 3.2

Estrutura do corpo

  • Atributos estruturais:
  • Atributos posicionais relacionados com a anotação das entidades:

    Dados quantitativos

    Corpo CDHAREM Número de formasNúmero de tipos
    Unidades 29000131214
    Total de palavras 22576630985
    Palavras em minúscula 16561719241
    Palavras com inicial maiúscula327377956
    Palavras todas em maiúsculas 14001046
    Números 2887564
    Palavras com números12383
    Palavras mistas14995
    Pontuação15197229

    Número de unidades estruturais

    Atributo Número
    DOC 386
    TEXTO 386
    LOCAL 3494
    ORGANIZACAO 2621
    VALOR 1153
    COISA 640
    ACONTECIMENTO 501
    OBRA 863
    PESSOA 4014
    TEMPO 1970
    ABSTRACCAO 1195
    VARIADO 54
    OUTRO 110
    p 7262
    s 12530
    ALT 533
    EM 15908
    mwe 3913

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 12178 22866
    Locuções 3913 8318
    Palavras gráficas 225766 225766
    Palavras simples 194582 194582
    Palavras 210673 225766

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 45363 23,31%
    Verbos V.* 30984 15,92%
    Adjectivos ADJ.* 12191 6,27%
    Pronomes pessoais .*PERS.* 5198 2,67%
    Preposições PRP.* 35007 17,99%
    Conjunções K.* 10098 5,19%
    Advérbios ADV.* 13231 6,80%
    Determinantes .*DET.* 38627 19,85%
    Especificadores .*SPEC.* 3841 1,97%
    Numerais NUM.* 4667 2,40%

    ^Voltar ao início da página

    Corpo CETEMPúblico

    O CETEMPúblico contém cerca de 190 milhões de palavras extraídas do diário PÚBLICO. Veja-se a página oficial do CETEMPúblico para mais informação.

    Corpus CETEMPúblico anotado: versão 2.0 do texto, criada a 12 de dezembro de 2023, anotada a 14 de outubro de 2025, v. 12.6

    Estamos gratos ao Público pela gentil disponibilização dos textos.
    Estamos especialmente gratos a José Vitor Malheiros, director da versão electrónica, sem o qual este corpo não existiria, e a Paulo Almeida pelo apoio técnico com os ficheiros electrónicos.
    Também agradecemos a Telmo Móia a ajuda prestimosa no teste das primeiras versões do CETEMPúblico 2.0.

    Estrutura do corpo

    Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase], t [título ou subtítulo], a [identificação do autor], li [elemento de lista], marca.

    Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.

    semestretamanhocltclt-soccomdesecondopipolsoc
    91a788660369359319690209389945544793085214010717801345641
    91b1519275313408242318360152898310114696131340023010462647255
    92a1634826826732425719600162930116304442235740041844563423125
    92b122612852361819467620013988601393465545759028950243198738
    93a162480243376560956726015946431797613639411036436344239437
    93b1295494324024696233770135209113515591151885027350063338556
    94a1641955532270229326280162206016955461573158035282603840881
    94b1586300429563939288380172326116877191853105031111013602587
    95a17771895295508211605310195142917308702051920032991354622928
    95b16710434236765110026600172270615210402200797034776584417922
    96a12726373173569901392315285701032941128886266585522745104186013
    96b124284521713465001651662846772132735266612020327494190332
    97a105654821450540018463141491972135898661966612517452663562192
    97b10614785144753702636681321656701988100274360735919358693333965
    98a13778651155318604135441631575850610187297769004321108064655910
    98b955407611129540290884111616560739591616246237117553293292816
    Todos 333680367073078100048224126875191352682886304437578734210162957898298

    Dados quantitativos

    Corpo CETEMPUBLICO Número de formasNúmero de tipos
    Unidades 238291013982265
    Total de palavras 195395130981150
    Palavras em minúscula 143674395272747
    Palavras com inicial maiúscula23531304308954
    Palavras todas em maiúsculas 143394832497
    Números 201039137892
    Palavras com números23758914374
    Palavras mistas13151440282
    Pontuação116708958

    Número de unidades estruturais

    Atributo Número
    p 2567953
    s 7017148
    ext 1500637
    t 630938
    a 228842
    mwe 3480754
    marca 3808

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 10406438 18410164
    Locuções 3480754 7404351
    Palavras gráficas 195395130 195395130
    Palavras simples 169580615 169580615
    Palavras 183467807 195395130

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 39239008 23,14%
    Verbos V.* 24576965 14,49%
    Adjectivos ADJ.* 11530598 6,80%
    Pronomes pessoais .*PERS.* 2870052 1,69%
    Preposições PRP.* 34202076 20,17%
    Conjunções K.* 7658033 4,52%
    Advérbios ADV.* 9205102 5,43%
    Determinantes .*DET.* 34835467 20,54%
    Especificadores .*SPEC.* 3441927 2,03%
    Numerais NUM.* 4169210 2,46%

    ^Voltar ao início da página

    Corpo CHAVE

    O corpus CHAVE contém textos jornalísticos dos jornais Público e Folha de São Paulo dos anos de 1994 e 1995. Este corpus foi criado no âmbito da participação da língua portuguesa no CLEF. Para citar a colecção CHAVE, use Santos & Rocha (2005) ou uma descrição geral do CLEF em Rocha & Santos (2007). Pode obter o corpus completo em formato texto requerendo-o nesta página.

    Corpus CHAVE, criado a 11 de outubro de 2025, v. 11.4

    Agradecemos ao PÚBLICO e à Folha de São Paulo a gentil autorização de disponibilização dos textos.

    Estrutura do corpo

    Marcadores estruturais: DOC [documento], s [frase], CATEGORY (secção do jornal), AUTHOR (autor do texto), NE (lista de nomes próprios contidos no documento, usando a anotação do PALAVRAS).

    Dados quantitativos

    Corpo CHAVE Número de formasNúmero de tipos
    Unidades 127436563738517
    Total de palavras 101444276737712
    Palavras em minúscula 73920857231148
    Palavras com inicial maiúscula12748110232601
    Palavras todas em maiúsculas 86756927557
    Números 126635530957
    Palavras com números1041049357
    Palavras mistas15825820098
    Pontuação62609578

    Número de unidades estruturais

    Atributo Número
    s 4761904
    t 579101
    p 2272725
    mwe 1683156
    data 210731
    DOC 210731
    CATEGORY 210731
    EM 210731

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 5486408 9581481
    Locuções 1683156 3582911
    Palavras gráficas 101444276 101444276
    Palavras simples 88279884 88279884
    Palavras 95449448 101444276

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 20987358 23,77%
    Verbos V.* 12975408 14,70%
    Adjectivos ADJ.* 5918821 6,70%
    Pronomes pessoais .*PERS.* 1485389 1,68%
    Preposições PRP.* 17415803 19,73%
    Conjunções K.* 3969413 4,50%
    Advérbios ADV.* 4563588 5,17%
    Determinantes .*DET.* 17736622 20,09%
    Especificadores .*SPEC.* 1688367 1,91%
    Numerais NUM.* 2306139 2,61%

    ^Voltar ao início da página

    Corpo Ciência Viva

    O corpo Ciência Viva é constituído por notícias de jornal promovidas pela plataforma "Ciência na Imprensa Regional". Esta é uma iniciativa da Ciência Viva - Agência Nacional para a Cultura Científica e Tecnológica, lançada em 2011, com o objetivo de estimular a comunicação de ciência na imprensa regional em Portugal.

    A plataforma "Ciência na Imprensa Regional", http://imprensaregional.cienciaviva.pt, é um sistema digital de edição e distribuição de conteúdos de divulgação científica da autoria de cientistas e profissionais de comunicação de ciência. Após edição e catalogação os conteúdos ficam disponíveis para publicação por todos os órgãos de comunicação social, locais e regionais.

    Corpo CIENCIAVIVA, criado a 6 de julho de 2024, v. 4.1

    Agradecemos a Carlos Catalão Alves, da Direção da Ciência Viva, esta colaboração.

    Estrutura do corpo

    O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

    Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

    Dados quantitativos

    Corpo CIENCIAVIVA Número de formasNúmero de tipos
    Unidades 80530742344
    Total de palavras 66348741893
    Palavras em minúscula 50018126504
    Palavras com inicial maiúscula763889353
    Palavras todas em maiúsculas 4647930
    Números 7728755
    Palavras com números1117512
    Palavras mistas447261
    Pontuação34419424

    Número de unidades estruturais

    Atributo Número
    p 12483
    s 27266
    texto 1124
    t 1124
    mwe 11489

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 29688 58741
    Locuções 11489 24319
    Palavras gráficas 663487 663487
    Palavras simples 580427 580427
    Palavras 621604 663487

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 146325 25,21%
    Verbos V.* 80112 13,80%
    Adjectivos ADJ.* 47858 8,25%
    Pronomes pessoais .*PERS.* 8228 1,42%
    Preposições PRP.* 116126 20,01%
    Conjunções K.* 27185 4,68%
    Advérbios ADV.* 28725 4,95%
    Determinantes .*DET.* 118495 20,42%
    Especificadores .*SPEC.* 11498 1,98%
    Numerais NUM.* 12148 2,09%

    ^Voltar ao início da página

    Corpo Colonia

    O Colonia é um corpo eletrônico anotado compilado para pesquisa sobre a história da língua portuguesa, com textos escritos entre 1500 e 1936, desenvolvido por Marcos Zampieri na Universidade de Colónia (Köln). Veja-se https://mzampieri.com/resources.html para mais informações. (Nota: À versão do AC/DC faltam ainda cinco textos.)

    Corpo COLONIA, criado a 4 de janeiro de 2026, v. 12.0

    Agradecemos a todos os que tornarem este projeto viável, por terem digitalizado e tornado públicas obras de autores brasileiros.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o identificador original do projeto Colonia), tituloobra (o nome da obra), autor (o autor da obra) e dataobra. Também se encontram marcados, nas obras em que são relevantes, partes como parte, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), data, variante e seculo, contendo o século em que a obra foi publicada.

    Dados quantitativos

    Corpo COLONIA Número de formasNúmero de tipos
    Unidades 6658516174452
    Total de palavras 4981875174438
    Palavras em minúscula 3868824110685
    Palavras com inicial maiúscula45754629340
    Palavras todas em maiúsculas 163173435
    Números 67851050
    Palavras com números6648
    Palavras mistas2224909
    Pontuação3754928

    Número de unidades estruturais

    Atributo Número
    p 279202
    s 279202
    obra 92
    texto 92
    parte 1727
    mwe 82042
    lixo 14

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 144538 203003
    Locuções 82042 177003
    Palavras gráficas 4981875 4981875
    Palavras simples 4601869 4601869
    Palavras 4828449 4981875

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 932482 20,26%
    Verbos V.* 829117 18,02%
    Adjectivos ADJ.* 274092 5,96%
    Pronomes pessoais .*PERS.* 241347 5,24%
    Preposições PRP.* 700416 15,22%
    Conjunções K.* 285193 6,20%
    Advérbios ADV.* 328282 7,13%
    Determinantes .*DET.* 844421 18,35%
    Especificadores .*SPEC.* 125625 2,73%
    Numerais NUM.* 38591 0,84%

    ^Voltar ao início da página

    Corpo CONDIVport

    O corpus CONDIVport é o subcorpus de textos dos domínios do futebol, do vestuário/moda e da saúde das décadas de 50, 70 e 2000 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

    Este subcorpus contém 3981 extractos de textos de jornais desportivos portugueses e brasileiros, das décadas de 1950, 1970 e 2000; 4372 textos (agrupados em 82 extractos, ou seja, provenientes de 82 edições) de revistas de moda portuguesas e brasileiras, das décadas de 1950, 1970, e 1990-2000, assim como 1815 textos de revistas e jornais de saúde nos mesmos períodos.

    Corpus CONDIV, versão texto (futebol) de 15 de Fevereiro de 2006, versão texto (moda) de 18 de Dezembro de 2008, versão texto (saúde) de 2 de Fevereiro de 2010, anotado a 13 de julho de 2024, v. 13.2

    Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.

    Estrutura do corpo

    O corpo está dividido em extractos, assinalados pelo atributo ext; cada extracto está dividido em parágrafos (atributo p) e frases (atributo s). Nos casos da moda e da saúde, os extractos estão ainda subdivididos em textos, que correspondem a notícias completas. Além disso, o CONDIVport contém os atributos posicionais decada (valores: 50, 70, 2000), variante (valores: PT, BR), texto (valores:t1 a tN) e fonte. Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

    TamanhoFutebolModa/vestuárioSaúde
    PT337291217034203254071344085
    BR26550741371780801349481945
    Todos 307520011267611826030

    Dados quantitativos

    Corpo CONDIV Número de formasNúmero de tipos
    Unidades 7200795157513
    Total de palavras 5627261155195
    Palavras em minúscula 418884181356
    Palavras com inicial maiúscula59201736123
    Palavras todas em maiúsculas 7578111033
    Números 723621699
    Palavras com números2740812
    Palavras mistas46951379
    Pontuação4007852063

    Número de unidades estruturais

    Atributo Número
    ext 4081
    texto 6222
    p 148516
    s 301068
    mwe 96183

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 240456 346925
    Locuções 96183 204145
    Palavras gráficas 5627261 5627261
    Palavras simples 5076191 5076191
    Palavras 5412830 5627261

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1217241 23,98%
    Verbos V.* 759629 14,96%
    Adjectivos ADJ.* 389317 7,67%
    Pronomes pessoais .*PERS.* 99745 1,96%
    Preposições PRP.* 904357 17,82%
    Conjunções K.* 255199 5,03%
    Advérbios ADV.* 298592 5,88%
    Determinantes .*DET.* 963865 18,99%
    Especificadores .*SPEC.* 95428 1,88%
    Numerais NUM.* 132709 2,61%

    ^Voltar ao início da página

    Corpo CONDIVport2

    O corpus CONDIVport2 é o subcorpus de textos dos domínios da política e da sociedade da década de 2010 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

    Este subcorpus contém por agora 66150 unidades do Jornal do Brasil (brasileiro) e 57542 do Diário de Notícias (português), perfazendo 344 textos.

    Corpus CONDIV2, versão texto de 15 de maio de 2017, anotado a 6 de julho de 2024, v. 4.1

    Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.

    Estrutura do corpo

    O corpo está dividido em textos, assinalados pelo atributo texto; cada texto está dividido em parágrafos (atributo p) e frases (atributo s). Além disso, o CONDIVport2 contém os atributos posicionais variante (valores: PT, BR), id (valores: 1 a tN), tema, e fonte. Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

    TamanhoFutebolModa/vestuárioSaúde
    PT333341116792903168531337268
    BR26493791367115801410480854
    Todos 304640511182731818122

    Dados quantitativos

    Corpo CONDIV2 Número de formasNúmero de tipos
    Unidades 21207520151
    Total de palavras 17527719973
    Palavras em minúscula 12797513458
    Palavras com inicial maiúscula231714601
    Palavras todas em maiúsculas 1338376
    Números 2236349
    Palavras com números18690
    Palavras mistas37452
    Pontuação9584177

    Número de unidades estruturais

    Atributo Número
    texto 520
    p 3928
    s 6533
    mwe 2618

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 10108 18814
    Locuções 2618 5488
    Palavras gráficas 175277 175277
    Palavras simples 150975 150975
    Palavras 163701 175277

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 38020 25,18%
    Verbos V.* 22211 14,71%
    Adjectivos ADJ.* 9163 6,07%
    Pronomes pessoais .*PERS.* 1828 1,21%
    Preposições PRP.* 31560 20,90%
    Conjunções K.* 6970 4,62%
    Advérbios ADV.* 6347 4,20%
    Determinantes .*DET.* 30849 20,43%
    Especificadores .*SPEC.* 2775 1,84%
    Numerais NUM.* 4029 2,67%

    ^Voltar ao início da página

    Corpo CoNE

    O corpus CoNE (Correio Não Endereçado) é um corpus de mensagens não-endereçadas em português.

    O corpus foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 24 de Janeiro de 2006.

    Versão do corpus de 15 de janeiro de 2006, anotado a 6 de julho de 2024, v. 8.1

    Estrutura do corpo

    O corpus está dividido em mensagens, marcadas pelo atributo mens, com informação da data . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

    Dados quantitativos

    Corpo CONE Número de formasNúmero de tipos
    Unidades 92136646688
    Total de palavras 68137743118
    Palavras em minúscula 39804218508
    Palavras com inicial maiúscula13259412165
    Palavras todas em maiúsculas 397965623
    Números 14676787
    Palavras com números2742590
    Palavras mistas3726841
    Pontuação596023147

    Número de unidades estruturais

    Atributo Número
    p 19366
    s 31559
    mwe 7085
    autor 1709
    mens 1904
    assunto 1858
    div 0
    li 24119
    t 0
    cita 0

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 54658 102907
    Locuções 7085 15084
    Palavras gráficas 681377 681377
    Palavras simples 563386 563386
    Palavras 625129 681377

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 161584 28,68%
    Verbos V.* 70435 12,50%
    Adjectivos ADJ.* 42372 7,52%
    Pronomes pessoais .*PERS.* 8881 1,58%
    Preposições PRP.* 100940 17,92%
    Conjunções K.* 29713 5,27%
    Advérbios ADV.* 23286 4,13%
    Determinantes .*DET.* 86013 15,27%
    Especificadores .*SPEC.* 6061 1,08%
    Numerais NUM.* 25060 4,45%

    ^Voltar ao início da página

    Corpo C-Oral-Brasil

    O corpo C-ORAL-BRASIL foi criado pelo projeto C-Oral-Brasil, que "se dedica ao estudo da fala espontânea do português brasileiro, através da compilação de um corpus de textos orais produzidos em contexto natural".

    O corpo foi criado simplesmente passando o material distribuído no CD-ROM em formato texto (extensão .txt) pelo conjunto de programas de processamento e anotação sintática e semântica do AC/DC.

    As hesitações e repetições foram (por enquanto) removidas, e as pausas longas foram convertidas em ponto de fim de frase, e as pausas curtas em vírgula. Para tornar o texto mais parecido com as convenções gráficas do português escrito, a primeira letra de cada frase foi passada para maiúscula.

    Corpus CoralBrasil, anotado em 7 de julho de 2023, v. 7.1

    Estamos gratos a Heliana Mello e Tommaso Raso pela autorização de disponibilização do corpo através do AC/DC, e a toda a equipa do C-ORAL-BRASIL pela compilação do corpo.

    Estrutura do corpo

    O corpo está dividido em arquivos, marcados pelo atributo fich, contendo por sua vez falas, marcadas pelo atributo fala, com informação do nome ou identificação do falante . Além disso, sempre que começa um novo interveniente, está marcado através do atributo estrutural personagem. O corpo está além disso dividido em frases, s, obtidas através das pausas fornecidas pelos compiladores do C-ORAL-BRASIL.

    Dados quantitativos

    Corpo CORALBRASIL Número de formasNúmero de tipos
    Unidades 43951914583
    Total de palavras 26710214433
    Palavras em minúscula 16786410314
    Palavras com inicial maiúscula308263250
    Palavras todas em maiúsculas 19464298
    Números 128499
    Palavras com números
    Palavras mistas15742
    Pontuação2955310

    Número de unidades estruturais

    Atributo Número
    p 0
    s 30626
    fala 19398
    personagem 19395
    mwe 2915

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 21239 22484
    Locuções 2915 6153
    Palavras gráficas 267102 267102
    Palavras simples 238465 238465
    Palavras 262619 267102

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 34954 14,66%
    Verbos V.* 47972 20,12%
    Adjectivos ADJ.* 9599 4,03%
    Pronomes pessoais .*PERS.* 13804 5,79%
    Preposições PRP.* 18876 7,92%
    Conjunções K.* 17087 7,17%
    Advérbios ADV.* 25257 10,59%
    Determinantes .*DET.* 26080 10,94%
    Especificadores .*SPEC.* 5906 2,48%
    Numerais NUM.* 4197 1,76%

    ^Voltar ao início da página

    Corpo CORDIAL-SIN

    O Corpus Dialetal para o Estudo da Sintaxe/Syntax-oriented Corpus of Portuguese Dialects (CORDIAL-SIN) é um corpus anotado (POS-tags e treebank) representativo dos dialetos do português europeu (continentais e insulares). É constituído por transcrições (600.000 palavras) de discurso oral (livre e semidirigido) extraído de gravações do Arquivo Sonoro do Grupo de Dialetologia e Diacronia do Centro de Linguística da Universidade de Lisboa (CLUL), obtidas em 42 pontos do território continental e arquipélagos dos Açores e Madeira. O corpus foi construído no âmbito de projetos financiados pela FCT e deve ser referido como Martins, Ana Maria (coord.). [2000- ]. CORDIAL-SIN: Corpus Dialectal para o Estudo da Sintaxe / Syntax-oriented Corpus of Portuguese Dialects. CC licensed: CORDIAL-SIN by Centro de Linguística da Universidade de Lisboa. ISLRN: 144-935-399-699-8. URL: http://clul.ulisboa.pt/recurso/cordial-sin-syntax-oriented-corpus-portuguese-dialects.

    Mais informação sobre o corpus em: http://www.clul.ulisboa.pt/recurso/cordial-sin-syntax-oriented-corpus-portuguese-dialects

    E acesso ao CORDIAL-SIN-TreeBank (ISLRN: 337-389-991-117-2) em: acesso

    No AC/DC por enquanto apenas usamos o texto editado, mas é possível que incluamos a anotação numa segunda fase.

    Corpo CORDIAL-SIN, versão texto de janeiro de 2021, anotado a 6 de julho de 2024, v. 3.1

    Agradecemos calorosamente a Ana Maria Martins a pronta autorização para disponibilização do CORDIAL-SIN.

    Estrutura do corpo

    O corpo contém as etiquetas entrevista (documento), fala (fala de um interlocutor), personagem (identificação do interlocutor), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que excerto cada palavra pertence (ver lista das fontes).

    Aqui listamos os metadados associados a cada fonte (excerto de entrevista) do CORDIAL-SIN: Metadados CORDIAL-SIN

    E aqui a informação genérica relacionada com os informantes: Informantes CORDIAL-SIN

    Dados quantitativos

    Corpo CORDIAL-SIN Número de formasNúmero de tipos
    Unidades 149473629803
    Total de palavras 85706629657
    Palavras em minúscula 61284819565
    Palavras com inicial maiúscula1024554952
    Palavras todas em maiúsculas 1965920
    Números 13153
    Palavras com números2937110
    Palavras mistas676422
    Pontuação111902145

    Número de unidades estruturais

    Atributo Número
    p 48938
    s 98009
    entrevista 2058
    fala 48938
    personagem 48938
    mwe 15919

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 56117 58541
    Locuções 15919 32775
    Palavras gráficas 857066 857066
    Palavras simples 765750 765750
    Palavras 837786 857066

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 130789 17,08%
    Verbos V.* 164704 21,51%
    Adjectivos ADJ.* 18896 2,47%
    Pronomes pessoais .*PERS.* 39554 5,17%
    Preposições PRP.* 83875 10,95%
    Conjunções K.* 50799 6,63%
    Advérbios ADV.* 110669 14,45%
    Determinantes .*DET.* 121330 15,84%
    Especificadores .*SPEC.* 27798 3,63%
    Numerais NUM.* 9717 1,27%

    ^Voltar ao início da página

    Corpo CorpiRef

    O CorpiRef é um corpo experimental para procurar personagens e as suas ações, usando -- por enquanto -- um processo manual de coreferência e anotação de sujeitos nulos. É um subconjunto do OBras, com as seguintes obras: Canaã, O Cortiço e Úrsula.

    Corpo CorpiRef, criado a 14 de outubro de 2025, versão 1.0

    Este projeto foi originado por uma tese de mestrado na Universidade Estadual do Maranhão (UEMA).

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra, (o nome da obra), autor (o autor da obra), capituloy, u (uma unidade de texto: frase, verso, título ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título], s [frase], e poesia [partes em poesia].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

    Dados quantitativos

    Corpo TYCHO Número de formasNúmero de tipos
    Unidades 4226459149140
    Total de palavras 3343966149117
    Palavras em minúscula 257295495338
    Palavras com inicial maiúscula35926528104
    Palavras todas em maiúsculas 147882069
    Números 190441442
    Palavras com números800239
    Palavras mistas41981692
    Pontuação1759438

    Número de unidades estruturais

    Atributo Número
    s 133393
    p 133394
    obra 76
    t 1918
    autor 76
    tituloobra 76
    data 514
    variante 76
    genero 76
    grafia 76
    div 2227
    assinatura 1146
    saudacao 441
    mwe 49812
    personagem 21725
    fala 17305

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 130749 220329
    Locuções 49812 105404
    Palavras gráficas 3343966 3343966
    Palavras simples 3018233 3018233
    Palavras 3198794 3343966

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 595243 19,72%
    Verbos V.* 529681 17,55%
    Adjectivos ADJ.* 156050 5,17%
    Pronomes pessoais .*PERS.* 158751 5,26%
    Preposições PRP.* 463932 15,37%
    Conjunções K.* 220026 7,29%
    Advérbios ADV.* 197849 6,56%
    Determinantes .*DET.* 529727 17,55%
    Especificadores .*SPEC.* 98444 3,26%
    Numerais NUM.* 43075 1,43%

    ^Voltar ao início da página

    Corpo CorTrad, lado português

    O corpo CorTrad (parte portuguesa) é um corpo paralelo multiversão português-inglês desenvolvido numa parceria COMET-Linguateca, ver CorTrad.

    Mais informação sobre o corpo pode ser obtida em Tagnin et al. (2009), Teixeira et al. (2012), e Santos et al. (2012).

    Corpo CorTrad-port, criado a 20 de junho de 2025, v. 2.1

    Estrutura do corpo

    O corpus tem informação de obra, autor, data, se é tradução ou original, nome dos tradutores, e classe [género: lit - literário, culin - culinária, culib - culinária brasileira, jorn - jornalístico]. Além disso está também dividido em s [frases].

    Dados quantitativos

    Corpo CORTRAD-PORT Número de formasNúmero de tipos
    Unidades 195245669885
    Total de palavras 144896669794
    Palavras em minúscula 110840144050
    Palavras com inicial maiúscula13954515778
    Palavras todas em maiúsculas 108351335
    Números 219201107
    Palavras com números342132
    Palavras mistas1581272
    Pontuação919138

    Número de unidades estruturais

    Atributo Número
    ua 76177
    p 18253
    s 76163
    mwe 24215
    texto 1163
    receita 312
    ModoDeFazer 778
    ingred 7701
    ListaIngred 883
    Coment 250
    Class 340
    parte 3
    t 3090
    tempo 312
    Foto 43
    titulo 369
    obra 6

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 85044 84813
    Locuções 24215 51812
    Palavras gráficas 1448966 1448966
    Palavras simples 1312341 1312341
    Palavras 1421600 1448966

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 321816 24,52%
    Verbos V.* 207637 15,82%
    Adjectivos ADJ.* 87328 6,65%
    Pronomes pessoais .*PERS.* 31350 2,39%
    Preposições PRP.* 238700 18,19%
    Conjunções K.* 66232 5,05%
    Advérbios ADV.* 69838 5,32%
    Determinantes .*DET.* 230132 17,54%
    Especificadores .*SPEC.* 25337 1,93%
    Numerais NUM.* 34062 2,60%

    ^Voltar ao início da página

    Corpo DHBB

    O corpo Dicionários Históricos Brasileiros contém o material de três obras de referência concebidas pelo Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas (CPDOC/FGV): (1) o Dicionário histórico-biográfico da Primeira República (DHBPR), com dados sobre o período que vai da Proclamação da República, em 1889, até a Revolução de 1930; (2) o Dicionário Histórico-Biográfico Brasileiro (DHBB), sobre o período pós-1930 até os dias atuais; e (3) o Dicionário da política republicana do Rio de Janeiro (DPRRJ), sobre a história do estado e da cidade do Rio de Janeiro desde a Proclamação da República. Para saber mais, consulte a página sobre este corpo no AC/DC.

    Os três dicionários histórico-biográficos foram concebidos em sua origem com o propósito básico de prover aos estudiosos e demais interessados na história do Brasil, informações sistematizadas sobre personagens e temas considerados relevantes do período e contexto ao qual se referem. Cada um deles é constituído por uma seleção de verbetes cuja produção e curadoria é de responsabilidade do Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas.

    No plano biográfico encontramos os ocupantes dos mais relevantes cargos políticos e de repercussão política, assim como participantes de episódios marcantes - presidentes da República, vice-presidentes, governadores, ministros de Estado, senadores, deputados, comandantes das forças armadas, embaixadores, presidentes das mais importantes federações, confederações de empregados e empregadores, jornalistas mais destacados, religiosos e presidentes de partidos políticos. No plano temático, encontramos os partidos políticos e as organizações e movimentos políticos, os principais acontecimentos histórico-políticos, as constituintes, constituições, alguns destacados decretos, leis e códigos; correntes e conceitos básicos da história política; as instituições econômicas e administrativas de maior repercussão no cenário nacional; as mais importantes organizações de trabalhadores e empresários; os jornais e revistas de impacto nacional, principais emissoras de rádio e televisão.

    Apenas o Dicionário Histórico-Biográfico Brasileiro (DHBB) encontra-se aberto e integralmente disponível para consulta no portal do CPDOC (https://cpdoc.fgv.br/acervo/dhbb). Os demais podem ser obtidos através da editora da FGV (https://editora.fgv.br/).

    Incorporada à Linguateca em 2018/2019, o objetivo é que a coleção possa ser interrogada através da linguagem CQP (Corpus Query Processor) e disponibilizada para treino, teste ou validação de sistemas que trabalham com processamento de linguagem natural, nas mais variadas formas. Trata-se portanto de um trabalho em progresso, que esperamos ajude a aprimorar as ferramentas criadas pela comunidade.

    Corpo DHBB, criado a 5 de julho de 2024, v. 10.1

    Agradecemos à Fundação Getulio Vargas a autorização para a disponibilização do recurso.

    Estrutura do corpo

    O corpus contém as etiquetas texto (documento), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que verbete cada palavra pertence (ver lista dos verbetes), enquanto o atributo posicional entidade indica, para cada nome próprio, qual a sua correspondência real, tomando como "verdade" a mesma lista. Quando ainda não foi identificado, é marcado como "NS". Se se sabe que não está no DHBB por, por exemplo, não ser político, é marcado como "NV" (não verbetado).

    O atributo posicional cargos tem a lista dos cargos associados a cada verbetado, com a indicação de cargo, estado pelo qual exerceu o cargo, e período temporal.

    O atributo posicional sexo contém m se o biografado for masculino, f se for feminino, e N/A (não aplicável) se o verbete for temático.

    Prevemos para breve uma classificação mais fina dos textos, com informação de datas de nascimento, assim como alguma limpeza do material.

    Distribuição por tipo de texto

    Dados quantitativos

    Corpo DHBB Número de formasNúmero de tipos
    Unidades 16096075127921
    Total de palavras 14177792122549
    Palavras em minúscula 940298554766
    Palavras com inicial maiúscula245698140736
    Palavras todas em maiúsculas 1691694424
    Números 3845291307
    Palavras com números762387
    Palavras mistas119521292
    Pontuação6355945324

    Número de unidades estruturais

    Atributo Número
    p 12045
    s 461807
    texto 12045
    t 0
    mwe 154908

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 1041497 2397079
    Locuções 154908 335345
    Palavras gráficas 14177792 14177792
    Palavras simples 11445368 11445368
    Palavras 12641773 14177792

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 2804542 24,50%
    Verbos V.* 1394145 12,18%
    Adjectivos ADJ.* 725329 6,34%
    Pronomes pessoais .*PERS.* 152510 1,33%
    Preposições PRP.* 2956600 25,83%
    Conjunções K.* 400706 3,50%
    Advérbios ADV.* 328829 2,87%
    Determinantes .*DET.* 2307318 20,16%
    Especificadores .*SPEC.* 149610 1,31%
    Numerais NUM.* 459882 4,02%

    ^Voltar ao início da página

    Corpo DiaCLAV

    O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line. Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contêm textos semelhantes, embora não haja casos de artigos exactamente iguais.

    Corpus DIACLAV, versão texto criada em Abril de 2002, anotado a 4 de outubro de 2025, v. 8.3

    Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.

    Estrutura do corpo

    O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

    O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

    Dados quantitativos

    Corpo DIACLAV Número de formasNúmero de tipos
    Unidades 7849857111619
    Total de palavras 6710948111597
    Palavras em minúscula 491013558832
    Palavras com inicial maiúscula83699528739
    Palavras todas em maiúsculas 463193466
    Números 602822176
    Palavras com números68951112
    Palavras mistas2128846
    Pontuação3664538

    Número de unidades estruturais

    Atributo Número
    p 24439
    s 210373
    art 12802
    t 12393
    a 4492
    mwe 119712

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 350873 692540
    Locuções 119712 253418
    Palavras gráficas 6710948 6710948
    Palavras simples 5764990 5764990
    Palavras 6235575 6710948

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1347083 23,37%
    Verbos V.* 864913 15,00%
    Adjectivos ADJ.* 351121 6,09%
    Pronomes pessoais .*PERS.* 82728 1,44%
    Preposições PRP.* 1166875 20,24%
    Conjunções K.* 269998 4,68%
    Advérbios ADV.* 308638 5,35%
    Determinantes .*DET.* 1180965 20,49%
    Especificadores .*SPEC.* 119021 2,06%
    Numerais NUM.* 128532 2,23%

    ^Voltar ao início da página

    Corpo Diáspora TL-PT

    O corpo Diáspora TL-PT (Diáspora Timor Leste - Portugal) é um corpo de 12 entrevistas semi-guiadas a membros da comunidade timorense em Portugal, perfazendo seis horas de gravação, compiladas e transcritas no âmbito do projeto Patterns of multilingualism among different generations of the East-Timorese diasporic community in Portugal liderado por Susana Afonso e Francesco Goglia da Universidade de Exeter, no Reino Unido, e financiado pela British Academy (Small Grant SG100616). Para mais informação veja-se Afonso & Goglia (2012).

    O corpo Diáspora TL-PT é composto por 12 ficheiros correspondendo cada um a uma entrevista.

    Os entrevistados, membros da comunidade timorense em Portugal, têm diferentes idades e foram escolhidos para, tanto quanto possível, representarem as diferentes vagas de migração para Portugal

    Como citar o corpo Diáspora TL-PT:

    • Goglia, Francesco e Afonso, Susana. 2012. "Multilingualism and Language Maintenance in the East Timorese Diaspora in Portugal". Ellipsis (Journal of the American Portuguese Studies Association), 10: 97-123.
    • Afonso, Susana e Goglia, Francesco. no prelo. "Linguistic innovations in the immigration context as initial stages of a partially restructured variety: evidence from SE constructions in the Portuguese of the East-Timorese diaspora in Portugal". Studies in Hispanic and Lusophone Linguistics.

    Corpus Diáspora TL - PT, anotado em outubro de 2013, criado a 6 de julho de 2024, v. 5.1

    Susana Afonso e Francesco Goglia agradecem a João Barros e Hercus Pereira pela recolha dos dados e a todos os que aceitaram participar no projecto.

    Estrutura do corpo

    Marcadores posicionais: ent Marcadores estruturais: entrevista, pergunta, resposta, p [parágrafo], s [frase].

    Dados quantitativos

    Corpo DIASPORA Número de formasNúmero de tipos
    Unidades 274093069
    Total de palavras 219083047
    Palavras em minúscula 164912337
    Palavras com inicial maiúscula2314528
    Palavras todas em maiúsculas 3216
    Números 13555
    Palavras com números
    Palavras mistas33
    Pontuação187519

    Número de unidades estruturais

    Atributo Número
    pergunta 245
    s 1035
    v 0
    resposta 213
    entrevista 5
    mwe 304

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 650 846
    Locuções 304 661
    Palavras gráficas 21908 21908
    Palavras simples 20401 20401
    Palavras 21355 21908

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 3442 16,87%
    Verbos V.* 3807 18,66%
    Adjectivos ADJ.* 765 3,75%
    Pronomes pessoais .*PERS.* 786 3,85%
    Preposições PRP.* 2889 14,16%
    Conjunções K.* 1295 6,35%
    Advérbios ADV.* 2375 11,64%
    Determinantes .*DET.* 3027 14,84%
    Especificadores .*SPEC.* 546 2,68%
    Numerais NUM.* 279 1,37%

    ^Voltar ao início da página

    Corpo DisPR

    O corpo DisPR é um corpo de discursos de Presidentes da República (portugueses e brasileiros) que contém o corpo PRAbril, o corpo PRPosse, e os discursos inaugurais do BrPoliCorpus. O PRAbril, criado por um grupo de investigadores do Centro de Estudos Humanísticos da Universidade do Minho (CEHUM) e do Centro de Linguística da Universidade do Porto (CLUP), reúne os discursos dos presidentes da República (portuguesa) nas comemorações do 25 de Abril desde 1977 até 2024. O corpo PRPosse, criado pela investigadora do CEHUM Micaela Aguiar, no âmbito da sua dissertação de doutoramento (SFRH/BD/117408/2016), reúne os discursos de tomada de posse dos presidentes nos cem anos da República Portuguesa (1911-2011), e vem sendo atualizado até à data presente. O BrPoliCorpus, criado por Rodrigo Esteves de Lima-Lopes, contém os discursos inaugurais de todos os presidentes brasileiros, de Deodoro da Fonseca em 1889 a Lula em 2023.

    A recolha do material do PRABril foi iniciada no âmbito de um projeto intitulado O discurso do Presidente. 100 anos de discursos presidenciais em Portugal, tendo sido depois segmentado e concluído para a publicação do livro Vozes que moldam Abril - Os discursos presidenciais na celebração da revolução , publicado no âmbito dos 50 anos do 25 de Abril.

    A equipa de investigação é constituída pelos seguintes elementos:

    • Maria Aldina Marques (UMinho, CEHUM)
    • Rui Ramos (UMinho, CEHUM)
    • Isabel Margarida Duarte (FLUP, CLUP)
    • Isabel Roboredo Seara (UA, CEHUM, CLUNL)
    • Alexandra Guedes Pinto (FLUP, CLUP)
    • Rosalice Pinto (FCSHUNL, IFILNOVA, CEDIS)
    Mais informação sobre a constituição do PRAbril encontra-se aqui. Também podem ser consultados os metadados do PRAbril.

    Quanto ao PRPosse, foi compilado no âmbito da tese de doutoramento Imagens presidenciais nos discursos de tomada de posse nos cem anos da República Portuguesa de Micaela Aguiar (PRPosse 1.0). Em 17 de dezembro de 2024, foi lançado o PRPosse 2.0, incluindo os discursos de tomada de posse de Marcelo Rebelo de Sousa de 2016 e de 2021.

    Mais informação sobre a constituição do PRPosse encontra-se aqui. Também podem ser consultados os metadados do PRPosse.

    O corpo BrPoliCorpus encontra-se acessível de https://github.com/rll307/BrPoliCorpus, juntamente com um pacote R para o manipular. O manual deve ser citado como

    Alguns metadados referentes aos discursos inaugurais contidos no presente corpo, DisPR, encontram-se em metadados dos discursos inaugurais do BrPoliCorpus.

    O corpo completo em formato texto, com a anotação estrutural (secções, parágrafos, etc.) pode ser obtido aqui: DisPR3.0.txt.

    Corpus DisPR, criado em 17 de dezembro de 2024, v. 3.0

    A equipa que criou o PRAbril agradece a Maria Aldina Marques a coordenação do projeto, assim como agradece à Linguateca a colaboração e disponibilidade para acolher e tratar o corpo.

    O criador do BrPoliCorpus expressa seus agradecimentos a Fundação Alexandre von Humboldt, Capes e CNPq, que financiaram a iniciativa por meio de projetos de pesquisa individuais. The author of BrPoliCorpus expresses his gratitude to the Alexander von Humboldt Foundation, Capes, and CNPq, which funded the initiative through individual research projects.

    A Linguateca agradece aos membros das três equipas a autorização para disponibilizar os três corpos.

    Estrutura do corpo

    O corpus está dividido em discursos, marcados pelo atributo estrutural texto. Cada texto está dividido em parágrafos p e frases s. O atributo posicional corpo indica se o discurso vem do corpo PRAbril ou PRPosse. O atributo autor contém o nome do presidente, e o atributo ano o ano em que o discurso foi proferido (e redigido). Finalmente, o atributo id marca o identificador do discurso, um número inteiro (de 1 a 47 para o PRAbril, de 48 a 76 para o PRPosse, de 77 a 111 para o BrPoliCorpus).

    Dados quantitativos

    Corpo DISPR Número de formasNúmero de tipos
    Unidades 33004320901
    Total de palavras 27559220834
    Palavras em minúscula 22589716961
    Palavras com inicial maiúscula210152193
    Palavras todas em maiúsculas 83794
    Números 1122183
    Palavras com números497
    Palavras mistas3421
    Pontuação1284867

    Número de unidades estruturais

    Atributo Número
    p 5797
    s 10647
    texto 111
    mwe 4220

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 5326 10053
    Locuções 4220 9087
    Palavras gráficas 275592 275592
    Palavras simples 256452 256452
    Palavras 265998 275592

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 60030 23,41%
    Verbos V.* 35844 13,98%
    Adjectivos ADJ.* 24224 9,45%
    Pronomes pessoais .*PERS.* 5465 2,13%
    Preposições PRP.* 48642 18,97%
    Conjunções K.* 15740 6,14%
    Advérbios ADV.* 13569 5,29%
    Determinantes .*DET.* 54548 21,27%
    Especificadores .*SPEC.* 6534 2,55%
    Numerais NUM.* 1957 0,76%

    ^Voltar ao início da página

    Corpo ECI-EBR

    O corpo ECI-EBR foi criado pela ECI (European Corpus Initiative; Thomson et al. 1994) , baseado no corpo Borba-Ramsey. É uma selecção de excertos de obras brasileiras, contendo pelo menos discurso literário, didáctico e oral cuidado (discursos políticos). O corpo contém pouco mais de 700 mil palavras, e estava codificado em SGML muito leve (além do cabeçalho, apenas continha marcas de parágrafos), cf. a informação da ELSNET.

    Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.

    Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:

    Dentro do género jornalismo, incluímos as subdivisões: crónica, cultura, desporto, economia, entretenimento, generalidades, internacional, país, religião, reportagem, saúde, sociedade, título.

    Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.

    Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.

    Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).

    O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.

    Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:

    GéneroUnidadesTextos
    Literatura 384.961 157
    Informativo 203.436 288
    Jornalismo 89.086 537
    Oral 66.092 29
    Outros 16.419 33
    Indef 16.935 82
    AssuntosUnidadesTextos
    Agricultura 3458 8
    Arqueologia 1681 3
    Arte 4255 4
    Astrologia 1294 1
    Biologia 3662 3
    Botânica 6095 4
    Ciência 7402 9
    Clima 302 1
    Crónica 3761 11
    Culinária 1316 1
    Cultura 5795 44
    Desporto 8227 39
    Direito 1746 4
    Ecologia 326 2
    Economia 18441 60
    Edição 823 1
    Educação 1105 1
    Entretenimento 5084 31
    Entrevista 592 3
    Escutismo 424 1
    Estatística 1253 1
    Filatelia 1113 1
    Filosofia 3470 3
    Física 627 1
    Fotografia 1056 2
    Generalidades 5411 44
    Generealidades 120 1
    Geografia 3721 6
    Geologia 77 1
    Gestão 2247 2
    Hidrografia 1280 1
    História 35242 30
    Indef 484736 1
    Indústria 1375 3
    Internacional 8196 57
    Jornalismo 284 537
    Linguística 8066 11
    Literatura 8234 14
    Maternidade 344 1
    Medicina 16881 18
    Música 1717 3
    Oceanografia 302 1
    País 44860 206
    Política 19780 36
    Psicologia 2412 5
    Religião 21243 32
    Reportagem 1298 3
    Saúde 4615 19
    Sociedade 7399 58
    Sociologia 10432 15
    Título 174 12
    Turismo 188 1
    Zoologia 2987 15

    Corpus ECI-EBR, versão texto de Abril de 2002, anotado a 6 de julho de 2024, v. 13.1

    Agradecemos aos compiladores do corpus por o terem criado e tornado público.

    Estrutura do corpo

    A partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).

    A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.

    Marcadores estruturais: s, p, ext e marca.

    Dados quantitativos

    Corpo ECI-EBR Número de formasNúmero de tipos
    Unidades 92490460376
    Total de palavras 72895160175
    Palavras em minúscula 56916342116
    Palavras com inicial maiúscula7313512208
    Palavras todas em maiúsculas 20053
    Números 1999461
    Palavras com números5644
    Palavras mistas179100
    Pontuação53752199

    Número de unidades estruturais

    Atributo Número
    ext 1107
    p 12117
    s 44379
    marca 3
    mwe 13459

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 19625 32296
    Locuções 13459 29099
    Palavras gráficas 728951 728951
    Palavras simples 667556 667556
    Palavras 700640 728951

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 149607 22,41%
    Verbos V.* 114979 17,22%
    Adjectivos ADJ.* 45082 6,75%
    Pronomes pessoais .*PERS.* 24850 3,72%
    Preposições PRP.* 112027 16,78%
    Conjunções K.* 33800 5,06%
    Advérbios ADV.* 44315 6,64%
    Determinantes .*DET.* 125212 18,76%
    Especificadores .*SPEC.* 16264 2,44%
    Numerais NUM.* 9333 1,40%

    ^Voltar ao início da página

    Corpo ECI-EE

    O corpus ECI-EE foi criado pela ECI (European Corpus Initiative, Thomson et al. 1994), e contém o anúncio do programa comunitário ESPRIT . O corpus usa uma codificação SGML leve, com parágrafos e secções/artigos numerados, o que produziu alguns problemas em relação à separação de notas de rodapé (apenas indicadas graficamente por linhas iniciadas por tabuladores, e que tiveram de ser reconstituídas e colocadas após o parágrafo respectivo).

    Pode também consultar a informação da ELSNET.

    Corpus ECI-EE, versão de Abril de 2002, criado a 6 de julho de 2024, v. 9.1

    Agradecemos aos compiladores do corpus por o terem criado e tornado publico.

    Estrutura do corpo

    Marcadores estruturais: s, p, titulo, nota, marca.

    Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
    <marca num=3> <nota num=3>

    Dados quantitativos

    Corpo ECI-EE Número de formasNúmero de tipos
    Unidades 302774122
    Total de palavras 257793970
    Palavras em minúscula 206553235
    Palavras com inicial maiúscula1402323
    Palavras todas em maiúsculas 38993
    Números 41995
    Palavras com números33
    Palavras mistas1066
    Pontuação1122150

    Número de unidades estruturais

    Atributo Número
    p 313
    s 789
    t 0
    nota 0
    marca 27
    mwe 480

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 610 904
    Locuções 480 1062
    Palavras gráficas 25779 25779
    Palavras simples 23813 23813
    Palavras 24903 25779

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 6625 27,82%
    Verbos V.* 2805 11,78%
    Adjectivos ADJ.* 2303 9,67%
    Pronomes pessoais .*PERS.* 282 1,18%
    Preposições PRP.* 5116 21,48%
    Conjunções K.* 1206 5,06%
    Advérbios ADV.* 800 3,36%
    Determinantes .*DET.* 4755 19,97%
    Especificadores .*SPEC.* 341 1,43%
    Numerais NUM.* 646 2,71%

    ^Voltar ao início da página

    Corpo ENPCPUB (parte em português)

    O corpus ENPCPUB é um corpus de traduções para português de textos literários em inglês (Johansson et al., 1996, 1999; Oksefjell 1999). Apenas recebemos autorização para dar acesso a uma pequena parte do corpus ENPC, nomeadamente extractos dos textos (identificação do ENPC):
    CódigoAutorObraEditoraAnoTradutor(a)Título original
    JB1PPJulian BarnesAmor & C.aQuetzal Editores, Lisboa1994Helena CardosoTalking It Over.
    BC1Bruce ChatwinUtzQuetzal Editores, Lisboa1991José Luís LunaUtz.
    AH1Arthur HaileyRemédio AmargoDistribuidora Record, Rio de Janeiros/dA.B.P. de Lemos. Strong Medicine.
    JH1Joseph HellerImaginem queDifusão Cultural, Lisboa1991Cristina Rodriguez. Picture This.
    NG1Nadine GordimerA história do meu filhoEditora Siciliano, São Paulo1992Geraldo Galvão FerrazMy Son's Story.

    O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).

    Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).
    Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".

    Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado a 6 de julho de 2024, v. 10.1

    Estamos gratos a Stig Johansson e à equipa do ENPC pela colaboração na criação deste corpus, e aos detentores dos direitos de autor pela autorizações gentilmente cedidas.

    Estrutura do corpo

    Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.
    Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".
    O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).

    Dados quantitativos

    Corpo ENPCPUB Número de formasNúmero de tipos
    Unidades 9041112909
    Total de palavras 7283712894
    Palavras em minúscula 5765410248
    Palavras com inicial maiúscula70341673
    Palavras todas em maiúsculas 7450
    Números 13478
    Palavras com números292
    Palavras mistas2016
    Pontuação495215

    Número de unidades estruturais

    Atributo Número
    p 1682
    s 4369
    texto 5
    parte 8
    capitulo 25
    mwe 239

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 2541 2920
    Locuções 239 522
    Palavras gráficas 72837 72837
    Palavras simples 69395 69395
    Palavras 72175 72837

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 13343 19,23%
    Verbos V.* 12844 18,51%
    Adjectivos ADJ.* 3924 5,65%
    Pronomes pessoais .*PERS.* 3089 4,45%
    Preposições PRP.* 11293 16,27%
    Conjunções K.* 3809 5,49%
    Advérbios ADV.* 4957 7,14%
    Determinantes .*DET.* 12236 17,63%
    Especificadores .*SPEC.* 1812 2,61%
    Numerais NUM.* 770 1,11%

    ^Voltar ao início da página

    Corpo Floresta

    O corpo FLORESTA contém o material anotado criado no âmbito do projecto Floresta Sintá(c)tica , em particular o Bosque, a Floresta Virgem e a Amazónia. Informação detalhada sobre o conteúdo textual encontra-se aqui

    Corpus Floresta, a partir do material da Floresta de Junho de 2010, anotado semanticamente a 22 de Junho de 2013, v. 2.5

    Estrutura do corpo

  • Atributos estruturais:
  • Atributos posicionais:

    Dados quantitativos

    Corpo FLORESTA Número de formasNúmero de tipos
    Unidades 7252530182669
    Total de palavras 6046536179536
    Palavras em minúscula 452998488948
    Palavras com inicial maiúscula73825558232
    Palavras todas em maiúsculas 279753959
    Números 504011606
    Palavras com números3760935
    Palavras mistas58142248
    Pontuação3213013132

    Número de unidades estruturais

    Atributo Número
    ext 24398
    s 326667
    mwe 103159

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 284084 503417
    Locuções 103159 217445
    Palavras gráficas 6046536 6046536
    Palavras simples 5325674 5325674
    Palavras 5712917 6046536

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1238732 23,26%
    Verbos V.* 846993 15,90%
    Adjectivos ADJ.* 350522 6,58%
    Pronomes pessoais .*PERS.* 117329 2,20%
    Preposições PRP.* 958823 18,00%
    Conjunções K.* 272888 5,12%
    Advérbios ADV.* 325270 6,11%
    Determinantes .*DET.* 1036508 19,46%
    Especificadores .*SPEC.* 106992 2,01%
    Numerais NUM.* 99122 1,86%

    ^Voltar ao início da página

    Corpo FrasesPB

    O corpus FrasesPB é um conjunto de frases em português brasileiro.

    O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).

    Corpus FrasesPB, versão texto de 17 de Abril de 2002, anotado a 4 de julho de 2024, v. 9.1

    Estrutura do corpo

    Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo. Em dois casos, contudo, o algoritmo separador de frases ainda conseguiu detectar unidades mais pequenas, dando origem pois a dois parágrafos com duas frases cada.

    Marcadores estruturais: s, p.

    Dados quantitativos

    Corpo FRASESPB Número de formasNúmero de tipos
    Unidades 232596019
    Total de palavras 191856007
    Palavras em minúscula 164215263
    Palavras com inicial maiúscula1046525
    Palavras todas em maiúsculas 1515
    Números 4935
    Palavras com números
    Palavras mistas55
    Pontuação73012

    Número de unidades estruturais

    Atributo Número
    p 648
    s 652
    mwe 371

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 249 408
    Locuções 371 800
    Palavras gráficas 19185 19185
    Palavras simples 17977 17977
    Palavras 18597 19185

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 4613 25,66%
    Verbos V.* 2904 16,15%
    Adjectivos ADJ.* 1420 7,90%
    Pronomes pessoais .*PERS.* 358 1,99%
    Preposições PRP.* 3378 18,79%
    Conjunções K.* 979 5,45%
    Advérbios ADV.* 974 5,42%
    Determinantes .*DET.* 3620 20,14%
    Especificadores .*SPEC.* 404 2,25%
    Numerais NUM.* 161 0,90%

    ^Voltar ao início da página

    Corpo FrasesPP

    O corpus FrasesPP é um conjunto de frases em português de Portugal, compilado para o teste de uma gramática computacional, desenvolvido no Grupo Científico IBM-INESC (depois Grupo de Linguagem Natural do INESC) de 1990 a 1992. (Santos (ed.) 1992; Medeiros et al. 1993). Encontrava-se em texto simples e em formato LaTeX.

    Corpo FrasesPP, criado a 22 de Junho de 2013, anotado a 6 de julho de 2024, v. 10.1

    Estrutura do corpo

    Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo.

    Marcadores estruturais: s, p.

    Os valores da anotação original encontram-se no atributo posicional pos2. Os valores deste atributo (A, N, V, VPP, PF, PONT e CL) foram atribuídos automaticamente e depois revistos manualmente nos casos em que as palavras obtiveram mais do que uma categoria.

    Dados quantitativos

    Corpo FRASESPP Número de formasNúmero de tipos
    Unidades 200305104
    Total de palavras 162665088
    Palavras em minúscula 135054244
    Palavras com inicial maiúscula1077567
    Palavras todas em maiúsculas 96
    Números 9548
    Palavras com números44
    Palavras mistas
    Pontuação79616

    Número de unidades estruturais

    Atributo Número
    p 594
    s 594
    mwe 296

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 256 409
    Locuções 296 648
    Palavras gráficas 16266 16266
    Palavras simples 15209 15209
    Palavras 15761 16266

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 3713 24,41%
    Verbos V.* 2291 15,06%
    Adjectivos ADJ.* 1288 8,47%
    Pronomes pessoais .*PERS.* 405 2,66%
    Preposições PRP.* 2862 18,82%
    Conjunções K.* 787 5,17%
    Advérbios ADV.* 921 6,06%
    Determinantes .*DET.* 3109 20,44%
    Especificadores .*SPEC.* 365 2,40%
    Numerais NUM.* 195 1,28%

    ^Voltar ao início da página

    Corpo Mariano Gago

    O corpus JMG contém artigos e notícias associadas a José Mariano Gago: obituários; testemunhos por ocasião da sua morte a 17 de abril de 2015; textos escritos por ele: discursos, cartas, outros textos; entrevistas; artigos sobre ele e a sua política; depoimentos de homenagem. Todos os textos em questão foram retirados da internete, exceto os que já constavam dos outros corpos jornalísticos do AC/DC. Veja a página sobre o corpo para mais informação.

    Sobretudo em relação às notícias do óbito, pode haver muito material repetido.

    Em maio de 2018 foram acrescentados muito mais textos anteriores que tinham sido preservados pelo Arquivo.pt, e espera-se continuar a aumentar o corpo dessa forma.

    Corpo JMG, criado em 6 de julho de 2024, v. 7.1

    Agradecemos profundamente ao Professor José Mariano Gago a sua atuação em prol da ciência e da investigação em torno do processamento da língua portuguesa.

    Estrutura do corpo

    O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

    Os valores de classe estão por enquanto marcados da seguinte forma: noticia, se é uma notícia de jornal (ou texto publicado num blogue) após a sua morte; discurso se é um discurso (ou outro texto escrito por Mariano Gago), entrevista se é uma entrevista feita a Mariano Gago. outros marca textos escritos com menção a Mariano Gago antes da sua morte, e vão de críticas a reportagens a simples descrições de acontecimentos. Finalmente, sitiohomenagem contém todos os textos colocado em marianogago.org.

    Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

    Distribuição por tipo de texto

    A sua distribuição, correspondendo à versão 7.1, é a seguinte:

    TipoDescriçãoTamanho
    noticia texto noticioso 169.445
    discurso discursos 17.896
    entrevista entrevistas 33.492
    outros outros 344.955
    sitiohomenagem sítio de homenagem 37.140

    Dado o número considerável de diferentes fontes, colocamos a origem de cada texto em ficheiros separados

    Mais textos (de Mariano Gago) previstos:

    Dados quantitativos

    Corpo JMG Número de formasNúmero de tipos
    Unidades 69388431895
    Total de palavras 56984331627
    Palavras em minúscula 41321921053
    Palavras com inicial maiúscula817136316
    Palavras todas em maiúsculas 5197928
    Números 5650358
    Palavras com números25589
    Palavras mistas212102
    Pontuação33088253

    Número de unidades estruturais

    Atributo Número
    p 11352
    s 22923
    texto 1375
    t 1575
    mwe 8105

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 30606 66268
    Locuções 8105 17331
    Palavras gráficas 569843 569843
    Palavras simples 486244 486244
    Palavras 524955 569843

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 115708 23,80%
    Verbos V.* 68673 14,12%
    Adjectivos ADJ.* 34176 7,03%
    Pronomes pessoais .*PERS.* 8340 1,72%
    Preposições PRP.* 98006 20,16%
    Conjunções K.* 25568 5,26%
    Advérbios ADV.* 25320 5,21%
    Determinantes .*DET.* 98821 20,32%
    Especificadores .*SPEC.* 11413 2,35%
    Numerais NUM.* 9232 1,90%

    ^Voltar ao início da página

    Corpo LeMe

    O LeMe-PT (Leaflets of Medicine) é um corpo constituído por bulas de medicamentos comercializados em Portugal. Para cada substância ativa foi selecionado um medicamento (forma comercial) para o representar. Mais detalhes em: https://github.com/ambs/LeMe/

    Corpo LeMe, criado a 6 de julho de 2024, v. 3.1

    Agradecemos a Alberto Simões a autorização para a disponibilização do recurso.

    Estrutura do corpo

    Os textos vinham marcados com <item> e <title>, que foram substituídos por - e por <t> na versão do AC/DC.

    O corpo está dividido em textos separados, marcados pelo atributo texto, com informação do identificador do mesmo.

    Os textos têm também os marcadores estruturais adicionais p [parágrafo] e s [frase].

    Como atributos posicionais adicionais temos o fonte que indica qual o nome do medicamento

    Dados quantitativos

    Corpo LEME Número de formasNúmero de tipos
    Unidades 349679543122
    Total de palavras 258150942086
    Palavras em minúscula 189708821894
    Palavras com inicial maiúscula2800929454
    Palavras todas em maiúsculas 250442171
    Números 721461951
    Palavras com números6933823
    Palavras mistas4186990
    Pontuação165901884

    Número de unidades estruturais

    Atributo Número
    p 143620
    s 178678
    t 13986
    texto 1191
    mwe 36283

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 105013 184196
    Locuções 36283 76195
    Palavras gráficas 2581509 2581509
    Palavras simples 2321118 2321118
    Palavras 2462414 2581509

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 632900 27,27%
    Verbos V.* 353450 15,23%
    Adjectivos ADJ.* 215660 9,29%
    Pronomes pessoais .*PERS.* 32948 1,42%
    Preposições PRP.* 376285 16,21%
    Conjunções K.* 138448 5,96%
    Advérbios ADV.* 101066 4,35%
    Determinantes .*DET.* 355472 15,31%
    Especificadores .*SPEC.* 20899 0,90%
    Numerais NUM.* 80212 3,46%

    ^Voltar ao início da página

    Corpo Literateca

    O corpo Literateca inclui todas as obras literárias presentes nos corpos disponibilizados pela Linguateca (Vercial, OBras, NOBRE, Tycho Brahe, Colonia e PANTERA) de forma a permitir que esse material possa ser interrogado duma só vez, evitando ao mesmo tempo sobreposições.

    Os corpos que lhe deram origem continuam a existir e a serem mantidos independentemente (e prioritariamente). A Literateca é apenas uma forma mais simples de interagir com todos se o utilizador assim o desejar.

    Tal como o corpo TODOS, tem apenas como atributos adicionais os atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas dos corpos individuais que o constituem.

    No caso da sobreposição entre os vários corpos, usamos a ordem enunciada anteriormente. "Preferimos" os textos que se encontram no Vercial, etc.

    Corpo Literateca, criado a 1 de janeiro de 2026, v. 13.13

    Estrutura do corpo

    Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

    Para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

    Dados quantitativos

    Corpo LITERATECA Número de formasNúmero de tipos
    Unidades 51598514562908
    Total de palavras 37032572562547
    Palavras em minúscula 28436148299298
    Palavras com inicial maiúscula3539105112356
    Palavras todas em maiúsculas 12122111637
    Números 813942216
    Palavras com números1190679
    Palavras mistas279426384
    Pontuação26319148

    Número de unidades estruturais

    Atributo Número
    p 799498
    s 2285873
    t 2276
    v 289303
    obra 989
    capitulo 699
    parte 468
    tit 0
    autor 880
    tituloobra 880
    div 5939
    mwe 561967
    fala 43102
    personagem 47507

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 977646 1629955
    Locuções 561967 1210554
    Palavras gráficas 37032572 37032572
    Palavras simples 34192063 34192063
    Palavras 35731676 37032572

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 7060461 20,65%
    Verbos V.* 6027343 17,63%
    Adjectivos ADJ.* 2165265 6,33%
    Pronomes pessoais .*PERS.* 1734247 5,07%
    Preposições PRP.* 5319576 15,56%
    Conjunções K.* 1959581 5,73%
    Advérbios ADV.* 2265664 6,63%
    Determinantes .*DET.* 6419934 18,78%
    Especificadores .*SPEC.* 899518 2,63%
    Numerais NUM.* 320407 0,94%

    ^Voltar ao início da página

    Corpo Marielle, presente!

    O corpus Marielle, presente! contém textos escritos por Marielle Franco, e textos escritos sobre ela. Veja-se esta página para uma defesa deste projeto.

    Sobretudo em relação às notícias sobre a sua morte, pode haver muito material repetido.

    Este corpo está ainda em construção.

    Corpus MARIELLE, criado a 6 de julho de 2024, v. 5.1

    Agradecemos a todos os que colaboraram na coleção dos textos e notícias...

    Estrutura do corpo

    O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

    Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

    Distribuição por tipo de texto

    Dados quantitativos

    Corpo MARIELLE Número de formasNúmero de tipos
    Unidades 50603226464
    Total de palavras 40983126063
    Palavras em minúscula 27477916212
    Palavras com inicial maiúscula733845831
    Palavras todas em maiúsculas 72891680
    Números 5705407
    Palavras com números402168
    Palavras mistas1057153
    Pontuação23844379

    Número de unidades estruturais

    Atributo Número
    p 10286
    s 20440
    texto 624
    t 0
    mwe 4797

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 29291 63229
    Locuções 4797 10095
    Palavras gráficas 409831 409831
    Palavras simples 336507 336507
    Palavras 370595 409831

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 84834 25,21%
    Verbos V.* 46366 13,78%
    Adjectivos ADJ.* 23547 7,00%
    Pronomes pessoais .*PERS.* 5084 1,51%
    Preposições PRP.* 69500 20,65%
    Conjunções K.* 16124 4,79%
    Advérbios ADV.* 12403 3,69%
    Determinantes .*DET.* 66917 19,89%
    Especificadores .*SPEC.* 6000 1,78%
    Numerais NUM.* 8664 2,57%

    ^Voltar ao início da página

    Corpo Moçambula

    O corpus Moçambula foi criado no âmbito da tese de mestrado de Torun Reite na Universidade de Oslo, Reite (2013), e contém cartas de leitores publicadas em 2012 em vários jornais moçambicanos.

    Os jornais incluídos, e marcados no atributo posicional fonte são: Diário de Moçambique, Jornal A verdade, Notícias, O País e Savana.

    TipoDescriçãoTamanho
    DdM Diário de Moçambique 24.331
    VerdJornal A verdade 11.253
    Not Notícias 15.640
    PaísO País 7.250
    Sav Savana 2.719

    Corpo MOÇAMBULA, versão texto de novembro de 2012, anotado em 6 de julho de 2024, v. 6.1

    Estrutura do corpo

    Os textos foram transcritos manualmente ou obtidos através do sítio do jornal.

    O corpo está dividido em mensagens/textos separados, marcadas pelo atributo texto, com informação do identificador do mesmo.

    Os textos têm também os marcadores estruturais adicionais p [parágrafo] e s [frase].

    Como atributos posicionais adicionais temos o fonte que indica em que jornal o texto foi publicado.

    Dados quantitativos

    Corpo MOCAMBULA Número de formasNúmero de tipos
    Unidades 6946910789
    Total de palavras 5903810745
    Palavras em minúscula 477758450
    Palavras com inicial maiúscula45141424
    Palavras todas em maiúsculas 274161
    Números 402109
    Palavras com números2115
    Palavras mistas6131
    Pontuação313544

    Número de unidades estruturais

    Atributo Número
    p 133
    s 2285
    texto 94
    mwe 1133

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 1443 2566
    Locuções 1133 2466
    Palavras gráficas 59038 59038
    Palavras simples 54006 54006
    Palavras 56582 59038

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 12591 23,31%
    Verbos V.* 9081 16,81%
    Adjectivos ADJ.* 3393 6,28%
    Pronomes pessoais .*PERS.* 1404 2,60%
    Preposições PRP.* 9894 18,32%
    Conjunções K.* 3186 5,90%
    Advérbios ADV.* 3331 6,17%
    Determinantes .*DET.* 10689 19,79%
    Especificadores .*SPEC.* 1531 2,83%
    Numerais NUM.* 718 1,33%

    ^Voltar ao início da página

    Corpo Museu da Pessoa

    O corpus Museu da Pessoa é um corpus de cento e sete entrevistas transcritas pelo Núcleo Português do Museu da Pessoa (ver Almeida et al. 2000) no âmbito dos seus projectos, mais cento e seis entrevistas transcritas pelo Museu da Pessoa brasileiro. As entrevistas portuguesas sofreram um processo de revisão adicional.

    Em "XML simples", as entrevistas completas do Museu da Pessoa encontram-se aqui num formato com separação de frases e marcação de pergunta e resposta:

    Corpus Museu da Pessoa, versão do texto português de Abril de 2005, versão do texto brasileiro de Dezembro de 2008, anotado em 30 de setembro de 2025, v. 10.3

    Agradecemos ao Núcleo Português do Museu da Pessoa a disponibilização dos textos. Estamos gratos ao Museu da Pessoa brasileiro por disponibilzarem os textos na Internet, e a Lise Bianchini pelo seu tratamento. Agradecemos a Paula Taveira pela revisão (em curso) dos textos portugueses.

    Estrutura do corpo

    Marcadores estruturais: entrevista [entrevista completa], p [parágrafo], s [frase], resposta, pergunta, legenda [legenda de uma fotografia], introd [texto de introdução antes da entrevista]

    Para cada entrevista temos a indicação dos dados possíveis sobre cada entrevistado aqui.

    VarianteTamanho
    BR 2303596
    PT 346458
    SexoTamanho
    F 749.487
    M 1.876.316
    X 24.251

    Dados quantitativos

    Corpo MUSEUDAPESSOA Número de formasNúmero de tipos
    Unidades 184688942637
    Total de palavras 143161542627
    Palavras em minúscula 111651930233
    Palavras com inicial maiúscula1434648281
    Palavras todas em maiúsculas 4862394
    Números 8674365
    Palavras com números11773
    Palavras mistas228109
    Pontuação1054188

    Número de unidades estruturais

    Atributo Número
    mwe 24609
    p 11770
    s 93465
    entrevista 215
    pergunta 11015
    resposta 11351
    legenda 47
    introd 4
    corr 19

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 35304 57390
    Locuções 24609 52282
    Palavras gráficas 1431615 1431615
    Palavras simples 1321943 1321943
    Palavras 1381856 1431615

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 237178 17,94%
    Verbos V.* 265168 20,06%
    Adjectivos ADJ.* 50137 3,79%
    Pronomes pessoais .*PERS.* 75439 5,71%
    Preposições PRP.* 169572 12,83%
    Conjunções K.* 79602 6,02%
    Advérbios ADV.* 133385 10,09%
    Determinantes .*DET.* 223651 16,92%
    Especificadores .*SPEC.* 41806 3,16%
    Numerais NUM.* 18678 1,41%

    ^Voltar ao início da página

    Corpo Natura/Minho

    O corpus Natura/Minho é um corpus jornalístico contendo texto do jornal regional português Diário do Minho, criado no âmbito do projecto Natura. O corpus (correspondente à versão 3 diariodoMinho.3.cor) contém notícias completas, separadas em edições e marcadas pela data. No texto encontravam-se assinalados, numa codificação de tipo XML, títulos, assinaturas e legendas, além de conter marcação (markup) de parágrafos e de formatação, esta última retirada do corpus final.

    Segundo o projecto Natura, o corpus original é assim descrito:
    Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de provas).

    Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.

    Corpus Natura/Minho (de 9 de Março de 2001), versão texto criada em Abril de 2002, anotado a 6 de julho de 2024, v. 11.1

    Estamos gratos à direcção do Diário do Minho pela gentil autorização de disponibilização dos tex

    Estrutura do corpo

    A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. A partir da versão 3.0, introduzimos a anotação li para assinalar listas.

    Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.

    Dados quantitativos

    Corpo NATMINHO Número de formasNúmero de tipos
    Unidades 225544269861
    Total de palavras 180022368325
    Palavras em minúscula 128414539047
    Palavras com inicial maiúscula24948917475
    Palavras todas em maiúsculas 155962143
    Números 224521206
    Palavras com números2941415
    Palavras mistas970486
    Pontuação1194371530

    Número de unidades estruturais

    Atributo Número
    p 56926
    s 70246
    assinatura 541
    legenda 782
    t 7666
    art 5117
    marca 0
    mwe 27032

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 103595 218855
    Locuções 27032 57530
    Palavras gráficas 1800223 1800223
    Palavras simples 1523838 1523838
    Palavras 1654465 1800223

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 376185 24,69%
    Verbos V.* 208282 13,67%
    Adjectivos ADJ.* 99438 6,53%
    Pronomes pessoais .*PERS.* 19531 1,28%
    Preposições PRP.* 323136 21,21%
    Conjunções K.* 68920 4,52%
    Advérbios ADV.* 63896 4,19%
    Determinantes .*DET.* 313292 20,56%
    Especificadores .*SPEC.* 28517 1,87%
    Numerais NUM.* 42703 2,80%

    ^Voltar ao início da página

    Corpo NOBRE

    O corpo NOBRE (Novas OBRas publicadas na Europa) é um corpo de textos literários em português que já alcançaram o domínio público, criado para simplificar a construção do lado português do ELTEC, no âmbito do projeto COST "Distant Reading for European Literary History".

    Corpo NOBRE, criado a 5 de janeiro de 2026, v. 13.0

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

    Dados quantitativos

    Corpo NOBRE Número de formasNúmero de tipos
    Unidades 12257616239683
    Total de palavras 8939028238374
    Palavras em minúscula 6939991146764
    Palavras com inicial maiúscula76158735883
    Palavras todas em maiúsculas 113822203
    Números 8524967
    Palavras com números443268
    Palavras mistas43921839
    Pontuação6448558

    Número de unidades estruturais

    Atributo Número
    p 174431
    s 512172
    v 0
    obra 168
    capitulo 0
    parte 0
    tit 0
    autor 168
    tituloobra 168
    div 33
    mwe 133731
    fala 555
    personagem 560
    t 68

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 233406 356027
    Locuções 133731 291191
    Palavras gráficas 8939028 8939028
    Palavras simples 8291810 8291810
    Palavras 8658947 8939028

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1648816 19,88%
    Verbos V.* 1515196 18,27%
    Adjectivos ADJ.* 508206 6,13%
    Pronomes pessoais .*PERS.* 439823 5,30%
    Preposições PRP.* 1288711 15,54%
    Conjunções K.* 456084 5,50%
    Advérbios ADV.* 566620 6,83%
    Determinantes .*DET.* 1531291 18,47%
    Especificadores .*SPEC.* 217984 2,63%
    Numerais NUM.* 66109 0,80%

    ^Voltar ao início da página

    Corpo OBras

    O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio, a Universidade Estadual do Maranhão (UEMA) e Anya Campos. Para mais informações veja-se a página do projeto.

    Corpo OBras, criado a 5 de janeiro de 2026, v. 18.0

    Agradecemos a todos os que tornarem este projeto viável, por terem digitalizado e tornado públicas obras de autores brasileiros.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título] e s [frase], e poesia [partes em poesia].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

    Dados quantitativos

    Corpo OBRAS Número de formasNúmero de tipos
    Unidades 14468091232917
    Total de palavras 10255363232824
    Palavras em minúscula 8029583137563
    Palavras com inicial maiúscula87154738152
    Palavras todas em maiúsculas 115663030
    Números 8970791
    Palavras com números222139
    Palavras mistas20071106
    Pontuação7823288

    Número de unidades estruturais

    Atributo Número
    p 235063
    s 634013
    t 1841
    v 23015
    obra 335
    capitulo 699
    parte 13
    tit 0
    autor 335
    tituloobra 335
    div 2565
    mwe 181753

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 242298 339762
    Locuções 181753 394470
    Palavras gráficas 10255363 10255363
    Palavras simples 9521131 9521131
    Palavras 9945182 10255363

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1997294 20,98%
    Verbos V.* 1729594 18,17%
    Adjectivos ADJ.* 609865 6,41%
    Pronomes pessoais .*PERS.* 479505 5,04%
    Preposições PRP.* 1483409 15,58%
    Conjunções K.* 522002 5,48%
    Advérbios ADV.* 657889 6,91%
    Determinantes .*DET.* 1822116 19,14%
    Especificadores .*SPEC.* 238455 2,50%
    Numerais NUM.* 80997 0,85%

    ^Voltar ao início da página

    Corpo PANTERA, lado português

    O corpo PANTERA (Portuguese And Norwegian Texts for Education, Research and Acquisition of relevant knowledge) é um corpo paralelo português-norueguês, ver PANTERA.

    Mais informação sobre o corpo pode ser obtida em Santos (2019)

    Corpo pantera-port, criado a 5 de janeiro de 2026

    Estrutura do corpo

    O corpus está dividido em textos, e tem informação de data, data da tradução, variante e variante da tradução. Além disso está também dividido em s [frases].

    Dados quantitativos

    pantera-port Número de formasNúmero de tipos
    Unidades 95092647304
    Total de palavras 64272847288
    Palavras em minúscula 50424533350
    Palavras com inicial maiúscula615207376
    Palavras todas em maiúsculas 7159336
    Números 704236
    Palavras com números10295
    Palavras mistas236126
    Pontuação588948

    Número de unidades estruturais

    Atributo Número
    ua 45547
    p 15630
    s 46028
    mwe 14413
    texto 123
    data 123
    datatrad 123
    variante 123
    variantetrad 123
    act-s 0
    marca 67
    fala 2190
    indic 931
    instr 0
    star 0
    foreign 1

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 22182 22170
    Locuções 14413 31081
    Palavras gráficas 642728 642728
    Palavras simples 589477 589477
    Palavras 626072 642728

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 116100 19,70%
    Verbos V.* 118619 20,12%
    Adjectivos ADJ.* 32819 5,57%
    Pronomes pessoais .*PERS.* 31292 5,31%
    Preposições PRP.* 91469 15,52%
    Conjunções K.* 34734 5,89%
    Advérbios ADV.* 52727 8,94%
    Determinantes .*DET.* 105765 17,94%
    Especificadores .*SPEC.* 17923 3,04%
    Numerais NUM.* 5314 0,90%

    ^Voltar ao início da página

    Corpo P'lo Norte

    O corpo P'lo norte é constituído por blogues de portugueses sobre a Noruega, compilados manualmente.

    O corpus Plonorte é composto (neste momento) por 38 textos.

    Corpo PLONORTE, anotado a 6 de julho de 2024, v. 5.1

    Corpo compilado por Ana Rita Ferreira e Diana Santos.

    Estrutura do corpo

    Marcadores posicionais: estatuto [visitante, residente, outro], autor, data, sexo

    Marcadores estruturais: texto [nome do texto], p [parágrafo], s [frase].

    Distribuições

    A sua distribuição, correspondendo à versão 5.1, é a seguinte:

    EstatutoTamanho
    outro 5.432
    residente 17.221
    visitante 21.380
    SexoTamanho
    F 30.606
    M 13.427
    BlogueTamanho
    alesund 698
    analogias 193
    autocarro 462
    barbaros 641
    bergen 218
    bolso 964
    breivik 3.745
    cabonorte 1.658
    chuvabagas 572
    dicas 1.061
    dicastrabalho 1.071
    duas 659
    entrevista 1.672
    exemplar 1.038
    festival 477
    fiordes 788
    fofocas 392
    fondant 372
    gratulerer 1.832
    gravidez 228
    idilico 675
    limpar 853
    mapa 575
    mochila 5.518
    multa 152
    noruega 1.569
    olha 726
    passeando 3.084
    Paulo 144
    pipocas 119
    princesas 3.345
    sardinha 919
    svalbard 606
    teambuilding 107
    trondheim 1.002
    trondheim2 2.371
    tubarao 1.477
    viajarcriancas 2.050

    Distribuição por fonte

    fofocasM23.01.07residentehttp://umportuguesnanoruega.blogspot.no/2007/01/dia-19.html
    fondantF10.02.10residentehttp://webcache.googleusercontent.com/search?q=cache:YAlq1opGVbIJ:eduarda-na-noruega.blogspot.com/&num=1&client=firefox-b-ab&hl=pt-PT&gl=pt&strip=1&vwsrc=0
    multaM14.07.10residentehttp://tugananoruega.blogspot.no/2010/07/multa.html
    dicastrabalhoM16.06.08residentehttp://portugalilainen.blogspot.pt/2008/06/trabalhar-na-noruega-dicas.html
    festivalF14.05.17residentehttp://quiosquedajoana.blogs.sapo.pt/da-noruega-para-portugal-com-amor-112310
    entrevistaF27.02.16residentehttps://halfway2happiness.wordpress.com/2016/02/27/portugal-no-globo-noruega/
    sardinhaF08.03.17residentehttps://umasardinhananoruega.wordpress.com/2017/03/08/nas-minhas-34-voltas-ao-sol/
    PauloM18.05.07residentehttp://terrasgelidasdonorte.blogspot.no/2007/05/17-de-maio-17-mai.html
    princesasF11.10.10residentehttp://in-bergen.blogspot.no/2010/10/princesses-in-bergen.html
    trondheim2F26.05.17residentehttp://www.almadeviajante.com/viver-em-trondheim-carla-carvalho/
    trondheimF08.09.12residentehttp://p3.publico.pt/node/4497
    viajarcriancasF27.05.14residentehttp://pikitim.com/trondheim-com-criancas-dicas-de-alice-pinto/
    gravidezF13.01.12residentehttp://demaeparamae.pt/forum/gravidez-noruega
    mochilaF18.03.14visitantehttps://viajardemochilaascostas.blogspot.pt/2014/03/noruega.html
    svalbardF09.04.15visitantehttp://viajarentreviagens.blogspot.pt/2015/04/o-apelo-do-arctico-correndo-de-trenos.html
    fiordesF12.03.10visitantehttp://viajante-do-mundo.blogspot.pt/2010/03/fiordes-da-noruega.html
    dicasM29.06.15visitantehttp://www.viagensasolta.com/2015/06/dicas-para-viajar-na-terra-dos-fiordes.html
    cabonorteM06.09.10visitantehttp://cabonorte2010.blogspot.no/2010/09/bodon-mo-i-ranan-319kms.html
    idilicoF26.07.08visitantehttps://asvoltasdovento.blogspot.no/2008/07/noruega-um-pas-idlico.html
    passeandoF10.03.11visitantehttp://passeando-pela-europa.blogspot.pt/2011/03/noruega.html
    exemplarM24.07.11visitantehttp://retalhos-de-sintra.blogspot.pt/2011/07/noruega-um-pais-exemplar-2.html
    bergenM26.10.15visitantehttp://soentrenos.blogs.sapo.pt/bergen-noruega-195633
    barbarosF05.03.06outrohttp://apoliticadospoliticos.blogs.sapo.pt/29323.html
    limparF22.11.09outrohttp://jugular.blogs.sapo.pt/1331558.html
    mapaM01.04.14visitantehttps://demapanamao.wordpress.com/noruega/
    gratulererF21.05.14visitantehttps://cartografiapessoal.wordpress.com/2014/05/21/gratulerer-med-dagen-norge/
    bolsoF16.08.16visitantehttps://alguresnomundo.wordpress.com/2016/08/16/foram-me-ao-bolso-e-eu-gostei-noruega/
    alesundF07.04.14visitantehttps://solnaeiraechuvanonabal.wordpress.com/2017/04/07/alesund-pequena-perola-nos-fjords-da-noruega/
    autocarroF25.04.17visitantehttps://solnaeiraechuvanonabal.wordpress.com/2017/04/25/fjords-da-noruega/#more-1423
    breivikM29.07.11outrohttp://5dias.net/2011/07/29/a-noruega-nao-e-um-exemplo-de-tolerancia-de-democracia-e-de-respeito-pelos-direitos-humanos/
    noruegaM12.09.16residentehttp://www.coquetteaportuguesa.com/2016/09/noruega.html
    tubaraoF04.08.11visitantehttps://cartografiapessoal.wordpress.com/2011/08/04/na-boca-do-tubarao/
    teambuildingM25.11.13residentehttp://aminhavidananoruega.blogspot.no/2013/11/sobre-o-team-building.html
    pipocasM05.02.15residentehttp://aminhavidananoruega.blogspot.no/2015/02/como-pipocas.html
    analogiasM28.10.11outrohttp://irparaanoruega.blogspot.no/2011/10/guerra-fria-e-guerra-quente.html
    chuvabagasF17.07.16residentehttp://goingnorthtilnorway.blogspot.no/2016/07/chuvabagas-e-futebol-como-passar-um-dia.html
    duasM09.10.14residentehttp://duas-ou-tres.blogspot.no/2014/10/portugal-na-noruega.html
    olhaM03.10.16visitantehttp://olhaqueresfalarsobreisso.blogspot.no/2016/10/um-portugues-pela-noruega.html

    Dados quantitativos

    Corpo PLONORTE Número de formasNúmero de tipos
    Unidades 527518220
    Total de palavras 412268162
    Palavras em minúscula 322846047
    Palavras com inicial maiúscula41951403
    Palavras todas em maiúsculas 11979
    Números 459155
    Palavras com números4532
    Palavras mistas6534
    Pontuação280755

    Número de unidades estruturais

    Atributo Número
    p 1121
    s 2379
    texto 38
    mwe 817

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 1633 2207
    Locuções 817 1741
    Palavras gráficas 41226 41226
    Palavras simples 37278 37278
    Palavras 39728 41226

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 8661 23,23%
    Verbos V.* 6055 16,24%
    Adjectivos ADJ.* 2531 6,79%
    Pronomes pessoais .*PERS.* 843 2,26%
    Preposições PRP.* 6900 18,51%
    Conjunções K.* 2083 5,59%
    Advérbios ADV.* 2707 7,26%
    Determinantes .*DET.* 7156 19,20%
    Especificadores .*SPEC.* 892 2,39%
    Numerais NUM.* 789 2,12%

    ^Voltar ao início da página

    Corpo Português Falado - Documentos Autênticos

    O corpus PortFalDA é um corpo de entrevistas transcritas proveniente dos quatro CD-ROM Português Falado: Documentos Autênticos (Gravações audio com transcrição alinhada), produzidos pelo Centro de Linguística da Universidade de Lisboa (CLUL) e pelo Instituto Camões em 1995-1997. Este material foi coletado maioritariamente no âmbito do projeto Português Falado, Variedades Geográficas e Sociais, levado a cabo pelo CLUL em parceria com as universidades francesas de Toulouse-le-Mirail e de Provence-Aix-Marseille. Para mais informação sobre este corpo, veja-se Bacelar do Nascimento (2001a) (em inglês) e Bacelar do Nascimento (2001b) (em francês).

    O corpus PortFalDA é composto (neste momento) por 50 textos, de Portugal e do Brasil.

    Como citar o (conteúdo do) corpus PortFALDA:

    Português Falado: Documentos Autênticos (Gravações audio com transcriçao alinhada), conjunto de quatro CD-ROM, produzido pelo Centro de Linguística da Universidade de Lisboa (CLUL), Instituto Camões, com apoio da União Europeia (Programas LINGUA e SOCRATES/LINGUA) numa parceria entre o CLUL, a Universidade de Toulouse-le-Mirail e a Universidade de Aix-en-Provence.

    Corpo PORTFALDA, texto original dos CD-ROM, anotado a 6 de julho de 2024, versão 6.1

    Agradecemos a (ainda em aberto) para incluir no AC/DC.

    Estrutura do corpo

    Marcadores posicionais: variante

    Marcadores estruturais: texto [nome do texto], pergunta, resposta, p [parágrafo], s [frase].

    Distribuição por variante

    A sua distribuição, correspondendo à versão 1.0, é a seguinte:

    Dados quantitativos

    Corpo PORTFALDA Número de formasNúmero de tipos
    Unidades 1485828637
    Total de palavras 1072158629
    Palavras em minúscula 845687602
    Palavras com inicial maiúscula1367516
    Palavras todas em maiúsculas 5115
    Números 11
    Palavras com números22
    Palavras mistas3210
    Pontuação82888

    Número de unidades estruturais

    Atributo Número
    p 3500
    s 7569
    texto 86
    pergunta 1642
    resposta 1858
    mwe 1925

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 972 1420
    Locuções 1925 4152
    Palavras gráficas 107215 107215
    Palavras simples 101643 101643
    Palavras 104540 107215

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 14569 14,33%
    Verbos V.* 19228 18,92%
    Adjectivos ADJ.* 3361 3,31%
    Pronomes pessoais .*PERS.* 4593 4,52%
    Preposições PRP.* 11114 10,93%
    Conjunções K.* 6059 5,96%
    Advérbios ADV.* 11680 11,49%
    Determinantes .*DET.* 13510 13,29%
    Especificadores .*SPEC.* 2839 2,79%
    Numerais NUM.* 1269 1,25%

    ^Voltar ao início da página

    Corpo ReLi

    O corpus ReLi é um corpo de 1601 resenhas de treze livros (de sete autores diferentes), compiladas de um sítio brasileiro de resenhas de livros, pela PUC-Rio, e acessível daqui. Essas resenhas foram anotadas em relação à opinião, ao objeto da opinião, e à sua polaridade, veja-se Freitas et al. (2012).

    O corpus ReLi é composto de 7 arquivos, com as resenhas das obras de cada autor. Foram manualmente marcadas as seguintes informações:

    object - indica segmento alvo de opinião. É designado por OBJXX, onde XX é o identificador do objeto no escopo da resenha, sendo 00 o objeto implícito livro

    opinion - indica segmento que expressa opinião sobre um OBJXX. Tem a forma opXXS, onde S={-,+} para indicar a polaridade da opinião e XX é o ponteiro para o objeto

    polarity - indica frase com opinião. Pode assumir os valores + e -.

    Como citar o corpus ReLi: Freitas, C.; Motta, E.; Milidiú, R.; Cesar, J. Vampiro que brilha... rá! Desafios na anotação de opinião em um corpus de resenhas de livros. In: XI Encontro de Linguística de Corpus (ELC 2012), São Paulo, Brasil, 2012.

    Corpus ReLi, versão do texto de Maio de 2013, anotado a 6 de julho de 2024, v. 8.1

    Agradecemos a Cláudia Freitas, Eduardo Motta, Ruy Milidiú e Juliana Cesar a autorização para incluir no AC/DC.

    Estrutura do corpo

    Marcadores posicionais: objeto, opiniao, polaridade Marcadores estruturais: livro [nome do livro resenhado], resenha, p [parágrafo], s [frase].

    Distribuição por livro e autor

    Dados quantitativos

    Corpo RELI Número de formasNúmero de tipos
    Unidades 15756014274
    Total de palavras 12878413086
    Palavras em minúscula 9233010697
    Palavras com inicial maiúscula99631797
    Palavras todas em maiúsculas 392264
    Números 40574
    Palavras com números44
    Palavras mistas792420
    Pontuação760861

    Número de unidades estruturais

    Atributo Número
    mwe 2230
    p 0
    t 0
    s 7230
    livro 0
    rev 0

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 6540 4609
    Locuções 2230 4840
    Palavras gráficas 128784 128784
    Palavras simples 119335 119335
    Palavras 128105 128784

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 24112 20,21%
    Verbos V.* 21954 18,40%
    Adjectivos ADJ.* 8606 7,21%
    Pronomes pessoais .*PERS.* 4337 3,63%
    Preposições PRP.* 17667 14,80%
    Conjunções K.* 7031 5,89%
    Advérbios ADV.* 9308 7,80%
    Determinantes .*DET.* 21984 18,42%
    Especificadores .*SPEC.* 3848 3,22%
    Numerais NUM.* 1160 0,97%

    ^Voltar ao início da página

    Corpo NILC/São Carlos

    O corpus NILC/São Carlos do Núcleo Interinstitucional de Lingüística Computacional, sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo em São Carlos, contém textos brasileiros do registo jornalístico, didáctico, epistolar e redacções de alunos (Nunes et al., 1996a, 1996b). Para um descrição mais abrangente, veja-se a página de descrição do corpus NILC e sua descendência.

    Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.

    Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; criado a 8 de outubro de 2025, v. 15.5

    Estamos gratos à Folha de São Paulo pela autorização gentilmente concedida para uso dos seus textos.
    Estamos gratos ao Núcleo Interinstitucional de Lingüística Computacional, em especial a Graça Nunes, por nos ter disponibilizado o texto do corpus em formato electrónico, autorizado a sua disponibilização através do projecto AC/DC e negociado com a Folha de São Paulo a autorização anteriormente mencionada.

    Estrutura do corpo

    Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura,
    Para os textos da folha de São Paulo, a (autor), artigo, caixa, situacao, li (elemento de lista).

    As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.

    Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.

    A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.

    O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 15.5, é a seguinte:

    TipoDescriçãoTamanho
    DI texto didáctico 426.387
    ENC enciclopédia 286.797
    ENS ensaio 2.214.803
    EP texto epistolar 3.826
    JO.* jornalístico 29.938.947
    JOCF jornalístico só CETENFolha 27.837.462
    JO jornalístico sem CETENFolha 2.101.485
    LE texto legal 1.084.112
    LI literário 925.385
    RE revista 155.395

    O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.

    A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .

    A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):

    Dados quantitativos

    Corpo SAOCARLOS Número de formasNúmero de tipos
    Unidades 43249538436492
    Total de palavras 32886779436350
    Palavras em minúscula 23235381158501
    Palavras com inicial maiúscula4585260127858
    Palavras todas em maiúsculas 44740522852
    Números 57806215764
    Palavras com números470545336
    Palavras mistas917518513
    Pontuação21488878

    Número de unidades estruturais

    Atributo Número
    mwe 466173
    p 827382
    s 1954773
    texto 341940
    subtitulo 3749
    assinatura 13
    artigo 0
    caixa 20695
    situacao 5031
    t 148902
    a 80180
    li 49673

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 1992521 3343309
    Locuções 466173 990115
    Palavras gráficas 32886779 32886779
    Palavras simples 28553355 28553355
    Palavras 31012049 32886779

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 7143814 25,02%
    Verbos V.* 4302614 15,07%
    Adjectivos ADJ.* 1830287 6,41%
    Pronomes pessoais .*PERS.* 460068 1,61%
    Preposições PRP.* 5487896 19,22%
    Conjunções K.* 1211912 4,24%
    Advérbios ADV.* 1311543 4,59%
    Determinantes .*DET.* 5561633 19,48%
    Especificadores .*SPEC.* 455053 1,59%
    Numerais NUM.* 918336 3,22%

    ^Voltar ao início da página

    Corpo todos juntos

    O corpo TODOS foi criado pela Linguateca de forma a permitir que todos os corpos da Linguateca pudessem ser interrogados duma só vez, evitando ao mesmo tempo que sobreposições de material produzissem repetição escusada e enganadora de concordâncias ou frequências.

    É, portanto, especialmente apropriado para investigações relacionadas com género textual ou com anotação semântica.

    Porque é automaticamente produzido a partir de todos os outros corpos do AC/DC, contém apenas os atributos estruturais e posicionais que pertençam à interseção de todos os corpos, além dos atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas de corpos individuais.

    No caso da sobreposição entre o corpo NILC/São Carlos e o CHAVE, e do corpo CETEMPúblico e o CHAVE, foi escolhido o material do CHAVE.

    O corpo contém cerca de 1300 milhões de palavras, distribuídas entre vários géneros e temas, correspondendo ao conteúdo de todos os corpos presentes no AC/DC.

    GéneroUnidades
    academico 409.552.077
    blog 4.253.225
    cartas 842.924
    desc 3.432.044
    encic 17.734.659
    ensaio 2.219.797
    jorn 669.804.963
    legal 9.791.855
    lit 48.597.042
    littrad 77.742
    mail 2.084.027
    misto 389.380
    oraldebate 37.004
    oralent 6.674.191
    oralfut 86.132
    oralinf 292.678
    oralmono 77.526.185
    recensoes 265.223
    religioso 874.402
    revistas 647.609
    teatro 1.148.728
    tecnico 86.312.671
    variado 137.824

    Corpus todos, criado a 4 de setembro de 2022, v. 8.1

    Agradecemos aos compiladores de todos os corpos incluídos por os terem criado e (deixado) tornar públicos.

    Estrutura do corpo

    Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

    Dados quantitativos

    Corpo TODOS Número de formasNúmero de tipos
    Unidades 15189279646295254
    Total de palavras 12610582995491047
    Palavras em minúscula 8887322901455100
    Palavras com inicial maiúscula1574734881130986
    Palavras todas em maiúsculas 25115356375442
    Números 2102615255906
    Palavras com números2505480395382
    Palavras mistas3406250412691
    Pontuação83288930551356

    Número de unidades estruturais

    Atributo Número
    TEXTO 0
    CATEGORY 192967
    0
    art 21801
    assinatura 1556
    assunto 4858
    autor 71244
    caixa 1077
    capitulo 714
    cita 80
    div 6932
    entrevista 2278
    ext 1415377
    fala 115137
    introd 4
    legenda 836
    li 100101
    marca 16664
    mens 4911
    mwe 18130528
    nota 2329
    obra 897
    p 5951417
    parte 11631
    pergunta 12902
    personagem 121024
    resposta 13422
    s 55180342
    situacao 561
    subtitulo 3719
    t 1192583
    texto 23968
    titulo 2210
    tituloobra 897
    u 1927081
    v 294798
    a 221343
    data 193395
    indic 5643

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 86280986 127913038
    Locuções 18130528 38609211
    Palavras gráficas 1261058299 1261058299
    Palavras simples 1094536050 1094536050
    Palavras 1198947564 1261058299

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 277167661 25,32%
    Verbos V.* 145537153 13,30%
    Adjectivos ADJ.* 77778842 7,11%
    Pronomes pessoais .*PERS.* 17336037 1,58%
    Preposições PRP.* 204459658 18,68%
    Conjunções K.* 48772948 4,46%
    Advérbios ADV.* 48246109 4,41%
    Determinantes .*DET.* 198022464 18,09%
    Especificadores .*SPEC.* 18158155 1,66%
    Numerais NUM.* 36601144 3,34%

    ^Voltar ao início da página

    Corpo Tycho Brahe

    O Corpus Histórico do Português Tycho Brahe é um corpo eletrônico anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845, compilado pela Universidade de Campinas (UniCamp). A sua página principal é http://www.tycho.iel.unicamp.br/corpus/index.html, onde todas as informações estão disponíveis.

    Corpo Tycho Brahe, versão do texto simples de 2017, criado a 4 de janeiro de 2026, versão 12.0

    Agradecemos a Charlotte Galves a gentil autorização para disponibilizar o corpo Tycho Brahe através do AC/DC.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (com o identificador original), tituloobra, (o nome da obra), autor (o autor da obra), data (data de nascimento do autor), genero (o gênero de obra segundo os critérios do Tycho Brahe), grafia (preservada ou editada) e a variante (PT ou BR conforme publicado em Portugal ou Brasil). Também se encontram marcados, nas obras em que são relevantes, partes como assinatura, saudacao e data, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (o gênero de obra segundo os critérios do Tycho Brahe), grafia (preservada ou editada), seculo (de nascimento do autor) e a variante (PT ou BR conforme publicado em Portugal ou Brasil).

    Dados quantitativos

    Corpo TYCHO Número de formasNúmero de tipos
    Unidades 4226634149162
    Total de palavras 3344141149139
    Palavras em minúscula 257323795360
    Palavras com inicial maiúscula35928728110
    Palavras todas em maiúsculas 147882069
    Números 190441442
    Palavras com números800239
    Palavras mistas41791688
    Pontuação1759438

    Número de unidades estruturais

    Atributo Número
    s 133393
    p 133394
    obra 76
    t 1918
    autor 76
    tituloobra 76
    data 514
    variante 76
    genero 76
    grafia 76
    div 2227
    assinatura 1146
    saudacao 441
    mwe 49812
    personagem 21725
    fala 17305

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 130770 220350
    Locuções 49812 105429
    Palavras gráficas 3344141 3344141
    Palavras simples 3018362 3018362
    Palavras 3198944 3344141

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 595241 19,72%
    Verbos V.* 529828 17,55%
    Adjectivos ADJ.* 156065 5,17%
    Pronomes pessoais .*PERS.* 158751 5,26%
    Preposições PRP.* 463933 15,37%
    Conjunções K.* 220031 7,29%
    Advérbios ADV.* 197849 6,55%
    Determinantes .*DET.* 529727 17,55%
    Especificadores .*SPEC.* 98444 3,26%
    Numerais NUM.* 43075 1,43%

    ^Voltar ao início da página

    Corpo Vercial

    O corpo Vercial contém 309 obras literárias de 55 autores portugueses, digitalizadas pelo projecto Vercial, cujas datas de publicação variam desde 1500 (Carta a El-rei Dom Manuel Sobre o Achamento do Brasil, de Pero Vaz de Caminha) a 1933 (Memórias III, de Raul Brandão).

    Corpus Vercial, criado a 19 de setembro de 2025, v. 17.6

    Agradecemos à equipa do projecto Vercial, especialmente a José Leon Machado, que gentilmente nos cederam os textos para este corpus.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra).

    As 187 obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

    As 80 obras de poesia têm os seguintes marcadores estruturais adicionais: div [parte de um poema, assinalada graficamente por números romanos] e v [verso].

    As 43 obras de teatro têm os seguintes marcadores estruturais adicionais: fala [juntando a fala de uma personagem] e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (que pode ser Poesia, Prosa ou Teatro), e data (que quando é desconhecida tem o valor "desc").

    As obras presentes e respectivos autores são as seguintes:

    Dados quantitativos

    Corpo VERCIAL Número de formasNúmero de tipos
    Unidades 20875505328550
    Total de palavras 14776427328451
    Palavras em minúscula 11099298176722
    Palavras com inicial maiúscula160892972579
    Palavras todas em maiúsculas 812517335
    Números 564712023
    Palavras com números477329
    Palavras mistas177382566
    Pontuação10011478

    Número de unidades estruturais

    Atributo Número
    p 228434
    s 986935
    v 266288
    obra 339
    capitulo 0
    titulo 926
    u 785479
    fala 29177
    autor 339
    tituloobra 339
    div 2353
    mwe 203995
    indic 4505
    poesia 0
    nota 1127
    marca 10064

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 504408 775235
    Locuções 203995 435155
    Palavras gráficas 14776427 14776427
    Palavras simples 13566037 13566037
    Palavras 14274440 14776427

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 2855006 21,05%
    Verbos V.* 2281637 16,82%
    Adjectivos ADJ.* 891860 6,57%
    Pronomes pessoais .*PERS.* 668110 4,92%
    Preposições PRP.* 2129161 15,69%
    Conjunções K.* 787499 5,80%
    Advérbios ADV.* 850600 6,27%
    Determinantes .*DET.* 2569036 18,94%
    Especificadores .*SPEC.* 357746 2,64%
    Numerais NUM.* 146815 1,08%

    ^Voltar ao início da página

    [ Acesso | Anotação | Atomização | Exemplos | Agradecimentos ]


    Última actualização: 29 de Janeiro de 2021
    Perguntas, comentários e sugestões