Informação pormenorizada sobre os corpos

Projecto AC/DC, Linguateca


Esta página fornece a informação necessária sobre cada corpo, para que os utilizadores do nosso serviço o possam utilizar como instrumento válido de teste de hipóteses científicas.

Além de apontar para a informação original fornecida pelos compiladores e de apresentar uma contabilização sumária de todos os corpos em forma de tabela, descreve várias opções básicas tomadas na codificação dos corpos no ambiente escolhido, o CWB. Sem que estas opções sejam explicitadas, não é possível compreender os resultados quantitativos ou comparar com outros trabalhos sobre os mesmos corpos.

Todos os corpos foram anotados pelo PALAVRAS, o analisador sintáctico criado Eckhard Bick, Bick (2000). Veja-se a página de anotação para mais informações sobre essa anotação.


Identificação sumária

Informação original fornecida pelos compiladores de corpos, acessível na rede ou publicada. Apenas os identificadores foram atribuídos por nós. Para saber mais informação sobre cada corpo, clique no respectivo identificador.

AmostRA-NILC Seleção de textos do corpo NILC, em português brasileiro, contendo textos dos géneros didático, jornalístico e literário, anotada com classificação gramatical, criada no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC
ANCIB Corpo de correio electrónico da lista ANCIB
Avante! Corpo de artigos da edição electrónica do Avante!, jornal semanal do Partido Comunista Português
CBRAS Um grande corpo de português brasileiro contendo muitos géneros diferentes, obtido da Rede
CDHAREM As colecções douradas usadas no HAREM
CETEMPúblico CETEMPúblico (Corpo de Extractos de Textos Electrónicos MCT/Público)
CHAVE Corpo de texto jornalístico usado no CLEF
CIENCIAVIVA Textos escritos sobre ciência em Portugal
COLONIA Corpo de textos históricos do século XVI ao XIX, de Portugal e do Brasil
C-ORAL-BRASIL Corpo oral de conversas informais no estado de Minas Gerais
CONDIVport Parte do corpo CONDIVport, contendo textos de jornais desportivos de Portugal e do Brasil
CoNECorpo de Correio Não-Endereçado, criado pela Linguateca
CORDIAL-SINCorpo de excertos de conversas orais, semidirigidas, em Portugal
DHBBCorpo de verbetes enciclopédicos sobre políticos brasileiros
DiaCLAV Corpo de artigos da edição electrónica de jornais regionais da região centro de Portugal (Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário)
Diáspora TL-PTCorpo de entrevistas a timorenses radicados em Portugal
ECI-EBR A parte do corpo Borba-Ramsey, contido no European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ECI-EE A parte da apresentação do programa Esprit do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ENPCPUB Parte disponibilizável do subconjunto em português do English-Norwegian Parallel Corpus (ENPC) (traduções para português de originais em inglês)
Floresta Corpo relativo ao material da Floresta Sintá(c)tica
FrasesPP Corpo FrasesPP, desenvolvido no Grupo de PLN do INESC em 1990-93
FrasesPB Corpo FrasesPB, criado no âmbito do Projecto Processamento Computacional do Português
Mariano GagoNotícias sobre Mariano Gago e textos dele e sobre ele
Marielle, presente!Textos escritos por Marielle Franco, e sobre ela
MoçambulaCarta de leitores em jornais moçambicanos
Museu da PessoaCorpo de entrevistas portuguesas e brasileiras realizadas pelo Museu da Pessoa
Natura/Minho Corpo jornalístico Natura/Diário do Minho
NOBRECorpo de texto literário lusófono publicado na Europa
OBrasCorpo de texto literário brasileiro
P'lo NorteCorpo de blogues de portugueses sobre a Noruega
ReLiCorpo de resenhas de livros na Rede, criadas por alunos brasileiros, anotadas com polaridade e objeto de opinião
NILC/São Carlos Corpo NILC/São Carlos (parte corrigida), contendo texto jornalístico, didáctico e epistolar.
Tycho Brahe Corpo Tycho Brahe
TodosJuntos Todos os corpos combinados, evitando repetições.
Vercial Corpo de textos literários portugueses clássicos, disponibilizados pelo projecto Vercial.

Contabilização básica dos corpos

Todos os corpos foram processados de forma a serem codificados pelo IMS-CWB, o que significa que foram previamente transformados no formato de uma unidade por linha, e com um atributo estrutural (que delimita um conjunto de unidades) por linha também.

Este processo, que chamamos atomização, encontra-se descrito em Atomização, e inclui também a divisão em frases, obtida automaticamente na maior parte dos casos.

De forma a poder comparar os vários corpos numa única tabela, convém notar que os elementos classificados como títulos, legendas, etc. não foram considerados frases para efeitos desta contagem. Por outro lado, os parágrafos (geralmente curtos) sem pontuação final são marcados como frases, do tipo fragmento.

Esta contabilização é atualizada sempre que há criação de novas versões.

Corpo Nº de frases Nº de parágrafos Nº de palavras (formas) Nº de palavras (tipos) Nº de unidades
AmostRA-NILC4.9654.904105.49917.181134.297
ANCIB80.77557.4741.243.06871.1611.672.505
Avante!193.11162.5286.506.813120.5427.666.370
Corpus Brasileiro40.981.95710.255893.043.8734.620.8821.057.661.923
CD HAREM12.5587.276225.76630.985290.001
CETEMPúblico7.025.5672.569.909190.601.605942.134234.481.482
CHAVE4.385.4372.063.09492.387.266694.535116.836.447
Ciência Viva27.26912.483656.58941.968799.360
Colonia283.546283.5534.977.678174.0246.643.875
CONDIVport301.047148.8815.558.299155.9527.132.225
CONDIVport26.5333.929172.48619.989209.289
CoNE31.57119.422671.75643.499911.431
C-Oral-Brasil30.6320263.93714.432435.507
CORDIAL-SIN98.01048.938850.28129.6801.487.855
CorTrad, lado português65.37016.0191.307.74566.7371.739.029
DHBB461.80612.04514.043.229122.41015.961.021
DiaCLAV210.96424.4896.568.833109.1997.709.828
Diáspora TL-PT1.035021.8773.04627.389
ECI-EBR44.38112.116724.18960.211920.027
ECI-EE83934027.1114.11831.900
ENPCPUB (parte em português)4.3711.68272.79812.88492.679
Floresta257.01737.6814.779.248160.1475.815.359
FrasesPB65264819.1616.00623.248
FrasesPP59459416.2575.08819.968
Mariano Gago23.30311.392571.31831.831696.839
LeMe178.682143.6242.557.04041.9193.474.804
Literateca2.315.364809.02037.287.748575.93552.028.692
Marielle, presente!20.44310.291405.83926.092502.073
Moçambula2.28513358.49810.71868.922
Museu da Pessoa93.46611.7711.422.94642.5261.838.834
Natura/Minho70.27356.9261.747.46168.1432.203.547
NOBRE497.187172.2278.679.020238.10711.912.387
OBras639.275235.53410.373.756238.03514.632.490
PANTERA, lado português43.24015.471636.18946.206939.091
P'lo Norte2.3811.12140.8988.15452.425
Português Falado - Documentos Autênticos7.5693.500106.8818.629148.106
ReLi7.3490133.27113.082163.747
NILC/São Carlos2.053.985873.53333.991.552422.80444.673.220
todos juntos56.970.4306.101.6261.261.058.2995.491.0471.518.927.964
Tycho Brahe135.840136.2823.334.039148.6954.204.140
Vercial1.003.667232.79714.896.145341.71321.101.386
Total61.604.3168.111.8821.341.087.965 --1.627.343.718


Frequência de formas e lemas por categoria gramatical nos corpos

Para obter as listas de frequências, clique na célula correspondente da tabela abaixo, que indica o número de tipos distintos. Tenha, contudo, em atenção as seguintes informações

CorpusFormas
NADJADVVNUMGRAMtodos
AmostRA63612779408596031149817231
ANCIB10174429257477911745114133578
Avante!1040458178391235199565634201
CDHAREM102124228610888797962831180
CETEMPúblico1948209503670882160041259616368975711
CHAVE162562788165849174565947564909743884
Ciência Viva12878710185812739174883642807
Colonia502292533927078577511431725174524
ConDIVport375142160222904529750711650130596
ConDIVport265552723416599981251920186
ConE14428579666493503618121946702
C-ORAL_Brasil55461903334480734275314588
CORDIAL-SIN1134928553591435815780329813
DHBB28630158241428365419826884128026
DiaCLAV10165476764411219131960933048
Diáspora TL-PT9903181561079883263070
ECI-EBR1338064368481508349468439087
ECI-EE137085420412932492914278
ENPC (parte pública)43851959452503414148712901
Floresta469162187221894864360243144164357
FrasesPB25689532141763673336018
FrasesPP20368722071449793165102
Mariano Gago968550068111183190271632106
LeMe12339850762185623948117543227
Literateca160400834477449337107124895923578350
Marielle, presente!818737555518575114873726528
Moçambula37451668388377018148310762
Museu da Pessoa1455960617441721758877442645
Natura/Minho2034210392110821675414285969748
NOBRE6446938037391912180215552547239400
OBras6357934513369212804520481921240119
Plonorte2877119432025742624258218
PortFalDA338011462473425583688638
ReLi424325125345011147164114273
NILC/São Carlos104244506623744105195563132336446916
Vercial8960245637416316689633482082342943
38351618305812012424584202519134721724865

CorpusLemas
NADJADVVNUMGRAMPROPtodostodos/pos
AmostRA49881940329187431116116131107011222
ANCIB7055244344620091730227106682419024583
Avante!713332406952386105420476712208422388
CDHAREM71502709459214598319169302025820567
CETEMPúblico14035254751552723777138272632103481213893161398134
CHAVE11259843110450519437100865626684069958683965218
Ciência Viva9067400968024261799214104372824228637
Colonia35012132252255101351400440289429059691415
ConDIVport2499211102184457465451343354668415484949
ConDIVport248501712332159380916343731358213837
ConE9300293351021343642246176143589836386
C-ORAL_Brasil445513182301395327213203596089978
CORDIAL-SIN77301750225223930324721641455814664
DHBB1804977711103410110094262149847190262191233
DiaCLAV6805273851022591360199108612442824737
Diáspora TL-PT8292341163618412423219051985
ECI-EBR95643959667305364421348392259622944
ECI-EE110255018149425010418028222867
ENPC (parte pública)35121390372143414115576476287774
Floresta305161124918866797613861086695142045143896
FrasesPB21467431898305911821742074308
FrasesPP16846811826557111721335643609
Mariano Gago66932879631219492421474802078121021
LeMe88545528496213436191098159423713837676
Literateca116846463815787376456122785185736387843399316
Marielle, presente!547721744251922118121266701775518066
Moçambula28841157301126718015884266936795
Museu da Pessoa100663478555289370825382792566726237
Natura/Minho12962546587636454429257308005784858440
NOBRE4536620306328913998193950238794122227124203
OBras4216216990308512089246752637665114044114990
Plonorte221280824685825014680152225327
PortFalDA2795808246102613217141754695601
ReLi32111525391140913317784873827699
NILC/São Carlos690132600630601311359222543315601482775486566
Vercial61894238603409181694015564106451215090218372
2903961133919987574092201042006177760024507282469983


Contabilização detalhada por corpo

A maior parte dos corpos requereu tratamento específico e opções dedicadas, que serão mencionadas na descrição de cada caso. Como opções gerais, mais detalhadas na página de atomização, temos:

Os dados quantitativos que apresentamos para cada corpo dividem-se em quatro grupos: Nota: em relação aos dados quantitativos, a categoria "pontuação" inclui todos as unidades que contenham sinais de pontuação e que não tenham sido considerados como abreviaturas (incluindo portanto números do tipo "3.876.210", abreviaturas com mais de um ponto como "S.O.S." ou "E.U.A", assim como erros de codificação ainda não depurados, como "primeiro-ministro.").


Corpo AmostRA-NILC

O corpus AmostRA-NILC (Corpus Amostra Rachel Aires - NILC) foi criado no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC, para avaliar e comparar o desempenho de etiquetadores para o português brasileiro (Aires 2000).

Citando Aires 2000 (secção 4.1.1)

" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:

  1. textos simples, isto é, aqueles que seguem uma estrutura formal fixa, por exemplo a escrita técnica (didáticos);
  2. textos mais próximos da linguagem viva (jornalístico);
  3. textos com estrutura livre, isto é, com formas menos comuns como ordem inversa por exemplo, (literários).

(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.

(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)

Tabela 1 - Corpus de treinamento e teste
Tipo de CorpusTamanho do corpus
D Didático 16.255 palavras
J Jornalístico 56.653 palavras
L Literário 32.054 palavras

(fim de citação)

Corpus AmostRA-NILC duplamente anotado, versão texto de 7 de Agosto de 2003 com primeira anotação do NILC (Rachel Aires), anotado a 30 de julho de 2022, v. 6.5

Agradecemos a Rachel Aires a disponibilização do corpus.

Estrutura do corpo

Os atributos estruturais usados são p (parágrafo) e s (frase). É também usado o atributo posicional pos2 (anotação gramatical original do corpus).

Dados quantitativos

Corpo AMOSTRA Número de formasNúmero de tipos
Unidades 13429717231
Total de palavras 10549917181
Palavras em minúscula 7837413519
Palavras com inicial maiúscula95022404
Palavras todas em maiúsculas 547643
Números 905186
Palavras com números7750
Palavras mistas3026
Pontuação611950

Número de unidades estruturais

Atributo Número
s 4965
p 4904
mwe 1470

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 8169 9916
Locuções 1470 3129
Palavras gráficas 105499 105499
Palavras simples 92454 92454
Palavras 102093 105499

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 24502 26,50%
Verbos V.* 14230 15,39%
Adjectivos ADJ.* 6605 7,14%
Pronomes pessoais .*PERS.* 2267 2,45%
Preposições PRP.* 16929 18,31%
Conjunções K.* 3954 4,28%
Advérbios ADV.* 4732 5,12%
Determinantes .*DET.* 17400 18,82%
Especificadores .*SPEC.* 1692 1,83%
Numerais NUM.* 1787 1,93%

^Voltar ao início da página

Corpo ANCIB

O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista homónima da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (até Novembro de 2003) e para a lista abarreto-l, após essa data.

Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.

Corpus ANCIB, versão texto de Junho de 2009, anotado em novembro de 2018, v. 8.0

Agradecemos a Aldo Barreto a autorização gentilmente cedida para uso dos textos da lista.

Estrutura do corpo

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.

Dados quantitativos

Corpo ANCIB Número de formasNúmero de tipos
Unidades 167250575783
Total de palavras 124306871161
Palavras em minúscula 83240135006
Palavras com inicial maiúscula22617722391
Palavras todas em maiúsculas 182252064
Números 195681213
Palavras com números2631752
Palavras mistas2378639
Pontuação1090593157

Número de unidades estruturais

Atributo Número
p 57453
s 80732
mwe 11817
autor 2996
mens 3001
assunto 2968
li 0
titulo 0
cita 80

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 99938 123
Locuções 11817 24817
Palavras gráficas 1243068 1243068
Palavras simples 1218128 1218128
Palavras 1329883 1243068

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 288889 23,72%
Verbos V.* 125243 10,28%
Adjectivos ADJ.* 76230 6,26%
Pronomes pessoais .*PERS.* 13273 1,09%
Preposições PRP.* 202953 16,66%
Conjunções K.* 57477 4,72%
Advérbios ADV.* 36596 3,00%
Determinantes .*DET.* 192031 15,76%
Especificadores .*SPEC.* 14924 1,23%
Numerais NUM.* 33045 2,71%

^Voltar ao início da página

Corpo Avante!

O corpus Avante! contém textos do semanário «Avante!», orgão oficial do Partido Comunista Português. O corpus contém cerca de 6 milhões de palavras, extraídas da versão na rede do jornal, correspondendo a um total de 8.515 artigos de 207 edições do dito jornal, de Abril de 1997 até Fevereiro de 2002.

Corpus Avante, versão de 6 de Março de 2006, anotado a 1 de agosto de 2022, v. 7.5

Estamos gratos à direcção do «Avante!», em especial ao seu director José Casanova, pela autorização gentilmente cedida para a elaboração deste corpus.

Estrutura do corpo

O corpus contém as etiquetas art (artigo), t (título), p (parágrafo), s (frase) e li (elemento de uma lista); os artigos não estão datados, sendo apenas indicado o número da edição, através da indicação <art ed= id=> .

Dados quantitativos

Corpo AVANTE Número de formasNúmero de tipos
Unidades 7666370122099
Total de palavras 6506813120542
Palavras em minúscula 509734067803
Palavras com inicial maiúscula66276029112
Palavras todas em maiúsculas 820693340
Números 584731586
Palavras com números1108363
Palavras mistas1703765
Pontuação3343541525

Número de unidades estruturais

Atributo Número
art 7520
t 25829
a 1
p 62527
li 7693
s 193103
mwe 116061

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 294183 516609
Locuções 116061 250791
Palavras gráficas 6506813 6506813
Palavras simples 5739413 5739413
Palavras 6149657 6506813

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1436678 25,03%
Verbos V.* 779461 13,58%
Adjectivos ADJ.* 455643 7,94%
Pronomes pessoais .*PERS.* 89566 1,56%
Preposições PRP.* 1229788 21,43%
Conjunções K.* 310465 5,41%
Advérbios ADV.* 293274 5,11%
Determinantes .*DET.* 1259322 21,94%
Especificadores .*SPEC.* 131118 2,28%
Numerais NUM.* 103444 1,80%

^Voltar ao início da página

Corpo Corpus Brasileiro

O Corpus Brasileiro é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp. Devido a variados tipos de processamento automático, é possível que nem todo o material incorporado esteja disponível através do AC/DC.

Listas de frequências

As listas de frequência de palavras (unigramas) do corpus podem ser obtidas em:

Referências

Manual: Corpus Brasileiro.
Berber Sardinha, T. (2008). Léxico-gramática e corpus. II Ebralc - Escola Brasileira de Linguística Computacional, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2008). O Corpus Brasileiro. Comunicação apresentada em VII Encontro de Lingüística de Corpus, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T. (2009). Applied Linguistics and Technology. Ames, Iowa State University, USA, January 20, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus: A one-billion word online resource. Comunicação apresentada em 5th Corpus Linguistics Conference, Liverpool, UK, July 21-23, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus. Comunicação apresentada em AACL 2009 - American Association for Corpus Linguistics, Alberta, Canadá, October 8-11, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2010). O Corpus Brasileiro. Comunicação apresentada em 13o Congresso Brasileiro De Língua Portuguesa e 4o Congresso Internacional De Lusofonia, PUCSP, São Paulo, SP, 30 de abril de 2010.
Berber Sardinha, T. (2010). Corpus Linguistics and Metaphor. Conferência plenária apresentada em 2nd International Conference on Corpus Linguistics (CILC), A Coruña, Spain, May 13-15, 2010.
Berber Sardinha, T. (2010). A Linguística de Corpus na Prática. Santiago de Compostela, Espanha: Universidade de Santiago de Compostela, Espanha, 2010.
Berber Sardinha, T. (2010). Corpus Linguistics. Murcia, Espanha: Universidade de Murcia, Espanha, 2010.

Corpus Brasileiro anotado, versão de 2 de julho de 2022, v. 6.3

Tony Berber Sardinha, a quem estamos gratos pela autorização para a disponibilização deste corpus, agradece à Fapesp o financiamento do projeto.

Estrutura do corpo

O corpo está apenas dividido em frases (s).

Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:

generoGêneroFonte
eiAcadêmicoArtigos
ejAcadêmicoTeses e dissertações
eqAcadêmicoAnais de congresso
enCinema e TVRoteiros
ee/efEducaçãoDiversos
ee/efEducaçãoDiversos
etEnciclopédiaWikipédia
faEsporteNarração de jogos de futebol
ekInformáticaManuais
edJornalismoRevistas
egJornalismoJornais
eoJornalismoHoróscopo
feJornalismoEntrevistas
em/exLegislaçãoDiversos
em/exLegislaçãoDiversos
ebLiteraturaContos
ecLiteraturaCrônicas
eh/ewLiteraturaVariados
eh/ewLiteraturaVariados
euLiteraturaBiografias
eaMedicinaBulas de remédio
epPolíticaAtas de assembléia legislativa
fbPolíticaDebates de TV
fcPolíticaPronunciamentos do presidente
fdPolíticaSessões do congresso
elReligiãoDiversos
evReligiãoBíblia
er/esTécnicoRelatórios e manuais diversos
er/esTécnicoRelatórios e manuais diversos

Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.

GéneroUnidades
ea 112.872
eb 60.906
ec 162.264
ed 493.902
ee 79.343.903
ef 3.025.965
eg 356.259.687
eh 1.372.688
ei 256.289.243
ej 153.262.834
et 2.193.673
eu 575.024
ev 874.402
ew 7.227.101
ex 8.659.018
fa 86.132
fb 21.934
fc 1.804.482
fd 75.656.246
fe 3.995.615

Dados quantitativos

Corpo CBRAS Número de formasNúmero de tipos
Unidades 10576619235145852
Total de palavras 8930438734620882
Palavras em minúscula 6140670331210168
Palavras com inicial maiúscula112115350923373
Palavras todas em maiúsculas 22086585353498
Números 1735988750849
Palavras com números2101185382541
Palavras mistas3014322348159
Pontuação58576460506531

Número de unidades estruturais

Atributo Número
p 7
s 39213589
mwe 11977777

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 64131442 97179964
Locuções 11977777 25458405
Palavras gráficas 893042032 893042032
Palavras simples 770403663 770403663
Palavras 846512882 893042032

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 209338369 27,17%
Verbos V.* 101557015 13,18%
Adjectivos ADJ.* 57574496 7,47%
Pronomes pessoais .*PERS.* 11383464 1,48%
Preposições PRP.* 146962666 19,08%
Conjunções K.* 34950369 4,54%
Advérbios ADV.* 31693770 4,11%
Determinantes .*DET.* 138754280 18,01%
Especificadores .*SPEC.* 11798249 1,53%
Numerais NUM.* 29488354 3,83%

^Voltar ao início da página

Corpo CD HAREM

O corpo CDHAREM contém as colecções douradas usadas no HAREM (avaliação conjunta de sistemas de Reconhecimento de Entidades Mencionadas), tanto no Primeiro (criadas em 2005 e 2006) como no Segundo (criada em 2008). A forma como este corpo foi criado encontra-se pormenorizadamente descrita em Rocha & Santos (2007).

Corpus Colecção Dourada do HAREM, a partir das versões das CD do Primeiro HAREM de 2007, anotado em 3 de Maio de 2010, criado a 15 de Maio de 2010, versão 3.2

Estrutura do corpo

  • Atributos estruturais:
  • Atributos posicionais relacionados com a anotação das entidades:

    Dados quantitativos

    Corpo CDHAREM Número de formasNúmero de tipos
    Unidades 29000131214
    Total de palavras 22576630985
    Palavras em minúscula 16561719241
    Palavras com inicial maiúscula327377956
    Palavras todas em maiúsculas 14001046
    Números 2887564
    Palavras com números12383
    Palavras mistas14995
    Pontuação15197229

    Número de unidades estruturais

    Atributo Número
    DOC 386
    TEXTO 386
    LOCAL 3494
    ORGANIZACAO 2621
    VALOR 1153
    COISA 640
    ACONTECIMENTO 501
    OBRA 863
    PESSOA 4014
    TEMPO 1970
    ABSTRACCAO 1195
    VARIADO 54
    OUTRO 110
    p 7262
    s 12530
    ALT 533
    EM 15908
    mwe 3913

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 12178 22866
    Locuções 3913 8318
    Palavras gráficas 225766 225766
    Palavras simples 194582 194582
    Palavras 210673 225766

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 45363 23,31%
    Verbos V.* 30984 15,92%
    Adjectivos ADJ.* 12191 6,27%
    Pronomes pessoais .*PERS.* 5198 2,67%
    Preposições PRP.* 35007 17,99%
    Conjunções K.* 10098 5,19%
    Advérbios ADV.* 13231 6,80%
    Determinantes .*DET.* 38627 19,85%
    Especificadores .*SPEC.* 3841 1,97%
    Numerais NUM.* 4667 2,40%

    ^Voltar ao início da página

    Corpo CETEMPúblico

    O CETEMPúblico contém cerca de 190 milhões de palavras extraídas do diário PÚBLICO. Veja-se a página oficial do CETEMPúblico para mais informação.

    Corpus CETEMPúblico anotado: versão 1.7 do texto, criada a 18 de setembro de 2001, anotada a 23 de março de 2022, v. 11.4

    Estamos gratos ao Público pela gentil disponibilização dos textos.
    Estamos especialmente gratos a José Vitor Malheiros, director da versão electrónica, sem o qual este corpo não existiria, e a Paulo Almeida pelo apoio técnico com os ficheiros electrónicos.

    Estrutura do corpo

    Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase], t [título ou subtítulo], a [identificação do autor], li [elemento de lista], marca.

    Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.

    semestretamanhocltclt-soccomdesecondopipolsoc
    91a739696865098118751308790755205982887737010072891263775
    91b142106011251937215047014279099469695732115021553982481226
    92a1529027025009375333450151720915254202092990039185093201860
    92b114889682214498437983013148231301968507952027038773007867
    93a152102813163763900181014893881686346597464034041733968966
    93b1213227422561845822140126672612694231076644025643273116756
    94a1534393630177018696010151694315820451469073032955803592993
    94b1482984027646298707330160624115792351726296029126373370069
    95a16606341275612310844320181498116172651925960030783774329203
    95b1564757322143649345420161416214265702060856032589464138133
    96a1192171316322200132421427312967835120623062509321345433915238
    96b116156321596073001546065796135124090161772419020353916699
    97a98872881361223016978131826367516192109162110616386773334789
    97b993134713553160243759123823265679593985956697018071993123217
    98a12889295145296903877241520426796910175987764290819740854354396
    98b894347610440920277020104908756914185737942930816438603073589
    Todos 31233010661559193872322546842179178162700242435031093939951254188776

    Dados quantitativos

    Corpo CETEMPUBLICO Número de formasNúmero de tipos
    Unidades 234481482975711
    Total de palavras 190601605942134
    Palavras em minúscula 143748137269685
    Palavras com inicial maiúscula23575701308239
    Palavras todas em maiúsculas 145535232754
    Números 182825310452
    Palavras com números23560514192
    Palavras mistas12561537986
    Pontuação1274611031319

    Número de unidades estruturais

    Atributo Número
    p 2569908
    s 7025565
    ext 1503050
    t 654622
    a 247215
    mwe 3396062
    marca 3629

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 10896703 18644466
    Locuções 3396062 7244126
    Palavras gráficas 190601605 190601605
    Palavras simples 164713013 164713013
    Palavras 179005778 190601605

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 38761933 23,53%
    Verbos V.* 24561240 14,91%
    Adjectivos ADJ.* 11573570 7,03%
    Pronomes pessoais .*PERS.* 2868148 1,74%
    Preposições PRP.* 34163612 20,74%
    Conjunções K.* 7702725 4,68%
    Advérbios ADV.* 9474774 5,75%
    Determinantes .*DET.* 34674168 21,05%
    Especificadores .*SPEC.* 3649235 2,22%
    Numerais NUM.* 4364400 2,65%

    ^Voltar ao início da página

    Corpo CHAVE

    O corpus CHAVE contém textos jornalísticos dos jornais Público e Folha de São Paulo dos anos de 1994 e 1995. Este corpus foi criado no âmbito da participação da língua portuguesa no CLEF. Para citar a colecção CHAVE, use Santos & Rocha (2005) ou uma descrição geral do CLEF em Rocha & Santos (2007). Pode obter o corpus completo em formato texto requerendo-o nesta página.

    Corpus CHAVE, criado em 19 de março de 2022, v. 9.3

    Agradecemos ao PÚBLICO e à Folha de São Paulo a gentil autorização de disponibilização dos textos.

    Estrutura do corpo

    Marcadores estruturais: DOC [documento], s [frase], CATEGORY (secção do jornal), AUTHOR (autor do texto), NE (lista de nomes próprios contidos no documento, usando a anotação do PALAVRAS).

    Dados quantitativos

    Corpo CHAVE Número de formasNúmero de tipos
    Unidades 125685139743884
    Total de palavras 99204684715686
    Palavras em minúscula 72649675227627
    Palavras com inicial maiúscula12745938232395
    Palavras todas em maiúsculas 88521127737
    Números 11050597440
    Palavras com números1044169793
    Palavras mistas15301018550
    Pontuação683212426576

    Número de unidades estruturais

    Atributo Número
    s 4761994
    t 580067
    p 2272586
    mwe 1646253
    data 210733
    DOC 210733
    CATEGORY 210733
    EM 210712

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 5786022 9714016
    Locuções 1646253 3518080
    Palavras gráficas 99204684 99204684
    Palavras simples 85972588 85972588
    Palavras 93404863 99204684

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 20745652 24,13%
    Verbos V.* 12931871 15,04%
    Adjectivos ADJ.* 5947622 6,92%
    Pronomes pessoais .*PERS.* 1483971 1,73%
    Preposições PRP.* 17393387 20,23%
    Conjunções K.* 3985971 4,64%
    Advérbios ADV.* 4666661 5,43%
    Determinantes .*DET.* 17637008 20,51%
    Especificadores .*SPEC.* 1774401 2,06%
    Numerais NUM.* 2389751 2,78%

    ^Voltar ao início da página

    Corpo Ciência Viva

    O corpo Ciência Viva é constituído por notícias de jornal promovidas pela plataforma "Ciência na Imprensa Regional". Esta é uma iniciativa da Ciência Viva - Agência Nacional para a Cultura Científica e Tecnológica, lançada em 2011, com o objetivo de estimular a comunicação de ciência na imprensa regional em Portugal.

    A plataforma "Ciência na Imprensa Regional", http://imprensaregional.cienciaviva.pt, é um sistema digital de edição e distribuição de conteúdos de divulgação científica da autoria de cientistas e profissionais de comunicação de ciência. Após edição e catalogação os conteúdos ficam disponíveis para publicação por todos os órgãos de comunicação social, locais e regionais.

    Corpo CIENCIAVIVA, criado a 31 de julho de 2022, v. 2.5

    Agradecemos a Carlos Catalão Alves, da Direção da Ciência Viva, esta colaboração.

    Estrutura do corpo

    O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

    Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

    Dados quantitativos

    Corpo CIENCIAVIVA Número de formasNúmero de tipos
    Unidades 79936042807
    Total de palavras 65658941968
    Palavras em minúscula 49982626448
    Palavras com inicial maiúscula766159330
    Palavras todas em maiúsculas 4832951
    Números 7797768
    Palavras com números1146540
    Palavras mistas479251
    Pontuação35059665

    Número de unidades estruturais

    Atributo Número
    p 12475
    s 27256
    texto 1122
    t 1123
    mwe 11539

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 30512 59766
    Locuções 11539 24534
    Palavras gráficas 656589 656589
    Palavras simples 572289 572289
    Palavras 614340 656589

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 146108 25,53%
    Verbos V.* 80215 14,02%
    Adjectivos ADJ.* 47738 8,34%
    Pronomes pessoais .*PERS.* 8207 1,43%
    Preposições PRP.* 114826 20,06%
    Conjunções K.* 27437 4,79%
    Advérbios ADV.* 29386 5,13%
    Determinantes .*DET.* 117942 20,61%
    Especificadores .*SPEC.* 11529 2,01%
    Numerais NUM.* 12394 2,17%

    ^Voltar ao início da página

    Corpo Colonia

    O Colonia é um corpo eletrônico anotado compilado para pesquisa sobre a história da língua portuguesa, com textos escritos entre 1500 e 1936, desenvolvido pela Universidade de Colónia (Köln). A sua página principal é http://corporavm.uni-koeln.de/colonia/ onde todas as informações estão disponíveis. Veja também Zampieri & Becker (2013). (Nota: À versão do AC/DC faltam ainda cinco textos.)

    Corpo COLONIA, criado a 4 de dezembro de 2022, v. 8.9

    Agradecemos a todos os que tornarem este projeto viável, por terem digitalizado e tornado públicas obras de autores brasileiros.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o identificador original do projeto Colonia), tituloobra (o nome da obra), autor (o autor da obra) e dataobra. Também se encontram marcados, nas obras em que são relevantes, partes como parte, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), data, variante e seculo, contendo o século em que a obra foi publicada.

    Dados quantitativos

    Corpo COLONIA Número de formasNúmero de tipos
    Unidades 6643875174524
    Total de palavras 4977678174024
    Palavras em minúscula 3865618110324
    Palavras com inicial maiúscula45817629333
    Palavras todas em maiúsculas 161633410
    Números 6196765
    Palavras com números8255
    Palavras mistas27891501
    Pontuação370640364

    Número de unidades estruturais

    Atributo Número
    p 279201
    s 279201
    texto 0
    parte 1721
    mwe 79356

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 159599 218449
    Locuções 79356 171685
    Palavras gráficas 4977678 4977678
    Palavras simples 4587544 4587544
    Palavras 4826499 4977678

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 927149 20,21%
    Verbos V.* 822277 17,92%
    Adjectivos ADJ.* 276779 6,03%
    Pronomes pessoais .*PERS.* 240230 5,24%
    Preposições PRP.* 695483 15,16%
    Conjunções K.* 283601 6,18%
    Advérbios ADV.* 328035 7,15%
    Determinantes .*DET.* 837771 18,26%
    Especificadores .*SPEC.* 130776 2,85%
    Numerais NUM.* 38802 0,85%

    ^Voltar ao início da página

    Corpo CONDIVport

    O corpus CONDIVport é o subcorpus de textos dos domínios do futebol, do vestuário/moda e da saúde das décadas de 50, 70 e 2000 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

    Este subcorpus contém 3981 extractos de textos de jornais desportivos portugueses e brasileiros, das décadas de 1950, 1970 e 2000; 4372 textos (agrupados em 82 extractos, ou seja, provenientes de 82 edições) de revistas de moda portuguesas e brasileiras, das décadas de 1950, 1970, e 1990-2000, assim como 1815 textos de revistas e jornais de saúde nos mesmos períodos.

    Corpus CONDIV, versão texto (futebol) de 15 de Fevereiro de 2006, versão texto (moda) de 18 de Dezembro de 2008, versão texto (saúde) de 2 de Fevereiro de 2010, anotado em 16 de setembro de 2022, v. 11.5

    Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.

    Estrutura do corpo

    O corpo está dividido em extractos, assinalados pelo atributo ext; cada extracto está dividido em parágrafos (atributo p) e frases (atributo s). Nos casos da moda e da saúde, os extractos estão ainda subdivididos em textos, que correspondem a notícias completas. Além disso, o CONDIVport contém os atributos posicionais decada (valores: 50, 70, 2000), variante (valores: PT, BR), texto (valores:t1 a tN) e fonte. Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

    TamanhoFutebolModa/vestuárioSaúde
    PT333341116792903168531337268
    BR26493791367115801410480854
    Todos 304640511182731818122

    Dados quantitativos

    Corpo CONDIV Número de formasNúmero de tipos
    Unidades 7132225158450
    Total de palavras 5558299155952
    Palavras em minúscula 418424981126
    Palavras com inicial maiúscula59219336060
    Palavras todas em maiúsculas 7663211056
    Números 712061657
    Palavras com números29141010
    Palavras mistas46491752
    Pontuação4014282124

    Número de unidades estruturais

    Atributo Número
    ext 4080
    texto 6222
    p 148503
    s 301038
    mwe 95928

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 249554 356821
    Locuções 95928 204030
    Palavras gráficas 5558299 5558299
    Palavras simples 4997448 4997448
    Palavras 5342930 5558299

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1212160 24,26%
    Verbos V.* 755561 15,12%
    Adjectivos ADJ.* 390572 7,82%
    Pronomes pessoais .*PERS.* 100328 2,01%
    Preposições PRP.* 898144 17,97%
    Conjunções K.* 255176 5,11%
    Advérbios ADV.* 302106 6,05%
    Determinantes .*DET.* 961349 19,24%
    Especificadores .*SPEC.* 95559 1,91%
    Numerais NUM.* 131445 2,63%

    ^Voltar ao início da página

    Corpo CONDIVport2

    O corpus CONDIVport2 é o subcorpus de textos dos domínios da política e da sociedade da década de 2010 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

    Este subcorpus contém por agora 66150 unidades do Jornal do Brasil (brasileiro) e 57542 do Diário de Notícias (português), perfazendo 344 textos.

    Corpus CONDIV2, versão texto de 15 de maio de 2017, anotado a 30 de julho de 2022, v. 2.2

    Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.

    Estrutura do corpo

    O corpo está dividido em textos, assinalados pelo atributo texto; cada texto está dividido em parágrafos (atributo p) e frases (atributo s). Além disso, o CONDIVport2 contém os atributos posicionais variante (valores: PT, BR), id (valores: 1 a tN), tema, e fonte. Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

    TamanhoFutebolModa/vestuárioSaúde
    PT333341116792903168531337268
    BR26493791367115801410480854
    Todos 304640511182731818122

    Dados quantitativos

    Corpo CONDIV2 Número de formasNúmero de tipos
    Unidades 20928920186
    Total de palavras 17248619989
    Palavras em minúscula 12804713455
    Palavras com inicial maiúscula230384588
    Palavras todas em maiúsculas 1343367
    Números 2184339
    Palavras com números18690
    Palavras mistas349140
    Pontuação9585182

    Número de unidades estruturais

    Atributo Número
    texto 520
    p 1260
    s 35
    mwe 2621

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 10536 19582
    Locuções 2621 5478
    Palavras gráficas 172486 172486
    Palavras simples 147426 147426
    Palavras 160583 172486

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 37048 25,13%
    Verbos V.* 22213 15,07%
    Adjectivos ADJ.* 9272 6,29%
    Pronomes pessoais .*PERS.* 1832 1,24%
    Preposições PRP.* 31575 21,42%
    Conjunções K.* 6952 4,72%
    Advérbios ADV.* 6481 4,40%
    Determinantes .*DET.* 30952 20,99%
    Especificadores .*SPEC.* 2805 1,90%
    Numerais NUM.* 3895 2,64%

    ^Voltar ao início da página

    Corpo CoNE

    O corpus CoNE (Correio Não Endereçado) é um corpus de mensagens não-endereçadas em português.

    O corpus foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 24 de Janeiro de 2006.

    Versão do corpus de 15 de janeiro de 2006, anotado a 31 de julho de 2022, v. 6.6

    Estrutura do corpo

    O corpus está dividido em mensagens, marcadas pelo atributo mens, com informação da data . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

    Dados quantitativos

    Corpo CONE Número de formasNúmero de tipos
    Unidades 91143146702
    Total de palavras 67175643499
    Palavras em minúscula 39427518341
    Palavras com inicial maiúscula13204112094
    Palavras todas em maiúsculas 397625616
    Números 14289767
    Palavras com números2916650
    Palavras mistas3445927
    Pontuação598622827

    Número de unidades estruturais

    Atributo Número
    p 19371
    s 31568
    mwe 7117
    autor 1761
    mens 1900
    assunto 1856
    div 0
    li 24574
    t 0
    cita 0

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 30328 105359
    Locuções 7117 15205
    Palavras gráficas 671756 671756
    Palavras simples 551192 551192
    Palavras 588637 671756

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 159366 28,91%
    Verbos V.* 68941 12,51%
    Adjectivos ADJ.* 42150 7,65%
    Pronomes pessoais .*PERS.* 8950 1,62%
    Preposições PRP.* 99805 18,11%
    Conjunções K.* 29962 5,44%
    Advérbios ADV.* 23372 4,24%
    Determinantes .*DET.* 85515 15,51%
    Especificadores .*SPEC.* 6031 1,09%
    Numerais NUM.* 24186 4,39%

    ^Voltar ao início da página

    Corpo C-Oral-Brasil

    O corpo C-ORAL-BRASIL foi criado pelo projeto C-Oral-Brasil, que "se dedica ao estudo da fala espontânea do português brasileiro, através da compilação de um corpus de textos orais produzidos em contexto natural".

    O corpo foi criado simplesmente passando o material distribuído no CD-ROM em formato texto (extensão .txt) pelo conjunto de programas de processamento e anotação sintática e semântica do AC/DC.

    As hesitações e repetições foram (por enquanto) removidas, e as pausas longas foram convertidas em ponto de fim de frase, e as pausas curtas em vírgula. Para tornar o texto mais parecido com as convenções gráficas do português escrito, a primeira letra de cada frase foi passada para maiúscula.

    Corpus CoralBrasil, anotado em 30 de julho de 2022, v. 5.3

    Estamos gratos a Heliana Mello e Tommaso Raso pela autorização de disponibilização do corpo através do AC/DC, e a toda a equipa do C-ORAL-BRASIL pela compilação do corpo.

    Estrutura do corpo

    O corpo está dividido em arquivos, marcados pelo atributo fich, contendo por sua vez falas, marcadas pelo atributo fala, com informação do nome ou identificação do falante . Além disso, sempre que começa um novo interveniente, está marcado através do atributo estrutural personagem. O corpo está além disso dividido em frases, s, obtidas através das pausas fornecidas pelos compiladores do C-ORAL-BRASIL.

    Dados quantitativos

    Corpo CORALBRASIL Número de formasNúmero de tipos
    Unidades 43550714588
    Total de palavras 26393714432
    Palavras em minúscula 16640810314
    Palavras com inicial maiúscula305693251
    Palavras todas em maiúsculas 19478300
    Números 128499
    Palavras com números
    Palavras mistas11436
    Pontuação2874116

    Número de unidades estruturais

    Atributo Número
    p 0
    s 30624
    fala 19393
    personagem 19391
    mwe 2910

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 23565 24834
    Locuções 2910 6144
    Palavras gráficas 263937 263937
    Palavras simples 232959 232959
    Palavras 259434 263937

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 36955 15,86%
    Verbos V.* 47840 20,54%
    Adjectivos ADJ.* 9874 4,24%
    Pronomes pessoais .*PERS.* 11451 4,92%
    Preposições PRP.* 18530 7,95%
    Conjunções K.* 18830 8,08%
    Advérbios ADV.* 25282 10,85%
    Determinantes .*DET.* 26399 11,33%
    Especificadores .*SPEC.* 5812 2,49%
    Numerais NUM.* 4238 1,82%

    ^Voltar ao início da página

    Corpo CORDIAL-SIN

    O Corpus Dialetal para o Estudo da Sintaxe/Syntax-oriented Corpus of Portuguese Dialects (CORDIAL-SIN) é um corpus anotado (POS-tags e treebank) representativo dos dialetos do português europeu (continentais e insulares). É constituído por transcrições (600.000 palavras) de discurso oral (livre e semidirigido) extraído de gravações do Arquivo Sonoro do Grupo de Dialetologia e Diacronia do Centro de Linguística da Universidade de Lisboa (CLUL), obtidas em 42 pontos do território continental e arquipélagos dos Açores e Madeira. O corpus foi construído no âmbito de projetos financiados pela FCT e deve ser referido como Martins, Ana Maria (coord.). [2000- ]. CORDIAL-SIN: Corpus Dialectal para o Estudo da Sintaxe / Syntax-oriented Corpus of Portuguese Dialects. CC licensed: CORDIAL-SIN by Centro de Linguística da Universidade de Lisboa. ISLRN: 144-935-399-699-8. URL: http://clul.ulisboa.pt/recurso/cordial-sin-syntax-oriented-corpus-portuguese-dialects.

    Mais informação sobre o corpus em: http://www.clul.ulisboa.pt/recurso/cordial-sin-syntax-oriented-corpus-portuguese-dialects

    E acesso ao CORDIAL-SIN-TreeBank (ISLRN: 337-389-991-117-2) em: acesso

    No AC/DC por enquanto apenas usamos o texto editado, mas é possível que incluamos a anotação numa segunda fase.

    Corpo CORDIAL-SIN, versão texto de janeiro de 2021, anotado em 31 de julho de 2022, v. 1.3

    Agradecemos calorosamente a Ana Maria Martins a pronta autorização para disponibilização do CORDIAL-SIN.

    Estrutura do corpo

    O corpo contém as etiquetas entrevista (documento), fala (fala de um interlocutor), personagem (identificação do interlocutor), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que excerto cada palavra pertence (ver lista das fontes).

    Aqui listamos os metadados associados a cada fonte (excerto de entrevista) do CORDIAL-SIN: Metadados CORDIAL-SIN

    E aqui a informação genérica relacionada com os informantes: Informantes CORDIAL-SIN

    Dados quantitativos

    Corpo CORDIAL-SIN Número de formasNúmero de tipos
    Unidades 148785529813
    Total de palavras 85028129680
    Palavras em minúscula 61256719578
    Palavras com inicial maiúscula1027394955
    Palavras todas em maiúsculas 1965819
    Números 13153
    Palavras com números2937110
    Palavras mistas678435
    Pontuação111698132

    Número de unidades estruturais

    Atributo Número
    p 48938
    s 98010
    entrevista 2058
    fala 48938
    personagem 48938
    mwe 15977

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 56459 58818
    Locuções 15977 32929
    Palavras gráficas 850281 850281
    Palavras simples 758534 758534
    Palavras 830970 850281

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 130719 17,23%
    Verbos V.* 164287 21,66%
    Adjectivos ADJ.* 19164 2,53%
    Pronomes pessoais .*PERS.* 39542 5,21%
    Preposições PRP.* 83252 10,98%
    Conjunções K.* 50878 6,71%
    Advérbios ADV.* 110174 14,52%
    Determinantes .*DET.* 121486 16,02%
    Especificadores .*SPEC.* 27739 3,66%
    Numerais NUM.* 9784 1,29%

    ^Voltar ao início da página

    Corpo CorTrad, lado português

    O corpo CorTrad (parte portuguesa) é um corpo paralelo multiversão português-inglês desenvolvido numa parceria COMET-Linguateca, ver CorTrad.

    Mais informação sobre o corpo pode ser obtida em Tagnin et al. (2009), Teixeira et al. (2012), e Santos et al. (2012).

    Versão do corpus de 3 de julho de 2022

    Estrutura do corpo

    O corpus tem informação de obra, autor, data, se é tradução ou original, nome dos tradutores, e classe [género: lit - literário, culi - culinário, jorn - jornalístico]. Além disso está também dividido em s [frases].

    Dados quantitativos

    Número de unidades estruturais

    Contabilização de multipalavras

    Distribuição por categoria gramatical


    ^Voltar ao início da página

    Corpo DHBB

    O corpo Dicionários Históricos Brasileiros contém o material de três obras de referência concebidas pelo Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas (CPDOC/FGV): (1) o Dicionário histórico-biográfico da Primeira República (DHBPR), com dados sobre o período que vai da Proclamação da República, em 1889, até a Revolução de 1930; (2) o Dicionário Histórico-Biográfico Brasileiro (DHBB), sobre o período pós-1930 até os dias atuais; e (3) o Dicionário da política republicana do Rio de Janeiro (DPRRJ), sobre a história do estado e da cidade do Rio de Janeiro desde a Proclamação da República. Para saber mais, consulte a página sobre este corpo no AC/DC.

    Os três dicionários histórico-biográficos foram concebidos em sua origem com o propósito básico de prover aos estudiosos e demais interessados na história do Brasil, informações sistematizadas sobre personagens e temas considerados relevantes do período e contexto ao qual se referem. Cada um deles é constituído por uma seleção de verbetes cuja produção e curadoria é de responsabilidade do Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas.

    No plano biográfico encontramos os ocupantes dos mais relevantes cargos políticos e de repercussão política, assim como participantes de episódios marcantes - presidentes da República, vice-presidentes, governadores, ministros de Estado, senadores, deputados, comandantes das forças armadas, embaixadores, presidentes das mais importantes federações, confederações de empregados e empregadores, jornalistas mais destacados, religiosos e presidentes de partidos políticos. No plano temático, encontramos os partidos políticos e as organizações e movimentos políticos, os principais acontecimentos histórico-políticos, as constituintes, constituições, alguns destacados decretos, leis e códigos; correntes e conceitos básicos da história política; as instituições econômicas e administrativas de maior repercussão no cenário nacional; as mais importantes organizações de trabalhadores e empresários; os jornais e revistas de impacto nacional, principais emissoras de rádio e televisão.

    Apenas o Dicionário Histórico-Biográfico Brasileiro (DHBB) encontra-se aberto e integralmente disponível para consulta no portal do CPDOC (https://cpdoc.fgv.br/acervo/dhbb). Os demais podem ser obtidos através da editora da FGV (https://editora.fgv.br/).

    Incorporada à Linguateca em 2018/2019, o objetivo é que a coleção possa ser interrogada através da linguagem CQP (Corpus Query Processor) e disponibilizada para treino, teste ou validação de sistemas que trabalham com processamento de linguagem natural, nas mais variadas formas. Trata-se portanto de um trabalho em progresso, que esperamos ajude a aprimorar as ferramentas criadas pela comunidade.

    Corpo DHBB, criado a 14 de setembro de 2022, v. 8.2

    Agradecemos à Fundação Getulio Vargas a autorização para a disponibilização do recurso.

    Estrutura do corpo

    O corpus contém as etiquetas texto (documento), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que verbete cada palavra pertence (ver lista dos verbetes), enquanto o atributo posicional entidade indica, para cada nome próprio, qual a sua correspondência real, tomando como "verdade" a mesma lista. Quando ainda não foi identificado, é marcado como "NS". Se se sabe que não está no DHBB por, por exemplo, não ser político, é marcado como "NV" (não verbetado).

    O atributo posicional cargos tem a lista dos cargos associados a cada verbetado, com a indicação de cargo, estado pelo qual exerceu o cargo, e período temporal.

    O atributo posicional sexo contém m se o biografado for masculino, f se for feminino, e N/A (não aplicável) se o verbete for temático.

    Prevemos para breve uma classificação mais fina dos textos, com informação de datas de nascimento, assim como alguma limpeza do material.

    Distribuição por tipo de texto

    Dados quantitativos

    Corpo DHBB Número de formasNúmero de tipos
    Unidades 15961021128026
    Total de palavras 14043229122410
    Palavras em minúscula 939868754746
    Palavras com inicial maiúscula245782440493
    Palavras todas em maiúsculas 1712524729
    Números 3844071220
    Palavras com números861418
    Palavras mistas131811464
    Pontuação6347485553

    Número de unidades estruturais

    Atributo Número
    p 12045
    s 461806
    texto 12044
    t 0
    mwe 155551

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 1046364 2372013
    Locuções 155551 336703
    Palavras gráficas 14043229 14043229
    Palavras simples 11334513 11334513
    Palavras 12536428 14043229

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 2782358 24,55%
    Verbos V.* 1390988 12,27%
    Adjectivos ADJ.* 742073 6,55%
    Pronomes pessoais .*PERS.* 152876 1,35%
    Preposições PRP.* 2966063 26,17%
    Conjunções K.* 405956 3,58%
    Advérbios ADV.* 338315 2,98%
    Determinantes .*DET.* 2315661 20,43%
    Especificadores .*SPEC.* 148525 1,31%
    Numerais NUM.* 476157 4,20%

    ^Voltar ao início da página

    Corpo DiaCLAV

    O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line. Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contêm textos semelhantes, embora não haja casos de artigos exactamente iguais.

    Corpus DIACLAV, versão texto criada em Abril de 2002, anotado a 1 de agosto de 2022, v. 6.5

    Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.

    Estrutura do corpo

    O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

    O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

    Dados quantitativos

    Corpo DIACLAV Número de formasNúmero de tipos
    Unidades 7709828111502
    Total de palavras 6568833109199
    Palavras em minúscula 492384658741
    Palavras com inicial maiúscula84120728630
    Palavras todas em maiúsculas 474003561
    Números 580391287
    Palavras com números69241122
    Palavras mistas2150848
    Pontuação3892372275

    Número de unidades estruturais

    Atributo Número
    p 24489
    s 210958
    art 9165
    t 9165
    a 5695
    mwe 116383

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 358742 703150
    Locuções 116383 246973
    Palavras gráficas 6568833 6568833
    Palavras simples 5618710 5618710
    Palavras 6093835 6568833

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1340566 23,86%
    Verbos V.* 866352 15,42%
    Adjectivos ADJ.* 354444 6,31%
    Pronomes pessoais .*PERS.* 82852 1,47%
    Preposições PRP.* 1168109 20,79%
    Conjunções K.* 270941 4,82%
    Advérbios ADV.* 317548 5,65%
    Determinantes .*DET.* 1176094 20,93%
    Especificadores .*SPEC.* 127224 2,26%
    Numerais NUM.* 130740 2,33%

    ^Voltar ao início da página

    Corpo Diáspora TL-PT

    O corpo Diáspora TL-PT (Diáspora Timor Leste - Portugal) é um corpo de 12 entrevistas semi-guiadas a membros da comunidade timorense em Portugal, perfazendo seis horas de gravação, compiladas e transcritas no âmbito do projeto Patterns of multilingualism among different generations of the East-Timorese diasporic community in Portugal liderado por Susana Afonso e Francesco Goglia da Universidade de Exeter, no Reino Unido, e financiado pela British Academy (Small Grant SG100616). Para mais informação veja-se Afonso & Goglia (2012).

    O corpo Diáspora TL-PT é composto por 12 ficheiros correspondendo cada um a uma entrevista.

    Os entrevistados, membros da comunidade timorense em Portugal, têm diferentes idades e foram escolhidos para, tanto quanto possível, representarem as diferentes vagas de migração para Portugal

    Como citar o corpo Diáspora TL-PT:

    • Goglia, Francesco e Afonso, Susana. 2012. "Multilingualism and Language Maintenance in the East Timorese Diaspora in Portugal". Ellipsis (Journal of the American Portuguese Studies Association), 10: 97-123.
    • Afonso, Susana e Goglia, Francesco. no prelo. "Linguistic innovations in the immigration context as initial stages of a partially restructured variety: evidence from SE constructions in the Portuguese of the East-Timorese diaspora in Portugal". Studies in Hispanic and Lusophone Linguistics.

    Corpus Diáspora TL - PT, anotado em outubro de 2013, criado a 29 de julho de 2022, v. 3.5

    Susana Afonso e Francesco Goglia agradecem a João Barros e Hercus Pereira pela recolha dos dados e a todos os que aceitaram participar no projecto.

    Estrutura do corpo

    Marcadores posicionais: ent Marcadores estruturais: entrevista, pergunta, resposta, p [parágrafo], s [frase].

    Dados quantitativos

    Corpo DIASPORA Número de formasNúmero de tipos
    Unidades 273893069
    Total de palavras 218773046
    Palavras em minúscula 164832335
    Palavras com inicial maiúscula2325529
    Palavras todas em maiúsculas 3216
    Números 13555
    Palavras com números
    Palavras mistas33
    Pontuação187019

    Número de unidades estruturais

    Atributo Número
    pergunta 245
    s 1035
    v 0
    resposta 213
    entrevista 5
    mwe 314

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 652 840
    Locuções 314 684
    Palavras gráficas 21877 21877
    Palavras simples 20353 20353
    Palavras 21319 21877

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 3474 17,07%
    Verbos V.* 3784 18,59%
    Adjectivos ADJ.* 789 3,88%
    Pronomes pessoais .*PERS.* 787 3,87%
    Preposições PRP.* 2842 13,96%
    Conjunções K.* 1291 6,34%
    Advérbios ADV.* 2378 11,68%
    Determinantes .*DET.* 3011 14,79%
    Especificadores .*SPEC.* 547 2,69%
    Numerais NUM.* 282 1,39%

    ^Voltar ao início da página

    Corpo ECI-EBR

    O corpo ECI-EBR foi criado pela ECI (European Corpus Initiative; Thomson et al. 1994) , baseado no corpo Borba-Ramsey. É uma selecção de excertos de obras brasileiras, contendo pelo menos discurso literário, didáctico e oral cuidado (discursos políticos). O corpo contém pouco mais de 700 mil palavras, e estava codificado em SGML muito leve (além do cabeçalho, apenas continha marcas de parágrafos), cf. a informação da ELSNET.

    Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.

    Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:

    Dentro do género jornalismo, incluímos as subdivisões: crónica, cultura, desporto, economia, entretenimento, generalidades, internacional, país, religião, reportagem, saúde, sociedade, título.

    Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.

    Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.

    Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).

    O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.

    Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:

    GéneroUnidadesTextos
    Literatura 384.961 157
    Informativo 203.436 288
    Jornalismo 89.086 537
    Oral 66.092 29
    Outros 16.419 33
    Indef 16.935 82
    AssuntosUnidadesTextos
    Agricultura 3458 8
    Arqueologia 1681 3
    Arte 4255 4
    Astrologia 1294 1
    Biologia 3662 3
    Botânica 6095 4
    Ciência 7402 9
    Clima 302 1
    Crónica 3761 11
    Culinária 1316 1
    Cultura 5795 44
    Desporto 8227 39
    Direito 1746 4
    Ecologia 326 2
    Economia 18441 60
    Edição 823 1
    Educação 1105 1
    Entretenimento 5084 31
    Entrevista 592 3
    Escutismo 424 1
    Estatística 1253 1
    Filatelia 1113 1
    Filosofia 3470 3
    Física 627 1
    Fotografia 1056 2
    Generalidades 5411 44
    Generealidades 120 1
    Geografia 3721 6
    Geologia 77 1
    Gestão 2247 2
    Hidrografia 1280 1
    História 35242 30
    Indef 484736 1
    Indústria 1375 3
    Internacional 8196 57
    Jornalismo 284 537
    Linguística 8066 11
    Literatura 8234 14
    Maternidade 344 1
    Medicina 16881 18
    Música 1717 3
    Oceanografia 302 1
    País 44860 206
    Política 19780 36
    Psicologia 2412 5
    Religião 21243 32
    Reportagem 1298 3
    Saúde 4615 19
    Sociedade 7399 58
    Sociologia 10432 15
    Título 174 12
    Turismo 188 1
    Zoologia 2987 15

    Corpus ECI-EBR, versão texto de Abril de 2002, anotado em 31 de julho de 2022, v. 11.6

    Agradecemos aos compiladores do corpus por o terem criado e tornado público.

    Estrutura do corpo

    A partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).

    A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.

    Marcadores estruturais: s, p, ext e marca.

    Dados quantitativos

    Corpo ECI-EBR Número de formasNúmero de tipos
    Unidades 92002760427
    Total de palavras 72418960211
    Palavras em minúscula 56909142117
    Palavras com inicial maiúscula7326812211
    Palavras todas em maiúsculas 19750
    Números 2001461
    Palavras com números5644
    Palavras mistas161101
    Pontuação53749213

    Número de unidades estruturais

    Atributo Número
    ext 1107
    p 12116
    s 44379
    marca 3
    mwe 13428

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 9565 33524
    Locuções 13428 29095
    Palavras gráficas 724189 724189
    Palavras simples 661570 661570
    Palavras 684563 724189

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 149007 22,52%
    Verbos V.* 114542 17,31%
    Adjectivos ADJ.* 45403 6,86%
    Pronomes pessoais .*PERS.* 24792 3,75%
    Preposições PRP.* 111301 16,82%
    Conjunções K.* 33787 5,11%
    Advérbios ADV.* 44536 6,73%
    Determinantes .*DET.* 124989 18,89%
    Especificadores .*SPEC.* 16247 2,46%
    Numerais NUM.* 9400 1,42%

    ^Voltar ao início da página

    Corpo ECI-EE

    O corpus ECI-EE foi criado pela ECI (European Corpus Initiative, Thomson et al. 1994), e contém o anúncio do programa comunitário ESPRIT . O corpus usa uma codificação SGML leve, com parágrafos e secções/artigos numerados, o que produziu alguns problemas em relação à separação de notas de rodapé (apenas indicadas graficamente por linhas iniciadas por tabuladores, e que tiveram de ser reconstituídas e colocadas após o parágrafo respectivo).

    Pode também consultar a informação da ELSNET.

    Corpus ECI-EE, versão de Abril de 2002, criado a 30 de julho de 2022, v. 7.7

    Agradecemos aos compiladores do corpus por o terem criado e tornado publico.

    Estrutura do corpo

    Marcadores estruturais: s, p, titulo, nota, marca.

    Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
    <marca num=3> <nota num=3>

    Dados quantitativos

    Corpo ECI-EE Número de formasNúmero de tipos
    Unidades 319004275
    Total de palavras 271114118
    Palavras em minúscula 217443327
    Palavras com inicial maiúscula1521353
    Palavras todas em maiúsculas 39085
    Números 466103
    Palavras com números55
    Palavras mistas1126
    Pontuação1216155

    Número de unidades estruturais

    Atributo Número
    p 180
    s 61
    t 0
    nota 10
    marca 25
    mwe 508

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 544 814
    Locuções 508 1118
    Palavras gráficas 27111 27111
    Palavras simples 25179 25179
    Palavras 26231 27111

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 7047 27,99%
    Verbos V.* 2930 11,64%
    Adjectivos ADJ.* 2421 9,62%
    Pronomes pessoais .*PERS.* 401 1,59%
    Preposições PRP.* 5408 21,48%
    Conjunções K.* 1270 5,04%
    Advérbios ADV.* 864 3,43%
    Determinantes .*DET.* 4981 19,78%
    Especificadores .*SPEC.* 353 1,40%
    Numerais NUM.* 717 2,85%

    ^Voltar ao início da página

    Corpo ENPCPUB (parte em português)

    O corpus ENPCPUB é um corpus de traduções para português de textos literários em inglês (Johansson et al., 1996, 1999; Oksefjell 1999). Apenas recebemos autorização para dar acesso a uma pequena parte do corpus ENPC, nomeadamente extractos dos textos (identificação do ENPC):
    CódigoAutorObraEditoraAnoTradutor(a)Título original
    JB1PPJulian BarnesAmor & C.aQuetzal Editores, Lisboa1994Helena CardosoTalking It Over.
    BC1Bruce ChatwinUtzQuetzal Editores, Lisboa1991José Luís LunaUtz.
    AH1Arthur HaileyRemédio AmargoDistribuidora Record, Rio de Janeiros/dA.B.P. de Lemos. Strong Medicine.
    JH1Joseph HellerImaginem queDifusão Cultural, Lisboa1991Cristina Rodriguez. Picture This.
    NG1Nadine GordimerA história do meu filhoEditora Siciliano, São Paulo1992Geraldo Galvão FerrazMy Son's Story.

    O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).

    Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).
    Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".

    Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado a 30 de julho de 2022, v. 8.9

    Estamos gratos a Stig Johansson e à equipa do ENPC pela colaboração na criação deste corpus, e aos detentores dos direitos de autor pela autorizações gentilmente cedidas.

    Estrutura do corpo

    Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.
    Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".
    O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).

    Dados quantitativos

    Corpo ENPCPUB Número de formasNúmero de tipos
    Unidades 9267712901
    Total de palavras 7279812881
    Palavras em minúscula 5764010245
    Palavras com inicial maiúscula70341669
    Palavras todas em maiúsculas 7148
    Números 13478
    Palavras com números112
    Palavras mistas1814
    Pontuação495320

    Número de unidades estruturais

    Atributo Número
    p 1682
    s 4369
    texto 5
    parte 8
    capitulo 25
    mwe 1388

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 2540 3206
    Locuções 1388 3124
    Palavras gráficas 72798 72798
    Palavras simples 66468 66468
    Palavras 70396 72798

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 13259 19,95%
    Verbos V.* 12786 19,24%
    Adjectivos ADJ.* 3882 5,84%
    Pronomes pessoais .*PERS.* 3086 4,64%
    Preposições PRP.* 11103 16,70%
    Conjunções K.* 3805 5,72%
    Advérbios ADV.* 5147 7,74%
    Determinantes .*DET.* 12050 18,13%
    Especificadores .*SPEC.* 1872 2,82%
    Numerais NUM.* 777 1,17%

    ^Voltar ao início da página

    Corpo Floresta

    O corpo FLORESTA contém o material anotado criado no âmbito do projecto Floresta Sintá(c)tica , em particular o Bosque, a Floresta Virgem e a Amazónia. Informação detalhada sobre o conteúdo textual encontra-se aqui

    Corpus Floresta, a partir do material da Floresta de Junho de 2010, anotado semanticamente a 22 de Junho de 2013, v. 2.5

    Estrutura do corpo

  • Atributos estruturais:
  • Atributos posicionais:

    Dados quantitativos

    Corpo FLORESTA Número de formasNúmero de tipos
    Unidades 7252530182669
    Total de palavras 6046536179536
    Palavras em minúscula 452998488948
    Palavras com inicial maiúscula73825558232
    Palavras todas em maiúsculas 279753959
    Números 504011606
    Palavras com números3760935
    Palavras mistas58142248
    Pontuação3213013132

    Número de unidades estruturais

    Atributo Número
    ext 24398
    s 326667
    mwe 103159

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 284084 503417
    Locuções 103159 217445
    Palavras gráficas 6046536 6046536
    Palavras simples 5325674 5325674
    Palavras 5712917 6046536

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1238732 23,26%
    Verbos V.* 846993 15,90%
    Adjectivos ADJ.* 350522 6,58%
    Pronomes pessoais .*PERS.* 117329 2,20%
    Preposições PRP.* 958823 18,00%
    Conjunções K.* 272888 5,12%
    Advérbios ADV.* 325270 6,11%
    Determinantes .*DET.* 1036508 19,46%
    Especificadores .*SPEC.* 106992 2,01%
    Numerais NUM.* 99122 1,86%

    ^Voltar ao início da página

    Corpo FrasesPB

    O corpus FrasesPB é um conjunto de frases em português brasileiro.

    O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).

    Corpus FrasesPB, versão texto de 17 de Abril de 2002, anotado a 30 de julho de 2022, v. 7.7

    Estrutura do corpo

    Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo. Em dois casos, contudo, o algoritmo separador de frases ainda conseguiu detectar unidades mais pequenas, dando origem pois a dois parágrafos com duas frases cada.

    Marcadores estruturais: s, p.

    Dados quantitativos

    Corpo FRASESPB Número de formasNúmero de tipos
    Unidades 232396018
    Total de palavras 191606006
    Palavras em minúscula 164195262
    Palavras com inicial maiúscula1048525
    Palavras todas em maiúsculas 1616
    Números 4935
    Palavras com números
    Palavras mistas55
    Pontuação73112

    Número de unidades estruturais

    Atributo Número
    p 648
    s 652
    mwe 374

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 256 418
    Locuções 374 808
    Palavras gráficas 19160 19160
    Palavras simples 17934 17934
    Palavras 18564 19160

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 4602 25,66%
    Verbos V.* 2900 16,17%
    Adjectivos ADJ.* 1423 7,93%
    Pronomes pessoais .*PERS.* 358 2,00%
    Preposições PRP.* 3359 18,73%
    Conjunções K.* 984 5,49%
    Advérbios ADV.* 984 5,49%
    Determinantes .*DET.* 3620 20,19%
    Especificadores .*SPEC.* 397 2,21%
    Numerais NUM.* 160 0,89%

    ^Voltar ao início da página

    Corpo FrasesPP

    O corpus FrasesPP é um conjunto de frases em português de Portugal, compilado para o teste de uma gramática computacional, desenvolvido no Grupo Científico IBM-INESC (depois Grupo de Linguagem Natural do INESC) de 1990 a 1992. (Santos (ed.) 1992; Medeiros et al. 1993). Encontrava-se em texto simples e em formato LaTeX.

    Corpo FrasesPP, criado a 22 de Junho de 2013, anotado a 9 de março de 2022, v. 8.6

    Estrutura do corpo

    Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo.

    Marcadores estruturais: s, p.

    Os valores da anotação original encontram-se no atributo posicional pos2. Os valores deste atributo (A, N, V, VPP, PF, PONT e CL) foram atribuídos automaticamente e depois revistos manualmente nos casos em que as palavras obtiveram mais do que uma categoria.

    Dados quantitativos

    Corpo FRASESPP Número de formasNúmero de tipos
    Unidades 199685102
    Total de palavras 162575088
    Palavras em minúscula 135014242
    Palavras com inicial maiúscula1080568
    Palavras todas em maiúsculas 96
    Números 9548
    Palavras com números44
    Palavras mistas
    Pontuação73714

    Número de unidades estruturais

    Atributo Número
    p 594
    s 594
    mwe 299

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 285 446
    Locuções 299 655
    Palavras gráficas 16257 16257
    Palavras simples 15156 15156
    Palavras 15740 16257

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 3684 24,31%
    Verbos V.* 2282 15,06%
    Adjectivos ADJ.* 1286 8,49%
    Pronomes pessoais .*PERS.* 404 2,67%
    Preposições PRP.* 2840 18,74%
    Conjunções K.* 783 5,17%
    Advérbios ADV.* 939 6,20%
    Determinantes .*DET.* 3101 20,46%
    Especificadores .*SPEC.* 367 2,42%
    Numerais NUM.* 203 1,34%

    ^Voltar ao início da página

    Corpo Mariano Gago

    O corpus JMG contém artigos e notícias associadas a José Mariano Gago: obituários; testemunhos por ocasião da sua morte a 17 de abril de 2015; textos escritos por ele: discursos, cartas, outros textos; entrevistas; artigos sobre ele e a sua política; depoimentos de homenagem. Todos os textos em questão foram retirados da internete, exceto os que já constavam dos outros corpos jornalísticos do AC/DC. Veja a página sobre o corpo para mais informação.

    Sobretudo em relação às notícias do óbito, pode haver muito material repetido.

    Em maio de 2018 foram acrescentados muito mais textos anteriores que tinham sido preservados pelo Arquivo.pt, e espera-se continuar a aumentar o corpo dessa forma.

    Corpo JMG, criado em 13 de abril de 2020, v. 5.5

    Agradecemos profundamente ao Professor José Mariano Gago a sua atuação em prol da ciência e da investigação em torno do processamento da língua portuguesa.

    Estrutura do corpo

    O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

    Os valores de classe estão por enquanto marcados da seguinte forma: noticia, se é uma notícia de jornal (ou texto publicado num blogue) após a sua morte; discurso se é um discurso (ou outro texto escrito por Mariano Gago), entrevista se é uma entrevista feita a Mariano Gago. outros marca textos escritos com menção a Mariano Gago antes da sua morte, e vão de críticas a reportagens a simples descrições de acontecimentos. Finalmente, sitiohomenagem contém todos os textos colocado em marianogago.org.

    Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

    Distribuição por tipo de texto

    A sua distribuição, correspondendo à versão 5.5, é a seguinte:

    TipoDescriçãoTamanho
    noticia texto noticioso 166.538
    discurso discursos 17.865
    entrevista entrevistas 45.268
    outros outros 337.895
    sitiohomenagem sítio de homenagem 37.013

    Dado o número considerável de diferentes fontes, colocamos a origem de cada texto em ficheiros separados

    Mais textos (de Mariano Gago) previstos:

    Dados quantitativos

    Corpo JMG Número de formasNúmero de tipos
    Unidades 69683932111
    Total de palavras 57131831831
    Palavras em minúscula 42247321178
    Palavras com inicial maiúscula824356328
    Palavras todas em maiúsculas 5308939
    Números 5715356
    Palavras com números25490
    Palavras mistas24492
    Pontuação33273253

    Número de unidades estruturais

    Atributo Número
    p 11381
    s 23292
    texto 1375
    t 1576
    mwe 8350

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 33094 67748
    Locuções 8350 17886
    Palavras gráficas 571318 571318
    Palavras simples 485684 485684
    Palavras 527128 571318

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 115191 23,72%
    Verbos V.* 69624 14,34%
    Adjectivos ADJ.* 35181 7,24%
    Pronomes pessoais .*PERS.* 8668 1,78%
    Preposições PRP.* 100749 20,74%
    Conjunções K.* 26931 5,54%
    Advérbios ADV.* 26612 5,48%
    Determinantes .*DET.* 101750 20,95%
    Especificadores .*SPEC.* 11707 2,41%
    Numerais NUM.* 9796 2,02%

    ^Voltar ao início da página

    Corpo LeMe

    O LeMe-PT (Leaflets of Medicine) é um corpo constituído por bulas de medicamentos comercializados em Portugal. Para cada substância ativa foi selecionado um medicamento (forma comercial) para o representar. Mais detalhes em: https://github.com/ambs/LeMe/

    Corpo LeMe, criado a 1 de agosto de 2022, v. 1.3

    Agradecemos a Alberto Simões a autorização para a disponibilização do recurso.

    Estrutura do corpo

    Os textos vinham marcados com <item> e <title>, que foram substituídos por - e por <t> na versão do AC/DC.

    O corpo está dividido em textos separados, marcados pelo atributo texto, com informação do identificador do mesmo.

    Os textos têm também os marcadores estruturais adicionais p [parágrafo] e s [frase].

    Como atributos posicionais adicionais temos o fonte que indica qual o nome do medicamento

    Dados quantitativos

    Corpo LEME Número de formasNúmero de tipos
    Unidades 347480443227
    Total de palavras 255704041919
    Palavras em minúscula 189423221819
    Palavras com inicial maiúscula2806549428
    Palavras todas em maiúsculas 256422185
    Números 587961905
    Palavras com números4724810
    Palavras mistas4013826
    Pontuação165655796

    Número de unidades estruturais

    Atributo Número
    p 143514
    s 178570
    t 13985
    texto 1191
    mwe 36227

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 108864 184428
    Locuções 36227 76248
    Palavras gráficas 2557040 2557040
    Palavras simples 2296364 2296364
    Palavras 2441455 2557040

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 622540 27,11%
    Verbos V.* 351356 15,30%
    Adjectivos ADJ.* 219872 9,57%
    Pronomes pessoais .*PERS.* 33621 1,46%
    Preposições PRP.* 371232 16,17%
    Conjunções K.* 137302 5,98%
    Advérbios ADV.* 106182 4,62%
    Determinantes .*DET.* 353187 15,38%
    Especificadores .*SPEC.* 21133 0,92%
    Numerais NUM.* 75754 3,30%

    ^Voltar ao início da página

    Corpo Literateca

    O corpo Literateca inclui todas as obras literárias presentes nos corpos disponibilizados pela Linguateca (Vercial, OBras, NOBRE, Tycho Brahe e Colonia) de forma a permitir que esse material possa ser interrogado duma só vez, evitando ao mesmo tempo sobreposições.

    Os corpos que lhe deram origem continuam a existir e a serem mantidos independentemente (e prioritariamente). A Literateca é apenas uma forma mais simples de interagir com todos se o utilizador assim o desejar.

    Tal como o corpo TODOS, tem apenas como atributos adicionais os atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas dos corpos individuais que o constituem.

    No caso da sobreposição entre os vários corpos, usamos a ordem enunciada anteriormente. "Preferimos" os textos que se encontram no Vercial, etc.

    Corpo Literateca, criado a 4 de dezembro de 2022, v. 10.6

    Estrutura do corpo

    Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

    Para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

    Dados quantitativos

    Corpo LITERATECA Número de formasNúmero de tipos
    Unidades 52028692578350
    Total de palavras 37287748575935
    Palavras em minúscula 28555016303822
    Palavras com inicial maiúscula3598865115453
    Palavras todas em maiúsculas 12348111944
    Números 848182100
    Palavras com números1352714
    Palavras mistas323018216
    Pontuação27082072081

    Número de unidades estruturais

    Atributo Número
    p 808465
    s 2313340
    t 2191
    v 294795
    obra 973
    capitulo 689
    parte 473
    tit 0
    autor 861
    tituloobra 861
    div 5812
    mwe 548122
    fala 40362
    personagem 47292

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 1098152 1804289
    Locuções 548122 1185600
    Palavras gráficas 37287748 37287748
    Palavras simples 34297859 34297859
    Palavras 35944133 37287748

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 7121292 20,76%
    Verbos V.* 6020939 17,55%
    Adjectivos ADJ.* 2224389 6,49%
    Pronomes pessoais .*PERS.* 1746221 5,09%
    Preposições PRP.* 5321910 15,52%
    Conjunções K.* 1945346 5,67%
    Advérbios ADV.* 2268300 6,61%
    Determinantes .*DET.* 6431494 18,75%
    Especificadores .*SPEC.* 939455 2,74%
    Numerais NUM.* 332201 0,97%

    ^Voltar ao início da página

    Corpo Marielle, presente!

    O corpus Marielle, presente! contém textos escritos por Marielle Franco, e textos escritos sobre ela. Veja-se esta página para uma defesa deste projeto.

    Sobretudo em relação às notícias sobre a sua morte, pode haver muito material repetido.

    Este corpo está ainda em construção.

    Corpus MARIELLE, criado a 30 de julho de 2022, v. 3.4

    Agradecemos a todos os que colaboraram na coleção dos textos e notícias...

    Estrutura do corpo

    O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

    Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

    Distribuição por tipo de texto

    Dados quantitativos

    Corpo MARIELLE Número de formasNúmero de tipos
    Unidades 50207326528
    Total de palavras 40583926092
    Palavras em minúscula 27493016205
    Palavras com inicial maiúscula733735817
    Palavras todas em maiúsculas 74151705
    Números 5670400
    Palavras com números425181
    Palavras mistas1062173
    Pontuação23766384

    Número de unidades estruturais

    Atributo Número
    p 10285
    s 20438
    texto 624
    t 0
    mwe 4840

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 30818 62326
    Locuções 4840 10194
    Palavras gráficas 405839 405839
    Palavras simples 333319 333319
    Palavras 368977 405839

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 84989 25,50%
    Verbos V.* 46232 13,87%
    Adjectivos ADJ.* 24123 7,24%
    Pronomes pessoais .*PERS.* 5104 1,53%
    Preposições PRP.* 69571 20,87%
    Conjunções K.* 16295 4,89%
    Advérbios ADV.* 12564 3,77%
    Determinantes .*DET.* 67088 20,13%
    Especificadores .*SPEC.* 5972 1,79%
    Numerais NUM.* 8770 2,63%

    ^Voltar ao início da página

    Corpo Moçambula

    O corpus Moçambula foi criado no âmbito da tese de mestrado de Torun Reite na Universidade de Oslo, Reite (2013), e contém cartas de leitores publicadas em 2012 em vários jornais moçambicanos.

    Os jornais incluídos, e marcados no atributo posicional fonte são: Diário de Moçambique, Jornal A verdade, Notícias, O País e Savana.

    TipoDescriçãoTamanho
    DdM Diário de Moçambique 24.331
    VerdJornal A verdade 11.253
    Not Notícias 15.640
    PaísO País 7.250
    Sav Savana 2.719

    Corpo MOÇAMBULA, versão texto de novembro de 2012, anotado em 30 de julho de 2022, v. 4.4

    Estrutura do corpo

    Os textos foram transcritos manualmente ou obtidos através do sítio do jornal.

    O corpo está dividido em mensagens/textos separados, marcadas pelo atributo texto, com informação do identificador do mesmo.

    Os textos têm também os marcadores estruturais adicionais p [parágrafo] e s [frase].

    Como atributos posicionais adicionais temos o fonte que indica em que jornal o texto foi publicado.

    Dados quantitativos

    Corpo MOCAMBULA Número de formasNúmero de tipos
    Unidades 6892210762
    Total de palavras 5849810718
    Palavras em minúscula 477148426
    Palavras com inicial maiúscula45331421
    Palavras todas em maiúsculas 267160
    Números 400109
    Palavras com números2014
    Palavras mistas5928
    Pontuação313044

    Número de unidades estruturais

    Atributo Número
    p 133
    s 2285
    texto 94
    mwe 1134

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 1540 2657
    Locuções 1134 2471
    Palavras gráficas 58498 58498
    Palavras simples 53370 53370
    Palavras 56044 58498

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 12604 23,62%
    Verbos V.* 9041 16,94%
    Adjectivos ADJ.* 3434 6,43%
    Pronomes pessoais .*PERS.* 1408 2,64%
    Preposições PRP.* 9764 18,29%
    Conjunções K.* 3167 5,93%
    Advérbios ADV.* 3352 6,28%
    Determinantes .*DET.* 10648 19,95%
    Especificadores .*SPEC.* 1530 2,87%
    Numerais NUM.* 720 1,35%

    ^Voltar ao início da página

    Corpo Museu da Pessoa

    O corpus Museu da Pessoa é um corpus de cento e sete entrevistas transcritas pelo Núcleo Português do Museu da Pessoa (ver Almeida et al. 2000) no âmbito dos seus projectos, mais cento e seis entrevistas transcritas pelo Museu da Pessoa brasileiro. As entrevistas portuguesas sofreram um processo de revisão adicional.

    Em "XML simples", as entrevistas completas do Museu da Pessoa encontram-se aqui num formato com separação de frases e marcação de pergunta e resposta:

    Corpus Museu da Pessoa, versão do texto português de Abril de 2005, versão do texto brasileiro de Dezembro de 2008, anotado em 1 de agosto de 2022, v. 8.5

    Agradecemos ao Núcleo Português do Museu da Pessoa a disponibilização dos textos. Estamos gratos ao Museu da Pessoa brasileiro por disponibilzarem os textos na Internet, e a Lise Bianchini pelo seu tratamento. Agradecemos a Paula Taveira pela revisão (em curso) dos textos portugueses.

    Estrutura do corpo

    Marcadores estruturais: entrevista [entrevista completa], p [parágrafo], s [frase], resposta, pergunta, legenda [legenda de uma fotografia], introd [texto de introdução antes da entrevista]

    Para cada entrevista temos a indicação dos dados possíveis sobre cada entrevistado aqui.

    VarianteTamanho
    BR 1182544
    PT 346241
    SexoTamanho
    F 430.725
    M 1.073.840
    X 24.220

    Dados quantitativos

    Corpo MUSEUDAPESSOA Número de formasNúmero de tipos
    Unidades 183883442645
    Total de palavras 142294642526
    Palavras em minúscula 111621430242
    Palavras com inicial maiúscula1438018279
    Palavras todas em maiúsculas 4867395
    Números 8627343
    Palavras com números11874
    Palavras mistas215111
    Pontuação106394117

    Número de unidades estruturais

    Atributo Número
    mwe 24442
    p 11770
    s 93465
    entrevista 215
    pergunta 11015
    resposta 11351
    legenda 46
    introd 4
    corr 0

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 35668 57907
    Locuções 24442 52075
    Palavras gráficas 1422946 1422946
    Palavras simples 1312964 1312964
    Palavras 1373074 1422946

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 236453 18,01%
    Verbos V.* 264713 20,16%
    Adjectivos ADJ.* 51054 3,89%
    Pronomes pessoais .*PERS.* 75465 5,75%
    Preposições PRP.* 168858 12,86%
    Conjunções K.* 79562 6,06%
    Advérbios ADV.* 133633 10,18%
    Determinantes .*DET.* 223220 17,00%
    Especificadores .*SPEC.* 41988 3,20%
    Numerais NUM.* 18942 1,44%

    ^Voltar ao início da página

    Corpo Natura/Minho

    O corpus Natura/Minho é um corpus jornalístico contendo texto do jornal regional português Diário do Minho, criado no âmbito do projecto Natura. O corpus (correspondente à versão 3 diariodoMinho.3.cor) contém notícias completas, separadas em edições e marcadas pela data. No texto encontravam-se assinalados, numa codificação de tipo XML, títulos, assinaturas e legendas, além de conter marcação (markup) de parágrafos e de formatação, esta última retirada do corpus final.

    Segundo o projecto Natura, o corpus original é assim descrito:
    Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de provas).

    Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.

    Corpus Natura/Minho (de 9 de Março de 2001), versão texto criada em Abril de 2002, anotado a 1 de agosto de 2022, v. 9.4

    Estamos gratos à direcção do Diário do Minho pela gentil autorização de disponibilização dos tex

    Estrutura do corpo

    A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. A partir da versão 3.0, introduzimos a anotação li para assinalar listas.

    Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.

    Dados quantitativos

    Corpo NATMINHO Número de formasNúmero de tipos
    Unidades 220354769748
    Total de palavras 174746168143
    Palavras em minúscula 128381238882
    Palavras com inicial maiúscula24973017403
    Palavras todas em maiúsculas 156842146
    Números 223751206
    Palavras com números2978448
    Palavras mistas991496
    Pontuação1201271580

    Número de unidades estruturais

    Atributo Número
    p 56923
    s 70240
    assinatura 542
    legenda 782
    t 7668
    art 5116
    marca 0
    mwe 27013

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 105806 219720
    Locuções 27013 57544
    Palavras gráficas 1747461 1747461
    Palavras simples 1470197 1470197
    Palavras 1603016 1747461

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 372022 25,30%
    Verbos V.* 207923 14,14%
    Adjectivos ADJ.* 100664 6,85%
    Pronomes pessoais .*PERS.* 19549 1,33%
    Preposições PRP.* 320577 21,81%
    Conjunções K.* 68998 4,69%
    Advérbios ADV.* 65817 4,48%
    Determinantes .*DET.* 313498 21,32%
    Especificadores .*SPEC.* 28578 1,94%
    Numerais NUM.* 44668 3,04%

    ^Voltar ao início da página

    Corpo NOBRE

    O corpo NOBRE (Novas OBRas publicadas na Europa) é um corpo de textos literários em português que já alcançaram o domínio público, criado para simplificar a construção do lado português do ELTEC, no âmbito do projeto COST "Distant Reading for European Literary History".

    Corpo NOBRE, criado a 3 de outubro de 2022, v. 8.6

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

    Dados quantitativos

    Corpo NOBRE Número de formasNúmero de tipos
    Unidades 11912387239400
    Total de palavras 8679020238107
    Palavras em minúscula 6708689143810
    Palavras com inicial maiúscula73778535370
    Palavras todas em maiúsculas 116512118
    Números 88161016
    Palavras com números391207
    Palavras mistas71222996
    Pontuação638863587

    Número de unidades estruturais

    Atributo Número
    p 172198
    s 497156
    v 0
    obra 151
    capitulo 0
    parte 0
    tit 0
    autor 151
    tituloobra 151
    div 41
    mwe 126594
    fala 555
    personagem 560
    t 2

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 247807 374221
    Locuções 126594 276039
    Palavras gráficas 8679020 8679020
    Palavras simples 8028760 8028760
    Palavras 8403161 8679020

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1597806 19,90%
    Verbos V.* 1460928 18,20%
    Adjectivos ADJ.* 507080 6,32%
    Pronomes pessoais .*PERS.* 426292 5,31%
    Preposições PRP.* 1245914 15,52%
    Conjunções K.* 441293 5,50%
    Advérbios ADV.* 547084 6,81%
    Determinantes .*DET.* 1494777 18,62%
    Especificadores .*SPEC.* 216637 2,70%
    Numerais NUM.* 67626 0,84%

    ^Voltar ao início da página

    Corpo OBras

    O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio, a Universidade Estadual do Maranhão (UEMA) e Anya Campos. Para mais informações veja-se a página do projeto.

    Corpo OBras, criado a 4 de dezembro de 2022, v. 13.3

    Agradecemos a todos os que tornarem este projeto viável, por terem digitalizado e tornado públicas obras de autores brasileiros.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo], t [título] e s [frase], e poesia [partes em poesia].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

    Dados quantitativos

    Corpo OBRAS Número de formasNúmero de tipos
    Unidades 14632490238702
    Total de palavras 10373756238035
    Palavras em minúscula 8131462140384
    Palavras com inicial maiúscula88781439349
    Palavras todas em maiúsculas 116473099
    Números 9518961
    Palavras com números361199
    Palavras mistas26451510
    Pontuação802110545

    Número de unidades estruturais

    Atributo Número
    p 235432
    s 638484
    t 1860
    v 23038
    obra 330
    capitulo 689
    parte 9
    tit 0
    autor 330
    tituloobra 330
    div 2610
    mwe 179772

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 260996 359803
    Locuções 179772 390918
    Palavras gráficas 10373756 10373756
    Palavras simples 9623035 9623035
    Palavras 10063803 10373756

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 2022941 21,02%
    Verbos V.* 1744135 18,12%
    Adjectivos ADJ.* 622878 6,47%
    Pronomes pessoais .*PERS.* 484158 5,03%
    Preposições PRP.* 1495311 15,54%
    Conjunções K.* 526803 5,47%
    Advérbios ADV.* 664831 6,91%
    Determinantes .*DET.* 1834281 19,06%
    Especificadores .*SPEC.* 249845 2,60%
    Numerais NUM.* 84613 0,88%

    ^Voltar ao início da página

    Corpo PANTERA, lado português

    O corpo PANTERA (Portuguese And Norwegian Texts for Education, Research and Acquisition of relevant knowledge) é um corpo paralelo português-norueguês, ver PANTERA.

    Mais informação sobre o corpo pode ser obtida em Santos (2019)

    Versão do corpus de 22 de maio de 2021

    Estrutura do corpo

    O corpus está dividido em textos, e tem informação de data, data da tradução, variante e variante da tradução. Além disso está também dividido em s [frases].

    Dados quantitativos

    Número de unidades estruturais

    Contabilização de multipalavras

    Distribuição por categoria gramatical


    ^Voltar ao início da página

    Corpo P'lo Norte

    O corpo P'lo norte é constituído por blogues de portugueses sobre a Noruega, compilados manualmente.

    O corpus Plonorte é composto (neste momento) por 38 textos.

    Corpo PLONORTE, anotado a 30 de julho de 2022, v. 3.5

    Corpo compilado por Ana Rita Ferreira e Diana Santos.

    Estrutura do corpo

    Marcadores posicionais: estatuto [visitante, residente, outro], autor, data, sexo

    Marcadores estruturais: texto [nome do texto], p [parágrafo], s [frase].

    Distribuições

    A sua distribuição, correspondendo à versão 2.0, é a seguinte:

    EstatutoTamanho
    outro 5.363
    residente 17.078
    visitante 21.274
    SexoTamanho
    F 30.369
    M 13.346
    BlogueTamanho
    alesund 698
    analogias 187
    autocarro 463
    barbaros 623
    bergen 218
    bolso 948
    breivik 3.719
    cabonorte 1.652
    chuvabagas 568
    dicas 1.054
    dicastrabalho 1.065
    duas 649
    entrevista 1.652
    exemplar 1.029
    festival 477
    fiordes 783
    fofocas 388
    fondant 370
    gratulerer 1.825
    gravidez 229
    idilico 669
    limpar 834
    mapa 576
    mochila 5.492
    multa 152
    noruega 1.563
    olha 724
    passeando 3.069
    Paulo 144
    pipocas 119
    princesas 3.337
    sardinha 915
    svalbard 604
    teambuilding 107
    trondheim 970
    trondheim2 2.331
    tubarao 1.470
    viajarcriancas 2.042

    Distribuição por fonte

    fofocasM23.01.07residentehttp://umportuguesnanoruega.blogspot.no/2007/01/dia-19.html
    fondantF10.02.10residentehttp://webcache.googleusercontent.com/search?q=cache:YAlq1opGVbIJ:eduarda-na-noruega.blogspot.com/&num=1&client=firefox-b-ab&hl=pt-PT&gl=pt&strip=1&vwsrc=0
    multaM14.07.10residentehttp://tugananoruega.blogspot.no/2010/07/multa.html
    dicastrabalhoM16.06.08residentehttp://portugalilainen.blogspot.pt/2008/06/trabalhar-na-noruega-dicas.html
    festivalF14.05.17residentehttp://quiosquedajoana.blogs.sapo.pt/da-noruega-para-portugal-com-amor-112310
    entrevistaF27.02.16residentehttps://halfway2happiness.wordpress.com/2016/02/27/portugal-no-globo-noruega/
    sardinhaF08.03.17residentehttps://umasardinhananoruega.wordpress.com/2017/03/08/nas-minhas-34-voltas-ao-sol/
    PauloM18.05.07residentehttp://terrasgelidasdonorte.blogspot.no/2007/05/17-de-maio-17-mai.html
    princesasF11.10.10residentehttp://in-bergen.blogspot.no/2010/10/princesses-in-bergen.html
    trondheim2F26.05.17residentehttp://www.almadeviajante.com/viver-em-trondheim-carla-carvalho/
    trondheimF08.09.12residentehttp://p3.publico.pt/node/4497
    viajarcriancasF27.05.14residentehttp://pikitim.com/trondheim-com-criancas-dicas-de-alice-pinto/
    gravidezF13.01.12residentehttp://demaeparamae.pt/forum/gravidez-noruega
    mochilaF18.03.14visitantehttps://viajardemochilaascostas.blogspot.pt/2014/03/noruega.html
    svalbardF09.04.15visitantehttp://viajarentreviagens.blogspot.pt/2015/04/o-apelo-do-arctico-correndo-de-trenos.html
    fiordesF12.03.10visitantehttp://viajante-do-mundo.blogspot.pt/2010/03/fiordes-da-noruega.html
    dicasM29.06.15visitantehttp://www.viagensasolta.com/2015/06/dicas-para-viajar-na-terra-dos-fiordes.html
    cabonorteM06.09.10visitantehttp://cabonorte2010.blogspot.no/2010/09/bodon-mo-i-ranan-319kms.html
    idilicoF26.07.08visitantehttps://asvoltasdovento.blogspot.no/2008/07/noruega-um-pas-idlico.html
    passeandoF10.03.11visitantehttp://passeando-pela-europa.blogspot.pt/2011/03/noruega.html
    exemplarM24.07.11visitantehttp://retalhos-de-sintra.blogspot.pt/2011/07/noruega-um-pais-exemplar-2.html
    bergenM26.10.15visitantehttp://soentrenos.blogs.sapo.pt/bergen-noruega-195633
    barbarosF05.03.06outrohttp://apoliticadospoliticos.blogs.sapo.pt/29323.html
    limparF22.11.09outrohttp://jugular.blogs.sapo.pt/1331558.html
    mapaM01.04.14visitantehttps://demapanamao.wordpress.com/noruega/
    gratulererF21.05.14visitantehttps://cartografiapessoal.wordpress.com/2014/05/21/gratulerer-med-dagen-norge/
    bolsoF16.08.16visitantehttps://alguresnomundo.wordpress.com/2016/08/16/foram-me-ao-bolso-e-eu-gostei-noruega/
    alesundF07.04.14visitantehttps://solnaeiraechuvanonabal.wordpress.com/2017/04/07/alesund-pequena-perola-nos-fjords-da-noruega/
    autocarroF25.04.17visitantehttps://solnaeiraechuvanonabal.wordpress.com/2017/04/25/fjords-da-noruega/#more-1423
    breivikM29.07.11outrohttp://5dias.net/2011/07/29/a-noruega-nao-e-um-exemplo-de-tolerancia-de-democracia-e-de-respeito-pelos-direitos-humanos/
    noruegaM12.09.16residentehttp://www.coquetteaportuguesa.com/2016/09/noruega.html
    tubaraoF04.08.11visitantehttps://cartografiapessoal.wordpress.com/2011/08/04/na-boca-do-tubarao/
    teambuildingM25.11.13residentehttp://aminhavidananoruega.blogspot.no/2013/11/sobre-o-team-building.html
    pipocasM05.02.15residentehttp://aminhavidananoruega.blogspot.no/2015/02/como-pipocas.html
    analogiasM28.10.11outrohttp://irparaanoruega.blogspot.no/2011/10/guerra-fria-e-guerra-quente.html
    chuvabagasF17.07.16residentehttp://goingnorthtilnorway.blogspot.no/2016/07/chuvabagas-e-futebol-como-passar-um-dia.html
    duasM09.10.14residentehttp://duas-ou-tres.blogspot.no/2014/10/portugal-na-noruega.html
    olhaM03.10.16visitantehttp://olhaqueresfalarsobreisso.blogspot.no/2016/10/um-portugues-pela-noruega.html

    Dados quantitativos

    Corpo PLONORTE Número de formasNúmero de tipos
    Unidades 524258218
    Total de palavras 408988154
    Palavras em minúscula 322486039
    Palavras com inicial maiúscula42171403
    Palavras todas em maiúsculas 11576
    Números 458154
    Palavras com números4532
    Palavras mistas6433
    Pontuação281361

    Número de unidades estruturais

    Atributo Número
    p 1121
    s 2379
    texto 38
    mwe 814

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 1298 2266
    Locuções 814 1744
    Palavras gráficas 40898 40898
    Palavras simples 36888 36888
    Palavras 39000 40898

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 8640 23,42%
    Verbos V.* 6041 16,38%
    Adjectivos ADJ.* 2534 6,87%
    Pronomes pessoais .*PERS.* 836 2,27%
    Preposições PRP.* 6829 18,51%
    Conjunções K.* 2083 5,65%
    Advérbios ADV.* 2724 7,38%
    Determinantes .*DET.* 7149 19,38%
    Especificadores .*SPEC.* 895 2,43%
    Numerais NUM.* 801 2,17%

    ^Voltar ao início da página

    Corpo Português Falado - Documentos Autênticos

    O corpus PortFalDA é um corpo de entrevistas transcritas proveniente dos quatro CD-ROM Português Falado: Documentos Autênticos (Gravações audio com transcrição alinhada), produzidos pelo Centro de Linguística da Universidade de Lisboa (CLUL) e pelo Instituto Camões em 1995-1997. Este material foi coletado maioritariamente no âmbito do projeto Português Falado, Variedades Geográficas e Sociais, levado a cabo pelo CLUL em parceria com as universidades francesas de Toulouse-le-Mirail e de Provence-Aix-Marseille. Para mais informação sobre este corpo, veja-se Bacelar do Nascimento (2001a) (em inglês) e Bacelar do Nascimento (2001b) (em francês).

    O corpus PortFalDA é composto (neste momento) por 50 textos, de Portugal e do Brasil.

    Como citar o (conteúdo do) corpus PortFALDA:

    Português Falado: Documentos Autênticos (Gravações audio com transcriçao alinhada), conjunto de quatro CD-ROM, produzido pelo Centro de Linguística da Universidade de Lisboa (CLUL), Instituto Camões, com apoio da União Europeia (Programas LINGUA e SOCRATES/LINGUA) numa parceria entre o CLUL, a Universidade de Toulouse-le-Mirail e a Universidade de Aix-en-Provence.

    Corpo PORTFALDA, texto original dos CD-ROM, anotado a 30 de julho de 2022, versão 4.2

    Agradecemos a (ainda em aberto) para incluir no AC/DC.

    Estrutura do corpo

    Marcadores posicionais: variante

    Marcadores estruturais: texto [nome do texto], pergunta, resposta, p [parágrafo], s [frase].

    Distribuição por variante

    A sua distribuição, correspondendo à versão 1.0, é a seguinte:

    Dados quantitativos

    Corpo PORTFALDA Número de formasNúmero de tipos
    Unidades 1481068638
    Total de palavras 1068818629
    Palavras em minúscula 845907607
    Palavras com inicial maiúscula1369517
    Palavras todas em maiúsculas 5115
    Números 11
    Palavras com números22
    Palavras mistas156
    Pontuação81479

    Número de unidades estruturais

    Atributo Número
    p 3500
    s 7569
    texto 86
    pergunta 1642
    resposta 1858
    mwe 1927

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 1003 1436
    Locuções 1927 4161
    Palavras gráficas 106881 106881
    Palavras simples 101284 101284
    Palavras 104214 106881

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 14678 14,49%
    Verbos V.* 18563 18,33%
    Adjectivos ADJ.* 3404 3,36%
    Pronomes pessoais .*PERS.* 4603 4,54%
    Preposições PRP.* 10978 10,84%
    Conjunções K.* 6056 5,98%
    Advérbios ADV.* 11659 11,51%
    Determinantes .*DET.* 13547 13,38%
    Especificadores .*SPEC.* 2840 2,80%
    Numerais NUM.* 2132 2,10%

    ^Voltar ao início da página

    Corpo ReLi

    O corpus ReLi é um corpo de 1601 resenhas de treze livros (de sete autores diferentes), compiladas de um sítio brasileiro de resenhas de livros, pela PUC-Rio, e acessível daqui. Essas resenhas foram anotadas em relação à opinião, ao objeto da opinião, e à sua polaridade, veja-se Freitas et al. (2012).

    O corpus ReLi é composto de 7 arquivos, com as resenhas das obras de cada autor. Foram manualmente marcadas as seguintes informações:

    object - indica segmento alvo de opinião. É designado por OBJXX, onde XX é o identificador do objeto no escopo da resenha, sendo 00 o objeto implícito livro

    opinion - indica segmento que expressa opinião sobre um OBJXX. Tem a forma opXXS, onde S={-,+} para indicar a polaridade da opinião e XX é o ponteiro para o objeto

    polarity - indica frase com opinião. Pode assumir os valores + e -.

    Como citar o corpus ReLi: Freitas, C.; Motta, E.; Milidiú, R.; Cesar, J. Vampiro que brilha... rá! Desafios na anotação de opinião em um corpus de resenhas de livros. In: XI Encontro de Linguística de Corpus (ELC 2012), São Paulo, Brasil, 2012.

    Corpus ReLi, versão do texto de Maio de 2013, anotado a 30 de julho de 2022, v. 6.4

    Agradecemos a Cláudia Freitas, Eduardo Motta, Ruy Milidiú e Juliana Cesar a autorização para incluir no AC/DC.

    Estrutura do corpo

    Marcadores posicionais: objeto, opiniao, polaridade Marcadores estruturais: livro [nome do livro resenhado], resenha, p [parágrafo], s [frase].

    Distribuição por livro e autor

    Dados quantitativos

    Corpo RELI Número de formasNúmero de tipos
    Unidades 16374714273
    Total de palavras 13327113082
    Palavras em minúscula 9489510644
    Palavras com inicial maiúscula101691792
    Palavras todas em maiúsculas 458301
    Números 42580
    Palavras com números1010
    Palavras mistas840923
    Pontuação770659

    Número de unidades estruturais

    Atributo Número
    mwe 2351
    p 0
    t 0
    s 7348
    livro 0
    rev 0

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 6760 4813
    Locuções 2351 5088
    Palavras gráficas 133271 133271
    Palavras simples 123370 123370
    Palavras 132481 133271

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 24991 20,26%
    Verbos V.* 22467 18,21%
    Adjectivos ADJ.* 8892 7,21%
    Pronomes pessoais .*PERS.* 4337 3,52%
    Preposições PRP.* 18197 14,75%
    Conjunções K.* 7216 5,85%
    Advérbios ADV.* 9728 7,89%
    Determinantes .*DET.* 22779 18,46%
    Especificadores .*SPEC.* 4032 3,27%
    Numerais NUM.* 1206 0,98%

    ^Voltar ao início da página

    Corpo NILC/São Carlos

    O corpus NILC/São Carlos do Núcleo Interinstitucional de Lingüística Computacional, sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo em São Carlos, contém textos brasileiros do registo jornalístico, didáctico, epistolar e redacções de alunos (Nunes et al., 1996a, 1996b). Para um descrição mais abrangente, veja-se a página de descrição do corpus NILC e sua descendência.

    Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.

    Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; criado em 5 de agosto de 2022, v. 13.4

    Estamos gratos à Folha de São Paulo pela autorização gentilmente concedida para uso dos seus textos.
    Estamos gratos ao Núcleo Interinstitucional de Lingüística Computacional, em especial a Graça Nunes, por nos ter disponibilizado o texto do corpus em formato electrónico, autorizado a sua disponibilização através do projecto AC/DC e negociado com a Folha de São Paulo a autorização anteriormente mencionada.

    Estrutura do corpo

    Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura,
    Para os textos da folha de São Paulo, a (autor), artigo, caixa, situacao, li (elemento de lista).

    As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.

    Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.

    A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.

    O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 13.2, é a seguinte:

    TipoDescriçãoTamanho
    DI texto didáctico 425.063
    ENC enciclopédia 286.312
    ENS ensaio 2.191.095
    EP texto epistolar 3.328
    JO.* jornalístico 31.472.702
    JOCF jornalístico só CETENFolha 29.393.697
    JO jornalístico sem CETENFolha 2.079.005
    LE texto legal 1.067.523
    LI literário 923.130
    RE revista 153.780

    O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.

    A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .

    A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):

    Dados quantitativos

    Corpo SAOCARLOS Número de formasNúmero de tipos
    Unidades 44673220446916
    Total de palavras 33991552422804
    Palavras em minúscula 24297473157608
    Palavras com inicial maiúscula4854524127714
    Palavras todas em maiúsculas 50463223048
    Números 5105743239
    Palavras com números483156246
    Palavras mistas8748115534
    Pontuação249269323893

    Número de unidades estruturais

    Atributo Número
    mwe 477973
    p 873528
    s 2053751
    texto 364417
    subtitulo 3719
    assinatura 12
    artigo 0
    caixa 21671
    situacao 5190
    t 158093
    a 85472
    li 50324

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 2098138 3468262
    Locuções 477973 1019690
    Palavras gráficas 33991552 33991552
    Palavras simples 29503600 29503600
    Palavras 32079711 33991552

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 7406168 25,10%
    Verbos V.* 4530080 15,35%
    Adjectivos ADJ.* 1944738 6,59%
    Pronomes pessoais .*PERS.* 480347 1,63%
    Preposições PRP.* 5798168 19,65%
    Conjunções K.* 1275893 4,32%
    Advérbios ADV.* 1398838 4,74%
    Determinantes .*DET.* 5847106 19,82%
    Especificadores .*SPEC.* 499366 1,69%
    Numerais NUM.* 909903 3,08%

    ^Voltar ao início da página

    Corpo todos juntos

    O corpo TODOS foi criado pela Linguateca de forma a permitir que todos os corpos da Linguateca pudessem ser interrogados duma só vez, evitando ao mesmo tempo que sobreposições de material produzissem repetição escusada e enganadora de concordâncias ou frequências.

    É, portanto, especialmente apropriado para investigações relacionadas com género textual ou com anotação semântica.

    Porque é automaticamente produzido a partir de todos os outros corpos do AC/DC, contém apenas os atributos estruturais e posicionais que pertençam à interseção de todos os corpos, além dos atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas de corpos individuais.

    No caso da sobreposição entre o corpo NILC/São Carlos e o CHAVE, e do corpo CETEMPúblico e o CHAVE, foi escolhido o material do CHAVE.

    O corpo contém cerca de 1300 milhões de palavras, distribuídas entre vários géneros e temas, correspondendo ao conteúdo de todos os corpos presentes no AC/DC.

    GéneroUnidades
    academico 409.552.077
    blog 4.253.225
    cartas 842.924
    desc 3.432.044
    encic 17.734.659
    ensaio 2.219.797
    jorn 669.804.963
    legal 9.791.855
    lit 48.597.042
    littrad 77.742
    mail 2.084.027
    misto 389.380
    oraldebate 37.004
    oralent 6.674.191
    oralfut 86.132
    oralinf 292.678
    oralmono 77.526.185
    recensoes 265.223
    religioso 874.402
    revistas 647.609
    teatro 1.148.728
    tecnico 86.312.671
    variado 137.824

    Corpus todos, criado a 4 de setembro de 2022, v. 8.1

    Agradecemos aos compiladores de todos os corpos incluídos por os terem criado e (deixado) tornar públicos.

    Estrutura do corpo

    Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

    Dados quantitativos

    Corpo TODOS Número de formasNúmero de tipos
    Unidades 15189279646295254
    Total de palavras 12610582995491047
    Palavras em minúscula 8887322901455100
    Palavras com inicial maiúscula1574734881130986
    Palavras todas em maiúsculas 25115356375442
    Números 2102615255906
    Palavras com números2505480395382
    Palavras mistas3406250412691
    Pontuação83288930551356

    Número de unidades estruturais

    Atributo Número
    TEXTO 0
    CATEGORY 192967
    0
    art 21801
    assinatura 1556
    assunto 4858
    autor 71244
    caixa 1077
    capitulo 714
    cita 80
    div 6932
    entrevista 2278
    ext 1415377
    fala 115137
    introd 4
    legenda 836
    li 100101
    marca 16664
    mens 4911
    mwe 18130528
    nota 2329
    obra 897
    p 5951417
    parte 11631
    pergunta 12902
    personagem 121024
    resposta 13422
    s 55180342
    situacao 561
    subtitulo 3719
    t 1192583
    texto 23968
    titulo 2210
    tituloobra 897
    u 1927081
    v 294798
    a 221343
    data 193395
    indic 5643

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 86280986 127913038
    Locuções 18130528 38609211
    Palavras gráficas 1261058299 1261058299
    Palavras simples 1094536050 1094536050
    Palavras 1198947564 1261058299

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 277167661 25,32%
    Verbos V.* 145537153 13,30%
    Adjectivos ADJ.* 77778842 7,11%
    Pronomes pessoais .*PERS.* 17336037 1,58%
    Preposições PRP.* 204459658 18,68%
    Conjunções K.* 48772948 4,46%
    Advérbios ADV.* 48246109 4,41%
    Determinantes .*DET.* 198022464 18,09%
    Especificadores .*SPEC.* 18158155 1,66%
    Numerais NUM.* 36601144 3,34%

    ^Voltar ao início da página

    Corpo Tycho Brahe

    O Corpus Histórico do Português Tycho Brahe é um corpo eletrônico anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845, compilado pela Universidade de Campinas (UniCamp). A sua página principal é http://www.tycho.iel.unicamp.br/corpus/index.html, onde todas as informações estão disponíveis.

    Corpo Tycho Brahe, versão do texto simples de 2017, criado a 3 de outubro de 2022, versão 8.4

    Agradecemos a Charlotte Galves a gentil autorização para disponibilizar o corpo Tycho Brahe através do AC/DC.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (com o identificador original), tituloobra, (o nome da obra), autor (o autor da obra), data (data de nascimento do autor), genero (o gênero de obra segundo os critérios do Tycho Brahe), grafia (preservada ou editada) e a variante (PT ou BR conforme publicado em Portugal ou Brasil). Também se encontram marcados, nas obras em que são relevantes, partes como assinatura, saudacao e data, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (o gênero de obra segundo os critérios do Tycho Brahe), grafia (preservada ou editada), seculo (de nascimento do autor) e a variante (PT ou BR conforme publicado em Portugal ou Brasil).

    Dados quantitativos

    Corpo TYCHO Número de formasNúmero de tipos
    Unidades 4204140149196
    Total de palavras 3334039148695
    Palavras em minúscula 256612994733
    Palavras com inicial maiúscula35943828083
    Palavras todas em maiúsculas 148372076
    Números 189581432
    Palavras com números930280
    Palavras mistas42151854
    Pontuação175233481

    Número de unidades estruturais

    Atributo Número
    s 133593
    p 133594
    obra 152
    t 1900
    autor 76
    tituloobra 76
    data 292
    variante 0
    genero 76
    grafia 76
    div 2025
    assinatura 1002
    saudacao 441
    mwe 46264
    personagem 21342
    fala 14652

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 144992 238353
    Locuções 46264 98362
    Palavras gráficas 3334039 3334039
    Palavras simples 2997324 2997324
    Palavras 3188580 3334039

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 599048 19,99%
    Verbos V.* 518188 17,29%
    Adjectivos ADJ.* 162133 5,41%
    Pronomes pessoais .*PERS.* 156958 5,24%
    Preposições PRP.* 459099 15,32%
    Conjunções K.* 216857 7,24%
    Advérbios ADV.* 195331 6,52%
    Determinantes .*DET.* 519921 17,35%
    Especificadores .*SPEC.* 104089 3,47%
    Numerais NUM.* 43159 1,44%

    ^Voltar ao início da página

    Corpo Vercial

    O corpo Vercial contém 309 obras literárias de 55 autores portugueses, digitalizadas pelo projecto Vercial, cujas datas de publicação variam desde 1500 (Carta a El-rei Dom Manuel Sobre o Achamento do Brasil, de Pero Vaz de Caminha) a 1933 (Memórias III, de Raul Brandão).

    Corpus Vercial, criado a 2 de dezembro de 2022, v. 14.1

    Agradecemos à equipa do projecto Vercial, especialmente a José Leon Machado, que gentilmente nos cederam os textos para este corpus.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra).

    As 187 obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

    As 80 obras de poesia têm os seguintes marcadores estruturais adicionais: div [parte de um poema, assinalada graficamente por números romanos] e v [verso].

    As 43 obras de teatro têm os seguintes marcadores estruturais adicionais: fala [juntando a fala de uma personagem] e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (que pode ser Poesia, Prosa ou Teatro), e data (que quando é desconhecida tem o valor "desc").

    As obras presentes e respectivos autores são as seguintes:

    Dados quantitativos

    Corpo VERCIAL Número de formasNúmero de tipos
    Unidades 21101386342943
    Total de palavras 14896145341713
    Palavras em minúscula 11144484183134
    Palavras com inicial maiúscula163721175653
    Palavras todas em maiúsculas 826287640
    Números 583711953
    Palavras com números525368
    Palavras mistas185402896
    Pontuação10410691163

    Número de unidades estruturais

    Atributo Número
    p 232781
    s 1003058
    v 271757
    obra 340
    capitulo 0
    titulo 894
    u 798005
    fala 29001
    autor 340
    tituloobra 340
    div 2256
    mwe 197916
    indic 4214
    poesia 987
    nota 269
    marca 10554

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 584292 874112
    Locuções 197916 423739
    Palavras gráficas 14896145 14896145
    Palavras simples 13598294 13598294
    Palavras 14380502 14896145

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 2885829 21,22%
    Verbos V.* 2279385 16,76%
    Adjectivos ADJ.* 921643 6,78%
    Pronomes pessoais .*PERS.* 675645 4,97%
    Preposições PRP.* 2127123 15,64%
    Conjunções K.* 773056 5,68%
    Advérbios ADV.* 850920 6,26%
    Determinantes .*DET.* 2566568 18,87%
    Especificadores .*SPEC.* 377313 2,77%
    Numerais NUM.* 150602 1,11%

    ^Voltar ao início da página

    [ Acesso | Anotação | Atomização | Exemplos | Agradecimentos ]


    Última actualização: 29 de Janeiro de 2021
    Perguntas, comentários e sugestões