Informação pormenorizada sobre os corpos

Projecto AC/DC, Linguateca


Esta página fornece a informação necessária sobre cada corpo, para que os utilizadores do nosso serviço o possam utilizar como instrumento válido de teste de hipóteses científicas.

Além de apontar para a informação original fornecida pelos compiladores e de apresentar uma contabilização sumária de todos os corpos em forma de tabela, descreve várias opções básicas tomadas na codificação dos corpos no ambiente escolhido, o CWB. Sem que estas opções sejam explicitadas, não é possível compreender os resultados quantitativos ou comparar com outros trabalhos sobre os mesmos corpos.

Todos os corpos foram anotados pelo PALAVRAS, o analisador sintáctico criado Eckhard Bick, Bick (2000). Veja-se a página de anotação para mais informações sobre essa anotação.


Identificação sumária

Informação original fornecida pelos compiladores de corpos, acessível na rede ou publicada. Apenas os identificadores foram atribuídos por nós. Para saber mais informação sobre cada corpo, clique no respectivo identificador.

AmostRA-NILC Seleção de textos do corpo NILC, em português brasileiro, contendo textos dos géneros didático, jornalístico e literário, anotada com classificação gramatical, criada no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC
ANCIB Corpo de correio electrónico da lista ANCIB
Avante! Corpo de artigos da edição electrónica do Avante!, jornal semanal do Partido Comunista Português
CBRAS Um grande corpo de português brasileiro contendo muitos géneros diferentes, obtido da Rede
CDHAREM As colecções douradas usadas no HAREM
CETEMPúblico CETEMPúblico (Corpo de Extractos de Textos Electrónicos MCT/Público)
CHAVE Corpo de texto jornalístico usado no CLEF
CIENCIAVIVA Textos escritos sobre ciência em Portugal
COLONIA Corpo de textos históricos do século XVI ao XIX, de Portugal e do Brasil
C-ORAL-BRASIL Corpo oral de conversas informais no estado de Minas Gerais
CONDIVport Parte do corpo CONDIVport, contendo textos de jornais desportivos de Portugal e do Brasil
CoNECorpo de Correio Não-Endereçado, criado pela Linguateca
DiaCLAV Corpo de artigos da edição electrónica de jornais regionais da região centro de Portugal (Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário)
Diáspora TL-PTCorpo de entrevistas a timorenses radicados em Portugal
ECI-EBR A parte do corpo Borba-Ramsey, contido no European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ECI-EE A parte da apresentação do programa Esprit do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ENPCPUB Parte disponibilizável do subconjunto em português do English-Norwegian Parallel Corpus (ENPC) (traduções para português de originais em inglês)
Floresta Corpo relativo ao material da Floresta Sintá(c)tica
FrasesPP Corpo FrasesPP, desenvolvido no Grupo de PLN do INESC em 1990-93
FrasesPB Corpo FrasesPB, criado no âmbito do Projecto Processamento Computacional do Português
Mariano GagoNotícias sobre Mariano Gago e textos dele e sobre ele
Marielle, presente!Textos escritos por Marielle Franco, e sobre ela
MoçambulaCarta de leitores em jornais moçambicanos
Museu da PessoaCorpo de entrevistas portuguesas e brasileiras realizadas pelo Museu da Pessoa
Natura/Minho Corpo jornalístico Natura/Diário do Minho
NOBRECorpo de texto literário lusófono publicado na Europa
OBrasCorpo de texto literário brasileiro
P'lo NorteCorpo de blogues de portugueses sobre a Noruega
ReLiCorpo de resenhas de livros na Rede, criadas por alunos brasileiros, anotadas com polaridade e objeto de opinião
NILC/São Carlos Corpo NILC/São Carlos (parte corrigida), contendo texto jornalístico, didáctico e epistolar.
Tycho Brahe Corpo Tycho Brahe
TodosJuntos Todos os corpos combinados, evitando repetições.
Vercial Corpo de textos literários portugueses clássicos, disponibilizados pelo projecto Vercial.

Contabilização básica dos corpos

Todos os corpos foram processados de forma a serem codificados pelo IMS-CWB, o que significa que foram previamente transformados no formato de uma unidade por linha, e com um atributo estrutural (que delimita um conjunto de unidades) por linha também.

Este processo, que chamamos atomização, encontra-se descrito em Atomização, e inclui também a divisão em frases, obtida automaticamente na maior parte dos casos.

De forma a poder comparar os vários corpos numa única tabela, convém notar que os elementos classificados como títulos, legendas, etc. não foram considerados frases para efeitos desta contagem. Por outro lado, os parágrafos (geralmente curtos) sem pontuação final são marcados como frases, do tipo fragmento.

Esta contabilização é atualizada sempre que há criação de novas versões.

Corpo Nº de frases Nº de parágrafos Nº de palavras (formas) Nº de palavras (tipos) Nº de unidades
AmostRA-NILC4.9314.90498.63317.158128.203
ANCIB83.50960.1171.257.10973.6451.707.718
Avante!222.85263.4366.504.283119.9837.760.345
Corpus Brasileiro45.485.77915.642992.549.8225.055.4551.178.488.920
CD HAREM12.5587.276225.76630.985290.001
CETEMPúblico7.116.6652.592.477190.683.676933.721235.220.800
CHAVE4.732.7952.254.59298.301.578702.806126.191.857
Ciência Viva27.33112.483655.72142.028855.099
Colonia216.8591.8115.028.716172.0106.024.310
CONDIVport318.776148.8925.576.547150.1457.159.916
CONDIVport24.3972.718117.09416.314142.594
CoNE31.36119.313675.46241.030922.920
C-Oral-Brasil30.64719.404263.64514.866436.444
DiaCLAV210.37324.4396.550.993107.9487.722.373
Diáspora TL-PT1.03824621.8555.08629.365
ECI-EBR44.38112.117723.99660.203922.439
ECI-EE83934027.1304.09132.133
ENPCPUB (parte em português)4.3711.69072.37412.87493.164
Floresta327.05006.046.541179.5207.252.306
FrasesPB65364819.1456.00823.186
FrasesPP67659416.2365.08620.222
Mariano Gago23.37011.392570.74531.695756.570
Marielle, presente!9.693890208.17416.629260.713
Moçambula2.32113558.26710.65071.399
Museu da Pessoa93.55434.8371.422.43442.5212.004.282
Natura/Minho69.09957.1491.748.64467.4502.208.211
NOBRE122.83215.6972.252.954110.3643.045.599
OBras311.98176.1974.974.132151.9906.992.478
P'lo Norte2.3841.12240.9098.14053.703
Português Falado - Documentos Autênticos4.7353.13863.3526.185102.222
ReLi8.3928153.00214.354188.882
NILC/São Carlos1.988.621827.36332.461.815399.73142.914.452
todos juntos58.499.1955.089.2061.285.252.4995.781.8401.550.265.615
Tycho Brahe209.46903.241.633147.7334.018.858
Vercial962.989254.08514.644.634328.23020.705.640
Total62.687.2816.525.1521.377.257.017 --1.664.747.324


Frequência de formas e lemas por categoria gramatical nos corpos

Para obter as listas de frequências, clique na célula correspondente da tabela abaixo, que indica o número de tipos distintos. Tenha, contudo, em atenção as seguintes informações

CorpusFormas
NADJADVVNUMGRAMtodos
AmostRA63732776418589831246917173
ANCIB1861771228681418746881678968646
Avante!308241850520784641252701039121586
CDHAREM102124228610888797962831180
CETEMPúblico1889549357165782149781185389589965925
CHAVE153235772765453171087919657890730285
Ciência Viva12692701384012754189492642945
Colonia477992594125688507214171423172670
ConDIVport380512326523005040958891847144321
ConDIVport253012112348479971243816461
ConE13245397954572683724630540905
C-ORAL_Brasil53531962330481770372115022
DiaCLAV28895154141450388276154945110285
Diáspora TL-PT9813141501093883073079
ECI-EBR192261025411642388178777160398
ECI-EE133185319812962272604249
ENPC (parte pública)43641966447503713543912892
Floresta527172451923585434967461540182661
FrasesPB25559632111776693076020
FrasesPP20238702071472832845101
Mariano Gago937848687831182492168831992
Marielle, presente!51012200421557872156116953
Moçambula36591623381377818743710701
Museu da Pessoa1426360167311726759269742663
Natura/Minho1912010072106821506436078369135
NOBRE31774186482289543365851394110681
OBras405422281424898159811232761153825
Plonorte2846118031625902553848203
PortFalDA23997841982420463166194
ReLi463727175745384174185215730
NILC/São Carlos77465390912954868655057865120358367
Vercial83739448553912164371350510843339561
33477715976410250383957185385976471570096

CorpusLemas
NADJADVVNUMGRAMPROPtodostodos/pos
AmostRA50071942330185332314714951096811097
ANCIB1376841426803153470815286308286804472564
Avante!199489322168452955989295545879646097120
CDHAREM71502709459214598319169302025820567
CETEMPúblico13563554284511125196130089674109559914384651446588
CHAVE1048464261541931959997325635716488979677985701
Ciência Viva9187404467424791949201109762921029509
Colonia33107140572157108921570400331639443095346
ConDIVport252201250318186309634033253349105074105871
ConDIVport239821379277139071214932031088711092
ConE96442373417194137795181170453850740379
C-ORAL_Brasil4344134922814096202152083990610248
DiaCLAV18188794311484621655928367980106010106722
Diáspora TL-PT8392301133638611725719332005
ECI-EBR134035914932397293922799573494035344
ECI-EE102756217849223210126128082853
ENPC (parte pública)35281397366143114014781677117825
Floresta3472512554197074746875630102669165152166896
FrasesPB21357511878306311123142214308
FrasesPP16846781836547511122835753613
Mariano Gago67362911620220494220579752142121593
Marielle, presente!37021377326146574516540191164611799
Moçambula28701138303127418915091967686843
Museu da Pessoa99333508545290266623986952597126488
Natura/Minho12602566285136354620235325615963260165
NOBRE21780966618647114662356125625322854004
OBras2677011077207781301297373213857079071109
Plonorte221880624686724913884652795370
PortFalDA20445811997837815027440314109
ReLi347416403901499166178119182248538
NILC/São Carlos50317208082335112975279362808233425415392433783
Vercial57485238393229176943877468112168215351218760
2504959989581405150120101072313170159923486852384846


Contabilização detalhada por corpo

A maior parte dos corpos requereu tratamento específico e opções dedicadas, que serão mencionadas na descrição de cada caso. Como opções gerais, mais detalhadas na página de atomização, temos:

Os dados quantitativos que apresentamos para cada corpo dividem-se em quatro grupos: Nota: em relação aos dados quantitativos, a categoria "pontuação" inclui todos as unidades que contenham sinais de pontuação e que não tenham sido considerados como abreviaturas (incluindo portanto números do tipo "3.876.210", abreviaturas com mais de um ponto como "S.O.S." ou "E.U.A", assim como erros de codificação ainda não depurados, como "primeiro-ministro.").


Corpo AmostRA-NILC

O corpus AmostRA-NILC (Corpus Amostra Rachel Aires - NILC) foi criado no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC, para avaliar e comparar o desempenho de etiquetadores para o português brasileiro (Aires 2000).

Citando Aires 2000 (secção 4.1.1)

" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:

  1. textos simples, isto é, aqueles que seguem uma estrutura formal fixa, por exemplo a escrita técnica (didáticos);
  2. textos mais próximos da linguagem viva (jornalístico);
  3. textos com estrutura livre, isto é, com formas menos comuns como ordem inversa por exemplo, (literários).

(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.

(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)

Tabela 1 - Corpus de treinamento e teste
Tipo de CorpusTamanho do corpus
D Didático 16.255 palavras
J Jornalístico 56.653 palavras
L Literário 32.054 palavras

(fim de citação)

Corpus AmostRA-NILC duplamente anotado, versão texto de 7 de Agosto de 2003 com primeira anotação do NILC (Rachel Aires), anotado em 8 de Março de 2011 pelo PALAVRAS, criado a 22 de Junho de 2013, v. 4.7

Agradecemos a Rachel Aires a disponibilização do corpus.

Estrutura do corpo

Os atributos estruturais usados são p (parágrafo) e s (frase). É também usado o atributo posicional pos2 (anotação gramatical original do corpus).

Dados quantitativos

Corpo AMOSTRA Número de formasNúmero de tipos
Unidades 12820317193
Total de palavras 9863317158
Palavras em minúscula 7839913532
Palavras com inicial maiúscula86352409
Palavras todas em maiúsculas 3717
Números 914190
Palavras com números7146
Palavras mistas3019
Pontuação627835

Número de unidades estruturais

Atributo Número
s 4928
p 4902
mwe 1812

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 2985 4494
Locuções 1812 3830
Palavras gráficas 98633 98633
Palavras simples 90309 90309
Palavras 95106 98633

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 23273 25,77%
Verbos V.* 14145 15,66%
Adjectivos ADJ.* 6422 7,11%
Pronomes pessoais .*PERS.* 2286 2,53%
Preposições PRP.* 16633 18,42%
Conjunções K.* 4112 4,55%
Advérbios ADV.* 5052 5,59%
Determinantes .*DET.* 17931 19,86%
Especificadores .*SPEC.* 1389 1,54%
Numerais NUM.* 1810 2,00%

^Voltar ao início da página

Corpo ANCIB

O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista homónima da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (até Novembro de 2003) e para a lista abarreto-l, após essa data.

Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.

Corpus ANCIB, versão texto de Junho de 2009, anotado a 26 de Junho de 2014, criado a 22 de Junho de 2013, v. 7.7

Agradecemos a Aldo Barreto a autorização gentilmente cedida para uso dos textos da lista.

Estrutura do corpo

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.

Dados quantitativos

Corpo ANCIB Número de formasNúmero de tipos
Unidades 170775876637
Total de palavras 125710973645
Palavras em minúscula 84066234803
Palavras com inicial maiúscula22670921842
Palavras todas em maiúsculas 191653503
Números 200821337
Palavras com números2715801
Palavras mistas2728628
Pontuação1159762978

Número de unidades estruturais

Atributo Número
p 60047
s 83189
mwe 14587
autor 3007
mens 3012
assunto 2978
li 0
titulo 0
cita 81

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 97212 202649
Locuções 14587 31186
Palavras gráficas 1257109 1257109
Palavras simples 1023274 1023274
Palavras 1135073 1257109

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 293306 28,66%
Verbos V.* 125785 12,29%
Adjectivos ADJ.* 72934 7,13%
Pronomes pessoais .*PERS.* 13845 1,35%
Preposições PRP.* 194505 19,01%
Conjunções K.* 59387 5,80%
Advérbios ADV.* 39981 3,91%
Determinantes .*DET.* 190701 18,64%
Especificadores .*SPEC.* 12427 1,21%
Numerais NUM.* 32620 3,19%

^Voltar ao início da página

Corpo Avante!

O corpus Avante! contém textos do semanário «Avante!», orgão oficial do Partido Comunista Português. O corpus contém cerca de 6 milhões de palavras, extraídas da versão na rede do jornal, correspondendo a um total de 8.515 artigos de 207 edições do dito jornal, de Abril de 1997 até Fevereiro de 2002.

Corpus Avante, versão de 6 de Março de 2006, anotado a 22 de abril de 2018, v. 6.1

Estamos gratos à direcção do «Avante!», em especial ao seu director José Casanova, pela autorização gentilmente cedida para a elaboração deste corpus.

Estrutura do corpo

O corpus contém as etiquetas art (artigo), t (título), p (parágrafo), s (frase) e li (elemento de uma lista); os artigos não estão datados, sendo apenas indicado o número da edição, através da indicação <art ed= id=> .

Dados quantitativos

Corpo AVANTE Número de formasNúmero de tipos
Unidades 7760345121586
Total de palavras 6504283119983
Palavras em minúscula 509665667825
Palavras com inicial maiúscula67481329340
Palavras todas em maiúsculas 703462335
Números 588931645
Palavras com números772296
Palavras mistas1648684
Pontuação3331821510

Número de unidades estruturais

Atributo Número
art 8536
t 28723
a 2
p 62489
li 7835
s 221653
mwe 130630

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 330637 557669
Locuções 130630 280107
Palavras gráficas 6504283 6504283
Palavras simples 5666507 5666507
Palavras 6127774 6504283

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1404055 24,78%
Verbos V.* 775776 13,69%
Adjectivos ADJ.* 449505 7,93%
Pronomes pessoais .*PERS.* 89436 1,58%
Preposições PRP.* 1219486 21,52%
Conjunções K.* 314581 5,55%
Advérbios ADV.* 296432 5,23%
Determinantes .*DET.* 1262335 22,28%
Especificadores .*SPEC.* 119760 2,11%
Numerais NUM.* 109838 1,94%

^Voltar ao início da página

Corpo Corpus Brasileiro

O Corpus Brasileiro é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp. Devido a variados tipos de processamento automático, é possível que nem todo o material incorporado esteja disponível através do AC/DC.

Listas de frequências

As listas de frequência de palavras (unigramas) do corpus podem ser obtidas em:

Referências

Manual: Corpus Brasileiro.
Berber Sardinha, T. (2008). Léxico-gramática e corpus. II Ebralc - Escola Brasileira de Linguística Computacional, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2008). O Corpus Brasileiro. Comunicação apresentada em VII Encontro de Lingüística de Corpus, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T. (2009). Applied Linguistics and Technology. Ames, Iowa State University, USA, January 20, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus: A one-billion word online resource. Comunicação apresentada em 5th Corpus Linguistics Conference, Liverpool, UK, July 21-23, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus. Comunicação apresentada em AACL 2009 - American Association for Corpus Linguistics, Alberta, Canadá, October 8-11, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2010). O Corpus Brasileiro. Comunicação apresentada em 13o Congresso Brasileiro De Língua Portuguesa e 4o Congresso Internacional De Lusofonia, PUCSP, São Paulo, SP, 30 de abril de 2010.
Berber Sardinha, T. (2010). Corpus Linguistics and Metaphor. Conferência plenária apresentada em 2nd International Conference on Corpus Linguistics (CILC), A Coruña, Spain, May 13-15, 2010.
Berber Sardinha, T. (2010). A Linguística de Corpus na Prática. Santiago de Compostela, Espanha: Universidade de Santiago de Compostela, Espanha, 2010.
Berber Sardinha, T. (2010). Corpus Linguistics. Murcia, Espanha: Universidade de Murcia, Espanha, 2010.

Corpus Brasileiro anotado, versão de 8 de março de 2017, v. 4.2

Tony Berber Sardinha, a quem estamos gratos pela autorização para a disponibilização deste corpus, agradece à Fapesp o financiamento do projeto.

Estrutura do corpo

O corpo está apenas dividido em frases (s).

Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:

generoGêneroFonte
eiAcadêmicoArtigos
ejAcadêmicoTeses e dissertações
eqAcadêmicoAnais de congresso
enCinema e TVRoteiros
ee/efEducaçãoDiversos
ee/efEducaçãoDiversos
etEnciclopédiaWikipédia
faEsporteNarração de jogos de futebol
ekInformáticaManuais
edJornalismoRevistas
egJornalismoJornais
eoJornalismoHoróscopo
feJornalismoEntrevistas
em/exLegislaçãoDiversos
em/exLegislaçãoDiversos
ebLiteraturaContos
ecLiteraturaCrônicas
eh/ewLiteraturaVariados
eh/ewLiteraturaVariados
euLiteraturaBiografias
eaMedicinaBulas de remédio
epPolíticaAtas de assembléia legislativa
fbPolíticaDebates de TV
fcPolíticaPronunciamentos do presidente
fdPolíticaSessões do congresso
elReligiãoDiversos
evReligiãoBíblia
er/esTécnicoRelatórios e manuais diversos
er/esTécnicoRelatórios e manuais diversos

Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.

GéneroUnidades
ea 114.270
eb 60.799
ec 161.009
ed 494.263
ee 73.704.749
ef 3.024.039
eg 250.700.829
eh 1.373.051
ei 260.931.229
ej 296.344.947
ek 526.155
el 909.857
em 237.707
en 254.352
eo 4.304
ep 3.896.654
eq 5.966.725
er 3.728.806
es 6.479.948
et 37.853.048
eu 578.678
ev 836.900
ew 6.156.028
ex 7.606.564
fa 86.466
fb 22.040
fc 1.805.774
fd 76.690.106
fe 4.004.892

Dados quantitativos

Corpo CBRAS Número de formasNúmero de tipos
Unidades 11755686265576618
Total de palavras 9900619555070740
Palavras em minúscula 6814542291339533
Palavras com inicial maiúscula1401525041139437
Palavras todas em maiúsculas 12318625297950
Números 22335162103914
Palavras com números2560607455972
Palavras mistas3018778226388
Pontuação65784288488437

Número de unidades estruturais

Atributo Número
p 97
s 42540575
mwe 14607557

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 9503589 122378154
Locuções 14607557 30827399
Palavras gráficas 990061986 990061986
Palavras simples 836856433 836856433
Palavras 860967579 990061986

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 226763250 27,10%
Verbos V.* 107486560 12,84%
Adjectivos ADJ.* 62719888 7,49%
Pronomes pessoais .*PERS.* 9262441 1,11%
Preposições PRP.* 158380276 18,93%
Conjunções K.* 39690029 4,74%
Advérbios ADV.* 34207779 4,09%
Determinantes .*DET.* 138933494 16,60%
Especificadores .*SPEC.* 11114109 1,33%
Numerais NUM.* 35983026 4,30%

^Voltar ao início da página

Corpo CD HAREM

O corpo CDHAREM contém as colecções douradas usadas no HAREM (avaliação conjunta de sistemas de Reconhecimento de Entidades Mencionadas), tanto no Primeiro (criadas em 2005 e 2006) como no Segundo (criada em 2008). A forma como este corpo foi criado encontra-se pormenorizadamente descrita em Rocha & Santos (2007).

Corpus Colecção Dourada do HAREM, a partir das versões das CD do Primeiro HAREM de 2007, anotado em 3 de Maio de 2010, criado a 15 de Maio de 2010, versão 3.2

Estrutura do corpo

  • Atributos estruturais:
  • Atributos posicionais relacionados com a anotação das entidades:

    Dados quantitativos

    Corpo CDHAREM Número de formasNúmero de tipos
    Unidades 29000131214
    Total de palavras 22576630985
    Palavras em minúscula 16561719241
    Palavras com inicial maiúscula327377956
    Palavras todas em maiúsculas 14001046
    Números 2887564
    Palavras com números12383
    Palavras mistas14995
    Pontuação15197229

    Número de unidades estruturais

    Atributo Número
    DOC 386
    TEXTO 386
    LOCAL 3494
    ORGANIZACAO 2621
    VALOR 1153
    COISA 640
    ACONTECIMENTO 501
    OBRA 863
    PESSOA 4014
    TEMPO 1970
    ABSTRACCAO 1195
    VARIADO 54
    OUTRO 110
    p 7262
    s 12530
    ALT 533
    EM 15908
    mwe 3913

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 12178 22866
    Locuções 3913 8318
    Palavras gráficas 225766 225766
    Palavras simples 194582 194582
    Palavras 210673 225766

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 45363 23,31%
    Verbos V.* 30984 15,92%
    Adjectivos ADJ.* 12191 6,27%
    Pronomes pessoais .*PERS.* 5198 2,67%
    Preposições PRP.* 35007 17,99%
    Conjunções K.* 10098 5,19%
    Advérbios ADV.* 13231 6,80%
    Determinantes .*DET.* 38627 19,85%
    Especificadores .*SPEC.* 3841 1,97%
    Numerais NUM.* 4667 2,40%

    ^Voltar ao início da página

    Corpo CETEMPúblico

    O CETEMPúblico contém cerca de 190 milhões de palavras extraídas do diário PÚBLICO. Veja-se a página oficial do CETEMPúblico para mais informação.

    Corpus CETEMPúblico anotado: versão 1.7 do texto, criada a 18 de setembro de 2001, anotada em abril de 2018, v. 9.1

    Estamos gratos ao Público pela gentil disponibilização dos textos.
    Estamos especialmente gratos a José Vitor Malheiros, director da versão electrónica, sem o qual este corpo não existiria, e a Paulo Almeida pelo apoio técnico com os ficheiros electrónicos.

    Estrutura do corpo

    Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase], t [título ou subtítulo], a [identificação do autor], li [elemento de lista], marca.

    Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.

    semestretamanhocltclt-soccomdesecondopipolsoc
    91a740016165111118737308791225217772888802010071841264792
    91b142130331250551214970014290229473675734808021552292481086
    92a1529749325024205335960151904415266742093867039195543202338
    92b114949142214687438924013176261301900508232027050843008461
    93a152155583161052900788014905951686760598533034056663972164
    93b1213839622546305830890127027312696161076943025662033117642
    94a1534635130174298700080151761615826141469611032946663594407
    94b1483646027662328715060160771515805521726811029124893371155
    95a16612990275606510851600181590316183801927961030784354331086
    95b1565463022142819358060161619614260662061149032601284141004
    96a1192213016314020132711428357968680120586462529221334303915834
    96b116160131596136001547010796462124149461806819008293916014
    97a98948921361007016990132038867545892120862149916410063337336
    97b993295113549720243436123903765706593978856652118074543124678
    98a12895951145342403877221522971797058176128364371419740994355680
    98b894576910436830277366105024456958285684742937216437183074957
    Todos 31229082662122093878522571119179260112701320135044663940517454208634

    Dados quantitativos

    Corpo CETEMPUBLICO Número de formasNúmero de tipos
    Unidades 235220800965919
    Total de palavras 190683676933721
    Palavras em minúscula 143850299269573
    Palavras com inicial maiúscula23953816309168
    Palavras todas em maiúsculas 111982322095
    Números 182819710643
    Palavras com números25472616179
    Palavras mistas11735529371
    Pontuação1273401630142

    Número de unidades estruturais

    Atributo Número
    p 2571709
    s 7078619
    ext 1503496
    t 653104
    a 247330
    mwe 3724567
    marca 3829

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 11724282 19566849
    Locuções 3724567 7907034
    Palavras gráficas 190683676 190683676
    Palavras simples 163209793 163209793
    Palavras 178658642 190683676

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 38078042 23,33%
    Verbos V.* 24499651 15,01%
    Adjectivos ADJ.* 11560915 7,08%
    Pronomes pessoais .*PERS.* 2875328 1,76%
    Preposições PRP.* 33848751 20,74%
    Conjunções K.* 7765576 4,76%
    Advérbios ADV.* 9571968 5,86%
    Determinantes .*DET.* 34792229 21,32%
    Especificadores .*SPEC.* 3357951 2,06%
    Numerais NUM.* 4510134 2,76%

    ^Voltar ao início da página

    Corpo CHAVE

    O corpus CHAVE contém textos jornalísticos dos jornais Público e Folha de São Paulo dos anos de 1994 e 1995. Este corpus foi criado no âmbito da participação da língua portuguesa no CLEF. Para citar a colecção CHAVE, use Santos & Rocha (2005) ou uma descrição geral do CLEF em Rocha & Santos (2007). Pode obter o corpus completo em formato texto requerendo-o nesta página.

    Corpus CHAVE, anotado em março de 2018, v. 7.0

    Agradecemos ao PÚBLICO e à Folha de São Paulo a gentil autorização de disponibilização dos textos.

    Estrutura do corpo

    Marcadores estruturais: DOC [documento], s [frase], CATEGORY (secção do jornal), AUTHOR (autor do texto), NE (lista de nomes próprios contidos no documento, usando a anotação do PALAVRAS).

    Dados quantitativos

    Corpo CHAVE Número de formasNúmero de tipos
    Unidades 126191857730279
    Total de palavras 98301578702806
    Palavras em minúscula 71907873226503
    Palavras com inicial maiúscula12881530232209
    Palavras todas em maiúsculas 62173116865
    Números 10990097609
    Palavras com números1072989917
    Palavras mistas14812815194
    Pontuação675505324964

    Número de unidades estruturais

    Atributo Número
    s 4707027
    t 572510
    p 2244579
    mwe 1785420
    data 207976
    DOC 208401
    CATEGORY 208202
    EM 0

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 6107151 10147064
    Locuções 1785420 3796846
    Palavras gráficas 98301578 98301578
    Palavras simples 84357668 84357668
    Palavras 92250239 98301578

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 20182692 23,93%
    Verbos V.* 12768668 15,14%
    Adjectivos ADJ.* 5884594 6,98%
    Pronomes pessoais .*PERS.* 1475117 1,75%
    Preposições PRP.* 17009477 20,16%
    Conjunções K.* 3976277 4,71%
    Advérbios ADV.* 4683931 5,55%
    Determinantes .*DET.* 17479559 20,72%
    Especificadores .*SPEC.* 1625612 1,93%
    Numerais NUM.* 2448248 2,90%

    ^Voltar ao início da página

    Corpo Ciência Viva

    O corpo Ciência Viva é constituído por notícias de jornal promovidas pela plataforma "Ciência na Imprensa Regional". Esta é uma iniciativa da Ciência Viva - Agência Nacional para a Cultura Científica e Tecnológica, lançada em 2011, com o objetivo de estimular a comunicaçâo de ciência na imprensa regional em Portugal.

    A plataforma "Ciência na Imprensa Regional", http://imprensaregional.cienciaviva.pt, é um sistema digital de edição e distribuição de conteúdos de divulgação científica da autoria de cientistas e profissionais de comunicação de ciência. Após edição e catalogação os conteúdos ficam disponíveis para publicação por todos os órgãos de comunicação social, locais e regionais.

    Corpo CIENCIAVIVA, criado a 18 de junho de 2018, v. 1.4

    Agradecemos a Carlos Catalão Alves, da Direção da Ciência Viva, esta colaboração.

    Estrutura do corpo

    O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

    Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

    Dados quantitativos

    Corpo CIENCIAVIVA Número de formasNúmero de tipos
    Unidades 85509942945
    Total de palavras 65572142028
    Palavras em minúscula 50021426545
    Palavras com inicial maiúscula775469397
    Palavras todas em maiúsculas 3884746
    Números 7717776
    Palavras com números1155546
    Palavras mistas407215
    Pontuação34902636

    Número de unidades estruturais

    Atributo Número
    p 12384
    s 27151
    texto 1123
    t 1124
    mwe 12502

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 34338 62785
    Locuções 12502 26459
    Palavras gráficas 655721 655721
    Palavras simples 566477 566477
    Palavras 613317 655721

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 143221 25,28%
    Verbos V.* 79486 14,03%
    Adjectivos ADJ.* 47236 8,34%
    Pronomes pessoais .*PERS.* 8230 1,45%
    Preposições PRP.* 113805 20,09%
    Conjunções K.* 28159 4,97%
    Advérbios ADV.* 29787 5,26%
    Determinantes .*DET.* 118773 20,97%
    Especificadores .*SPEC.* 10444 1,84%
    Numerais NUM.* 13237 2,34%

    ^Voltar ao início da página

    Corpo Colonia

    O Colonia é um corpo eletrônico anotado compilado para pesquisa sobre a história da língua portuguesa, com textos escritos entre 1500 e 1936, desenvolvido pela Universidade de Colónia (Köln). A sua página principal é http://corporavm.uni-koeln.de/colonia/ onde todas as informações estão disponíveis. Veja também Zampieri & Becker (2013). (Nota: À versão do AC/DC faltam ainda cinco textos.)

    Corpus COLONIA, criado e anotado a 22 de dezembro de 2017, v. 3.2

    Agradecemos a todos os que tornarem este projeto viável, por terem digitalizado e tornado públicas obras de autores brasileiros.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o identificador original do projeto Colonia), tituloobra (o nome da obra), autor (o autor da obra) e dataobra. Também se encontram marcados, nas obras em que são relevantes, partes como parte, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), data, variante e seculo, contendo o século em que a obra foi publicada.

    Dados quantitativos

    Corpo COLONIA Número de formasNúmero de tipos
    Unidades 6024310172548
    Total de palavras 5028716172010
    Palavras em minúscula 3905993110480
    Palavras com inicial maiúscula47691230108
    Palavras todas em maiúsculas 3498503
    Números 70861056
    Palavras com números5238
    Palavras mistas2074891
    Pontuação368125404

    Número de unidades estruturais

    Atributo Número
    p 0
    s 208989
    texto 0
    parte 1728
    mwe 95164

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 177219 234182
    Locuções 95164 204075
    Palavras gráficas 5028716 5028716
    Palavras simples 4590459 4590459
    Palavras 4862842 5028716

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 932155 20,31%
    Verbos V.* 824238 17,96%
    Adjectivos ADJ.* 278801 6,07%
    Pronomes pessoais .*PERS.* 242246 5,28%
    Preposições PRP.* 696560 15,17%
    Conjunções K.* 288864 6,29%
    Advérbios ADV.* 335404 7,31%
    Determinantes .*DET.* 849114 18,50%
    Especificadores .*SPEC.* 121739 2,65%
    Numerais NUM.* 41210 0,90%

    ^Voltar ao início da página

    Corpo CONDIVport

    O corpus CONDIVport é o subcorpus de textos dos domínios do futebol, do vestuário/moda e da saúde das décadas de 50, 70 e 2000 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

    Este subcorpus contém 3981 extractos de textos de jornais desportivos portugueses e brasileiros, das décadas de 1950, 1970 e 2000; 4372 textos (agrupados em 82 extractos, ou seja, provenientes de 82 edições) de revistas de moda portuguesas e brasileiras, das décadas de 1950, 1970, e 1990-2000, assim como 1815 textos de revistas e jornais de saúde nos mesmos períodos.

    Corpus CONDIV, versão texto (futebol) de 15 de Fevereiro de 2006, versão texto (moda) de 18 de Dezembro de 2008, versão texto (saúde) de 2 de Fevereiro de 2010, anotado em 22 de Junho de 2013, v. 9.6

    Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.

    Estrutura do corpo

    O corpo está dividido em extractos, assinalados pelo atributo ext; cada extracto está dividido em parágrafos (atributo p) e frases (atributo s). Nos casos da moda e da saúde, os extractos estão ainda subdivididos em textos, que correspondem a notícias completas. Além disso, o CONDIVport contém os atributos posicionais decada (valores: 50, 70, 2000), variante (valores: PT, BR), texto (valores:t1 a tN) e fonte. Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

    TamanhoFutebolModa/vestuárioSaúde
    PT333341116792903168531337268
    BR26493791367115801410480854
    Todos 304640511182731818122

    Dados quantitativos

    Corpo CONDIV Número de formasNúmero de tipos
    Unidades 7159365152218
    Total de palavras 5576544150160
    Palavras em minúscula 419526081380
    Palavras com inicial maiúscula65507838628
    Palavras todas em maiúsculas 136513380
    Números 729511741
    Palavras com números2500773
    Palavras mistas47681247
    Pontuação4064631982

    Número de unidades estruturais

    Atributo Número
    ext 4081
    texto 6223
    p 148171
    s 318359
    mwe 108370

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 240547 374521
    Locuções 108370 229017
    Palavras gráficas 5576544 5576544
    Palavras simples 4973006 4973006
    Palavras 5321923 5576544

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1217922 24,49%
    Verbos V.* 752556 15,13%
    Adjectivos ADJ.* 387706 7,80%
    Pronomes pessoais .*PERS.* 103589 2,08%
    Preposições PRP.* 877885 17,65%
    Conjunções K.* 266812 5,37%
    Advérbios ADV.* 312359 6,28%
    Determinantes .*DET.* 963520 19,38%
    Especificadores .*SPEC.* 78340 1,58%
    Numerais NUM.* 132233 2,66%

    ^Voltar ao início da página

    Corpo CONDIVport2

    O corpus CONDIVport2 é o subcorpus de textos dos domínios da política e da sociedade da década de 2010 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

    Este subcorpus contém por agora 66150 unidades do Jornal do Brasil (brasileiro) e 57542 do Diário de Notícias (português), perfazendo 344 textos.

    Corpus CONDIV2, versão texto de 15 de maio de 2017, v. 1.0

    Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.

    Estrutura do corpo

    O corpo está dividido em textos, assinalados pelo atributo texto; cada texto está dividido em parágrafos (atributo p) e frases (atributo s). Além disso, o CONDIVport2 contém os atributos posicionais variante (valores: PT, BR), id (valores: 1 a tN), tema, e fonte. Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

    TamanhoFutebolModa/vestuárioSaúde
    PT333341116792903168531337268
    BR26493791367115801410480854
    Todos 304640511182731818122

    Dados quantitativos

    Corpo CONDIV2 Número de formasNúmero de tipos
    Unidades 14259416461
    Total de palavras 11709416314
    Palavras em minúscula 8771811136
    Palavras com inicial maiúscula153303748
    Palavras todas em maiúsculas 771243
    Números 1492305
    Palavras com números11055
    Palavras mistas19728
    Pontuação6598131

    Número de unidades estruturais

    Atributo Número
    texto 344
    p 2714
    s 4373
    mwe 1948

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 7134 12866
    Locuções 1948 4087
    Palavras gráficas 117094 117094
    Palavras simples 100141 100141
    Palavras 109223 117094

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 25090 25,05%
    Verbos V.* 15215 15,19%
    Adjectivos ADJ.* 6193 6,18%
    Pronomes pessoais .*PERS.* 1195 1,19%
    Preposições PRP.* 21313 21,28%
    Conjunções K.* 4849 4,84%
    Advérbios ADV.* 4689 4,68%
    Determinantes .*DET.* 21135 21,11%
    Especificadores .*SPEC.* 1838 1,84%
    Numerais NUM.* 2998 2,99%

    ^Voltar ao início da página

    Corpo CoNE

    O corpus CoNE (Correio Não Endereçado) é um corpus de mensagens não-endereçadas em português.

    O corpus foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 24 de Janeiro de 2006.

    Versão do corpus de 15 de Janeiro de 2006, anotado a 19 de Março de 2011, e criado a 22 de Junho de 2013, v. 4.6

    Estrutura do corpo

    O corpus está dividido em mensagens, marcadas pelo atributo mens, com informação da data . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

    Dados quantitativos

    Corpo CONE Número de formasNúmero de tipos
    Unidades 92298043833
    Total de palavras 67546241030
    Palavras em minúscula 39422918492
    Palavras com inicial maiúscula15891813518
    Palavras todas em maiúsculas 119631998
    Números 14960867
    Palavras com números2871678
    Palavras mistas3408404
    Pontuação640392797

    Número de unidades estruturais

    Atributo Número
    p 19145
    s 31097
    mwe 8232
    autor 1939
    mens 1939
    assunto 1894
    div 0
    li 26523
    t 1285
    cita 0

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 58040 119833
    Locuções 8232 17419
    Palavras gráficas 675462 675462
    Palavras simples 538210 538210
    Palavras 604482 675462

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 158814 29,51%
    Verbos V.* 67774 12,59%
    Adjectivos ADJ.* 36669 6,81%
    Pronomes pessoais .*PERS.* 8971 1,67%
    Preposições PRP.* 93431 17,36%
    Conjunções K.* 31871 5,92%
    Advérbios ADV.* 23734 4,41%
    Determinantes .*DET.* 82091 15,25%
    Especificadores .*SPEC.* 5208 0,97%
    Numerais NUM.* 25828 4,80%

    ^Voltar ao início da página

    Corpo C-Oral-Brasil

    O corpo C-ORAL-BRASIL foi criado pelo projeto C-Oral-Brasil, que "se dedica ao estudo da fala espontânea do português brasileiro, através da compilação de um corpus de textos orais produzidos em contexto natural".

    O corpo foi criado simplesmente passando o material distribuído no CD-ROM em formato texto (extensão .txt) pelo conjunto de programas de processamento e anotação sintática e semântica do AC/DC.

    As hesitações e repetições foram (por enquanto) removidas, e as pausas longas foram convertidas em ponto de fim de frase, e as pausas curtas em vírgula. Para tornar o texto mais parecido com as convenções gráficas do português escrito, a primeira letra de cada frase foi passada para maiúscula.

    Corpus CoralBrasil, anotado a 31 de Maio de 2014, v. 3.2

    Estamos gratos a Heliana Mello e Tommaso Raso pela autorização de disponibilização do corpo através do AC/DC, e a toda a equipa do C-ORAL-BRASIL pela compilação do corpo.

    Estrutura do corpo

    O corpo está dividido em arquivos, marcados pelo atributo fich, contendo por sua vez falas, marcadas pelo atributo fala, com informação do nome ou identificação do falante . Além disso, sempre que começa um novo interveniente, está marcado através do atributo estrutural personagem. O corpo está além disso dividido em frases, s, obtidas através das pausas fornecidas pelos compiladores do C-ORAL-BRASIL.

    Dados quantitativos

    Corpo CORALBRASIL Número de formasNúmero de tipos
    Unidades 46451215022
    Total de palavras 26339614866
    Palavras em minúscula 16386010311
    Palavras com inicial maiúscula335733267
    Palavras todas em maiúsculas 16154254
    Números 2803483
    Palavras com números
    Palavras mistas3661141
    Pontuação2940711

    Número de unidades estruturais

    Atributo Número
    p 0
    s 30629
    fala 19399
    personagem 19384
    mwe 3177

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 25663 26401
    Locuções 3177 6691
    Palavras gráficas 263396 263396
    Palavras simples 230304 230304
    Palavras 259144 263396

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 37015 16,07%
    Verbos V.* 47598 20,67%
    Adjectivos ADJ.* 7645 3,32%
    Pronomes pessoais .*PERS.* 11444 4,97%
    Preposições PRP.* 18372 7,98%
    Conjunções K.* 19456 8,45%
    Advérbios ADV.* 24634 10,70%
    Determinantes .*DET.* 26521 11,52%
    Especificadores .*SPEC.* 5759 2,50%
    Numerais NUM.* 5849 2,54%

    ^Voltar ao início da página

    Corpo DiaCLAV

    O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line. Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contêm textos semelhantes, embora não haja casos de artigos exactamente iguais.

    Corpus DIACLAV, versão texto criada em Abril de 2002, anotado em Abril de 2011, v. 5.4

    Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.

    Estrutura do corpo

    O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

    O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

    Dados quantitativos

    Corpo DIACLAV Número de formasNúmero de tipos
    Unidades 7723448110094
    Total de palavras 6551019107961
    Palavras em minúscula 491059458847
    Palavras com inicial maiúscula84704628964
    Palavras todas em maiúsculas 395122141
    Números 587001330
    Palavras com números64521047
    Palavras mistas2331805
    Pontuação3809882132

    Número de unidades estruturais

    Atributo Número
    p 24439
    s 210363
    art 12802
    t 12802
    a 5726
    mwe 129533

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 352227 689552
    Locuções 129533 271993
    Palavras gráficas 6551019 6551019
    Palavras simples 5589474 5589474
    Palavras 6071234 6551019

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1346249 24,09%
    Verbos V.* 865062 15,48%
    Adjectivos ADJ.* 353060 6,32%
    Pronomes pessoais .*PERS.* 85864 1,54%
    Preposições PRP.* 1144561 20,48%
    Conjunções K.* 284326 5,09%
    Advérbios ADV.* 337300 6,03%
    Determinantes .*DET.* 1179105 21,10%
    Especificadores .*SPEC.* 105583 1,89%
    Numerais NUM.* 127033 2,27%

    ^Voltar ao início da página

    Corpo Diáspora TL-PT

    O corpo Diáspora TL-PT (Diáspora Timor Leste - Portugal) é um corpo de 12 entrevistas semi-guiadas a membros da comunidade timorense em Portugal, perfazendo seis horas de gravação, compiladas e transcritas no âmbito do projeto Patterns of multilingualism among different generations of the East-Timorese diasporic community in Portugal liderado por Susana Afonso e Francesco Goglia da Universidade de Exeter, no Reino Unido, e financiado pela British Academy (Small Grant SG100616). Para mais informação veja-se Afonso & Goglia (2012).

    O corpo Diáspora TL-PT é composto por 12 ficheiros correspondendo cada um a uma entrevista.

    Os entrevistados, membros da comunidade timorense em Portugal, têm diferentes idades e foram escolhidos para, tanto quanto possível, representarem as diferentes vagas de migração para Portugal

    Como citar o corpo Diáspora TL-PT:

    • Goglia, Francesco e Afonso, Susana. 2012. "Multilingualism and Language Maintenance in the East Timorese Diaspora in Portugal". Ellipsis (Journal of the American Portuguese Studies Association), 10: 97-123.
    • Afonso, Susana e Goglia, Francesco. no prelo. "Linguistic innovations in the immigration context as initial stages of a partially restructured variety: evidence from SE constructions in the Portuguese of the East-Timorese diaspora in Portugal". Studies in Hispanic and Lusophone Linguistics.

    Corpus Diáspora TL - PT, anotado em outubro de 2013, criado a 13 de outubro de 2013, v. 1.4

    Susana Afonso e Francesco Goglia agradecem a João Barros e Hercus Pereira pela recolha dos dados e a todos os que aceitaram participar no projecto.

    Estrutura do corpo

    Marcadores posicionais: ent Marcadores estruturais: entrevista, pergunta, resposta, p [parágrafo], s [frase].

    Dados quantitativos

    Corpo DIASPORA Número de formasNúmero de tipos
    Unidades 293653078
    Total de palavras 218553051
    Palavras em minúscula 164772334
    Palavras com inicial maiúscula2295524
    Palavras todas em maiúsculas 2613
    Números 13455
    Palavras com números
    Palavras mistas33
    Pontuação183723

    Número de unidades estruturais

    Atributo Número
    pergunta 245
    s 1036
    v 0
    resposta 213
    entrevista 5
    mwe 347

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 711 908
    Locuções 347 750
    Palavras gráficas 21855 21855
    Palavras simples 20197 20197
    Palavras 21255 21855

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 3424 16,95%
    Verbos V.* 3768 18,66%
    Adjectivos ADJ.* 776 3,84%
    Pronomes pessoais .*PERS.* 727 3,60%
    Preposições PRP.* 2792 13,82%
    Conjunções K.* 1275 6,31%
    Advérbios ADV.* 2445 12,11%
    Determinantes .*DET.* 3023 14,97%
    Especificadores .*SPEC.* 518 2,56%
    Numerais NUM.* 283 1,40%

    ^Voltar ao início da página

    Corpo ECI-EBR

    O corpo ECI-EBR foi criado pela ECI (European Corpus Initiative; Thomson et al. 1994) , baseado no corpo Borba-Ramsey. É uma selecção de excertos de obras brasileiras, contendo pelo menos discurso literário, didáctico e oral cuidado (discursos políticos). O corpo contém pouco mais de 700 mil palavras, e estava codificado em SGML muito leve (além do cabeçalho, apenas continha marcas de parágrafos), cf. a informação da ELSNET.

    Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.

    Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:

    Dentro do género jornalismo, incluímos as subdivisões: crónica, cultura, desporto, economia, entretenimento, generalidades, internacional, país, religião, reportagem, saúde, sociedade, título.

    Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.

    Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.

    Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).

    O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.

    Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:

    GéneroUnidadesTextos
    Literatura 384.961 157
    Informativo 203.436 288
    Jornalismo 89.086 537
    Oral 66.092 29
    Outros 16.419 33
    Indef 16.935 82
    AssuntosUnidadesTextos
    Agricultura 3458 8
    Arqueologia 1681 3
    Arte 4255 4
    Astrologia 1294 1
    Biologia 3662 3
    Botânica 6095 4
    Ciência 7402 9
    Clima 302 1
    Crónica 3761 11
    Culinária 1316 1
    Cultura 5795 44
    Desporto 8227 39
    Direito 1746 4
    Ecologia 326 2
    Economia 18441 60
    Edição 823 1
    Educação 1105 1
    Entretenimento 5084 31
    Entrevista 592 3
    Escutismo 424 1
    Estatística 1253 1
    Filatelia 1113 1
    Filosofia 3470 3
    Física 627 1
    Fotografia 1056 2
    Generalidades 5411 44
    Generealidades 120 1
    Geografia 3721 6
    Geologia 77 1
    Gestão 2247 2
    Hidrografia 1280 1
    História 35242 30
    Indef 484736 1
    Indústria 1375 3
    Internacional 8196 57
    Jornalismo 284 537
    Linguística 8066 11
    Literatura 8234 14
    Maternidade 344 1
    Medicina 16881 18
    Música 1717 3
    Oceanografia 302 1
    País 44860 206
    Política 19780 36
    Psicologia 2412 5
    Religião 21243 32
    Reportagem 1298 3
    Saúde 4615 19
    Sociedade 7399 58
    Sociologia 10432 15
    Título 174 12
    Turismo 188 1
    Zoologia 2987 15

    Corpus ECI-EBR, versão texto de Abril de 2002, anotado a 30 de Junho de 2014, criado a 7 de julho de 2014, v. 10.0

    Agradecemos aos compiladores do corpus por o terem criado e tornado público.

    Estrutura do corpo

    A partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).

    A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.

    Marcadores estruturais: s, p, ext e marca.

    Dados quantitativos

    Corpo ECI-EBR Número de formasNúmero de tipos
    Unidades 92245860399
    Total de palavras 72399560204
    Palavras em minúscula 56899642157
    Palavras com inicial maiúscula7342812232
    Palavras todas em maiúsculas 19246
    Números 1994459
    Palavras com números5340
    Palavras mistas193119
    Pontuação52933195

    Número de unidades estruturais

    Atributo Número
    ext 1107
    p 12116
    s 43543
    marca 3
    mwe 15154

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 19410 32991
    Locuções 15154 32557
    Palavras gráficas 723995 723995
    Palavras simples 658447 658447
    Palavras 693011 723995

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 149897 22,77%
    Verbos V.* 114484 17,39%
    Adjectivos ADJ.* 45310 6,88%
    Pronomes pessoais .*PERS.* 25054 3,81%
    Preposições PRP.* 108566 16,49%
    Conjunções K.* 35199 5,35%
    Advérbios ADV.* 46862 7,12%
    Determinantes .*DET.* 125972 19,13%
    Especificadores .*SPEC.* 13685 2,08%
    Numerais NUM.* 9136 1,39%

    ^Voltar ao início da página

    Corpo ECI-EE

    O corpus ECI-EE foi criado pela ECI (European Corpus Initiative, Thomson et al. 1994), e contém o anúncio do programa comunitário ESPRIT . O corpus usa uma codificação SGML leve, com parágrafos e secções/artigos numerados, o que produziu alguns problemas em relação à separação de notas de rodapé (apenas indicadas graficamente por linhas iniciadas por tabuladores, e que tiveram de ser reconstituídas e colocadas após o parágrafo respectivo).

    Pode também consultar a informação da ELSNET.

    Corpus ECI-EE, versão de Abril de 2002, anotado em 8 de Março de 2011, criado a 22 de Junho de 2013, v. 6.6

    Agradecemos aos compiladores do corpus por o terem criado e tornado publico.

    Estrutura do corpo

    Marcadores estruturais: s, p, titulo, nota, marca.

    Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
    <marca num=3> <nota num=3>

    Dados quantitativos

    Corpo ECI-EE Número de formasNúmero de tipos
    Unidades 321344254
    Total de palavras 271304091
    Palavras em minúscula 217443332
    Palavras com inicial maiúscula1786391
    Palavras todas em maiúsculas 19541
    Números 459101
    Palavras com números22
    Palavras mistas1125
    Pontuação1229160

    Número de unidades estruturais

    Atributo Número
    p 340
    s 839
    t 0
    nota 27
    marca 27
    mwe 608

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 641 1008
    Locuções 608 1319
    Palavras gráficas 27130 27130
    Palavras simples 24803 24803
    Palavras 26052 27130

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 6929 27,94%
    Verbos V.* 2920 11,77%
    Adjectivos ADJ.* 2423 9,77%
    Pronomes pessoais .*PERS.* 414 1,67%
    Preposições PRP.* 5285 21,31%
    Conjunções K.* 1327 5,35%
    Advérbios ADV.* 960 3,87%
    Determinantes .*DET.* 4970 20,04%
    Especificadores .*SPEC.* 286 1,15%
    Numerais NUM.* 698 2,81%

    ^Voltar ao início da página

    Corpo ENPCPUB (parte em português)

    O corpus ENPCPUB é um corpus de traduções para português de textos literários em inglês (Johansson et al., 1996, 1999; Oksefjell 1999). Apenas recebemos autorização para dar acesso a uma pequena parte do corpus ENPC, nomeadamente extractos dos textos (identificação do ENPC):
    CódigoAutorObraEditoraAnoTradutor(a)Título original
    JB1PPJulian BarnesAmor & C.aQuetzal Editores, Lisboa1994Helena CardosoTalking It Over.
    BC1Bruce ChatwinUtzQuetzal Editores, Lisboa1991José Luís LunaUtz.
    AH1Arthur HaileyRemédio AmargoDistribuidora Record, Rio de Janeiros/dA.B.P. de Lemos. Strong Medicine.
    JH1Joseph HellerImaginem queDifusão Cultural, Lisboa1991Cristina Rodriguez. Picture This.
    NG1Nadine GordimerA história do meu filhoEditora Siciliano, São Paulo1992Geraldo Galvão FerrazMy Son's Story.

    O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).

    Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).
    Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".

    Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado a 14 de maio de 2014, v. 7.7

    Estamos gratos a Stig Johansson e à equipa do ENPC pela colaboração na criação deste corpus, e aos detentores dos direitos de autor pela autorizações gentilmente cedidas.

    Estrutura do corpo

    Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.
    Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".
    O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).

    Dados quantitativos

    Corpo ENPCPUB Número de formasNúmero de tipos
    Unidades 9316412895
    Total de palavras 7237412874
    Palavras em minúscula 5762110250
    Palavras com inicial maiúscula70771689
    Palavras todas em maiúsculas 4119
    Números 13778
    Palavras com números11
    Palavras mistas1613
    Pontuação536321

    Número de unidades estruturais

    Atributo Número
    p 1682
    s 4369
    texto 5
    parte 8
    capitulo 25
    mwe 1639

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 2542 3305
    Locuções 1639 3567
    Palavras gráficas 72374 72374
    Palavras simples 65502 65502
    Palavras 69683 72374

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 13273 20,26%
    Verbos V.* 12774 19,50%
    Adjectivos ADJ.* 3853 5,88%
    Pronomes pessoais .*PERS.* 3101 4,73%
    Preposições PRP.* 10737 16,39%
    Conjunções K.* 3963 6,05%
    Advérbios ADV.* 5434 8,30%
    Determinantes .*DET.* 12183 18,60%
    Especificadores .*SPEC.* 1562 2,38%
    Numerais NUM.* 775 1,18%

    ^Voltar ao início da página

    Corpo Floresta

    O corpo FLORESTA contém o material anotado criado no âmbito do projecto Floresta Sintá(c)tica , em particular o Bosque, a Floresta Virgem e a Amazónia. Informação detalhada sobre o conteúdo textual encontra-se aqui

    Corpus Floresta, a partir do material da Floresta de Junho de 2010, anotado semanticamente a 22 de Junho de 2013, v. 2.5

    Estrutura do corpo

  • Atributos estruturais:
  • Atributos posicionais:

    Dados quantitativos

    Corpo FLORESTA Número de formasNúmero de tipos
    Unidades 7252530182669
    Total de palavras 6046536179536
    Palavras em minúscula 452998488948
    Palavras com inicial maiúscula73825558232
    Palavras todas em maiúsculas 279753959
    Números 504011606
    Palavras com números3760935
    Palavras mistas58142248
    Pontuação3213013132

    Número de unidades estruturais

    Atributo Número
    ext 24398
    s 326667
    mwe 103159

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 284084 503417
    Locuções 103159 217445
    Palavras gráficas 6046536 6046536
    Palavras simples 5325674 5325674
    Palavras 5712917 6046536

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1238732 23,26%
    Verbos V.* 846993 15,90%
    Adjectivos ADJ.* 350522 6,58%
    Pronomes pessoais .*PERS.* 117329 2,20%
    Preposições PRP.* 958823 18,00%
    Conjunções K.* 272888 5,12%
    Advérbios ADV.* 325270 6,11%
    Determinantes .*DET.* 1036508 19,46%
    Especificadores .*SPEC.* 106992 2,01%
    Numerais NUM.* 99122 1,86%

    ^Voltar ao início da página

    Corpo FrasesPB

    O corpus FrasesPB é um conjunto de frases em português brasileiro.

    O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).

    Corpus FrasesPB, versão texto de 17 de Abril de 2002, anotado a 6 de Março de 2011, criado a 22 de Junho de 2013, v. 5.6

    Estrutura do corpo

    Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo. Em dois casos, contudo, o algoritmo separador de frases ainda conseguiu detectar unidades mais pequenas, dando origem pois a dois parágrafos com duas frases cada.

    Marcadores estruturais: s, p.

    Dados quantitativos

    Corpo FRASESPB Número de formasNúmero de tipos
    Unidades 233556020
    Total de palavras 191626008
    Palavras em minúscula 164225265
    Palavras com inicial maiúscula1051526
    Palavras todas em maiúsculas 1414
    Números 4935
    Palavras com números
    Palavras mistas55
    Pontuação73112

    Número de unidades estruturais

    Atributo Número
    p 648
    s 653
    mwe 430

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 251 410
    Locuções 430 923
    Palavras gráficas 19162 19162
    Palavras simples 17829 17829
    Palavras 18510 19162

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 4622 25,92%
    Verbos V.* 2893 16,23%
    Adjectivos ADJ.* 1429 8,02%
    Pronomes pessoais .*PERS.* 358 2,01%
    Preposições PRP.* 3269 18,34%
    Conjunções K.* 1015 5,69%
    Advérbios ADV.* 1051 5,89%
    Determinantes .*DET.* 3639 20,41%
    Especificadores .*SPEC.* 347 1,95%
    Numerais NUM.* 166 0,93%

    ^Voltar ao início da página

    Corpo FrasesPP

    O corpus FrasesPP é um conjunto de frases em português de Portugal, compilado para o teste de uma gramática computacional, desenvolvido no Grupo Científico IBM-INESC (depois Grupo de Linguagem Natural do INESC) de 1990 a 1992. (Santos (ed.) 1992; Medeiros et al. 1993). Encontrava-se em texto simples e em formato LaTeX.

    Corpo FrasesPP, anotado a 8 de Março de 2011, criado a 22 de Junho de 2013, v. 7.6

    Estrutura do corpo

    Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo.

    Marcadores estruturais: s, p.

    Os valores da anotação original encontram-se no atributo posicional pos2. Os valores deste atributo (A, N, V, VPP, PF, PONT e CL) foram atribuídos automaticamente e depois revistos manualmente nos casos em que as palavras obtiveram mais do que uma categoria.

    Dados quantitativos

    Corpo FRASESPP Número de formasNúmero de tipos
    Unidades 202185099
    Total de palavras 162365086
    Palavras em minúscula 135024243
    Palavras com inicial maiúscula1088569
    Palavras todas em maiúsculas 96
    Números 9750
    Palavras com números22
    Palavras mistas
    Pontuação74013

    Número de unidades estruturais

    Atributo Número
    p 594
    s 675
    mwe 351

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 262 431
    Locuções 351 759
    Palavras gráficas 16236 16236
    Palavras simples 15046 15046
    Palavras 15659 16236

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 3698 24,58%
    Verbos V.* 2285 15,19%
    Adjectivos ADJ.* 1289 8,57%
    Pronomes pessoais .*PERS.* 408 2,71%
    Preposições PRP.* 2784 18,50%
    Conjunções K.* 823 5,47%
    Advérbios ADV.* 981 6,52%
    Determinantes .*DET.* 3115 20,70%
    Especificadores .*SPEC.* 313 2,08%
    Numerais NUM.* 205 1,36%

    ^Voltar ao início da página

    Corpo Mariano Gago

    O corpus JMG contém artigos e notícias associadas a José Mariano Gago: obituários; testemunhos por ocasião da sua morte a 17 de abril de 2015; textos escritos por ele: discursos, cartas, outros textos; entrevistas; artigos sobre ele e a sua política; depoimentos de homenagem. Todos os textos em questão foram retirados da internete, exceto os que já constavam dos outros corpos jornalísticos do AC/DC. Veja a página sobre o corpo para mais informação.

    Sobretudo em relação às notícias do óbito, pode haver muito material repetido.

    Em maio de 2018 foram acrescentados muito mais textos anteriores que tinham sido preservados pelo Arquivo.pt, e espera-se continuar a aumentar o corpo dessa forma.

    Corpus JMG, criado em 11 de junho de 2018, v. 4.4

    Agradecemos profundamente ao Professor José Mariano Gago a sua atuação em prol da ciência e da investigação em torno do processamento da língua portuguesa.

    Estrutura do corpo

    O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

    Os valores de classe estão por enquanto marcados da seguinte forma: noticia, se é uma notícia de jornal (ou texto publicado num blogue) após a sua morte; discurso se é um discurso (ou outro texto escrito por Mariano Gago), entrevista se é uma entrevista feita a Mariano Gago. outros marca textos escritos com menção a Mariano Gago antes da sua morte, e vão de críticas a reportagens a simples descrições de acontecimentos. Finalmente, sitiohomenagem contém todos os textos colocado em marianogago.org.

    Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

    Distribuição por tipo de texto

    A sua distribuição, correspondendo à versão 4.4, é a seguinte:

    TipoDescriçãoTamanho
    noticia texto noticioso 166.296
    discurso discursos 17.862
    entrevista entrevistas 44.944
    outros outros 337.808
    sitiohomenagem sítio de homenagem 36.979

    Dado o número considerável de diferentes fontes, colocamos a origem de cada texto em ficheiros separados

    Mais textos (de Mariano Gago) previstos:

    Dados quantitativos

    Corpo JMG Número de formasNúmero de tipos
    Unidades 75657031992
    Total de palavras 57074531695
    Palavras em minúscula 42248921210
    Palavras com inicial maiúscula834936435
    Palavras todas em maiúsculas 4314575
    Números 5718359
    Palavras com números23479
    Palavras mistas239108
    Pontuação33144265

    Número de unidades estruturais

    Atributo Número
    p 11386
    s 23120
    texto 1374
    t 1539
    mwe 9498

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 36976 72307
    Locuções 9498 20202
    Palavras gráficas 570745 570745
    Palavras simples 478236 478236
    Palavras 524710 570745

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 112052 23,43%
    Verbos V.* 69386 14,51%
    Adjectivos ADJ.* 34821 7,28%
    Pronomes pessoais .*PERS.* 8674 1,81%
    Preposições PRP.* 99445 20,79%
    Conjunções K.* 27110 5,67%
    Advérbios ADV.* 26909 5,63%
    Determinantes .*DET.* 101873 21,30%
    Especificadores .*SPEC.* 10800 2,26%
    Numerais NUM.* 10050 2,10%

    ^Voltar ao início da página

    Corpo Marielle, presente!

    O corpus Marielle, presente! contém textos escritos por Marielle Franco, e textos escritos sobre ela. Veja-se esta página para uma defesa deste projeto.

    Sobretudo em relação às notícias sobre a sua morte, pode haver muito material repetido.

    Este corpo está ainda em construção.

    Corpus MARIELLE, criado em 26 de maio de 2018, v. 1.1

    Agradecemos a todos os que colaboraram na coleção dos textos e notícias...

    Estrutura do corpo

    O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

    O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

    Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

    Distribuição por tipo de texto

    Dados quantitativos

    Corpo EM PROGRESSO Número de formasNúmero de tipos
    Unidades 26071316953
    Total de palavras 20817416629
    Palavras em minúscula 15140211260
    Palavras com inicial maiúscula313283705
    Palavras todas em maiúsculas 1928345
    Números 2750260
    Palavras com números218140
    Palavras mistas14763
    Pontuação13032247

    Número de unidades estruturais

    Atributo Número
    p 890
    s 9339
    texto 402
    t 0
    mwe 3033

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 14628 27555
    Locuções 3033 6321
    Palavras gráficas 208174 208174
    Palavras simples 174298 174298
    Palavras 191959 208174

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 43854 25,16%
    Verbos V.* 25548 14,66%
    Adjectivos ADJ.* 12041 6,91%
    Pronomes pessoais .*PERS.* 2813 1,61%
    Preposições PRP.* 36772 21,10%
    Conjunções K.* 8897 5,10%
    Advérbios ADV.* 7169 4,11%
    Determinantes .*DET.* 36959 21,20%
    Especificadores .*SPEC.* 3081 1,77%
    Numerais NUM.* 4610 2,64%

    ^Voltar ao início da página

    Corpo Moçambula

    O corpus Moçambula foi criado no âmbito da tese de mestrado de Torun Reite na Universidade de Oslo, Reite (2013), e contém cartas de leitores publicadas em 2012 em vários jornais moçambicanos.

    Os jornais incluídos, e marcados no atributo posicional fonte são: Diário de Moçambique, Jornal A verdade, Notícias, O País e Savana.

    TipoDescriçãoTamanho
    DdM Diário de Moçambique 24.331
    VerdJornal A verdade 11.253
    Not Notícias 15.640
    PaísO País 7.250
    Sav Savana 2.719

    Corpo MOÇAMBULA, versão texto de novembro de 2012, anotado a 22 de junho de 2013 com moçambicanismos, revisto em 19 de outubro de 2013, v. 3.4

    Estrutura do corpo

    Os textos foram transcritos manualmente ou obtidos através do sítio do jornal.

    O corpo está dividido em mensagens/textos separados, marcadas pelo atributo texto, com informação do identificador do mesmo.

    Os textos têm também os marcadores estruturais adicionais p [parágrafo] e s [frase].

    Como atributos posicionais adicionais temos o fonte que indica em que jornal o texto foi publicado.

    Dados quantitativos

    Corpo MOCAMBULA Número de formasNúmero de tipos
    Unidades 7139410701
    Total de palavras 5826410650
    Palavras em minúscula 474228393
    Palavras com inicial maiúscula46281462
    Palavras todas em maiúsculas 15185
    Números 405110
    Palavras com números1614
    Palavras mistas7633
    Pontuação292649

    Número de unidades estruturais

    Atributo Número
    p 118
    s 2223
    texto 93
    mwe 1224

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 1728 2892
    Locuções 1224 2645
    Palavras gráficas 58264 58264
    Palavras simples 52727 52727
    Palavras 55679 58264

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 12343 23,41%
    Verbos V.* 8960 16,99%
    Adjectivos ADJ.* 3359 6,37%
    Pronomes pessoais .*PERS.* 1019 1,93%
    Preposições PRP.* 9580 18,17%
    Conjunções K.* 3154 5,98%
    Advérbios ADV.* 3459 6,56%
    Determinantes .*DET.* 10621 20,14%
    Especificadores .*SPEC.* 1385 2,63%
    Numerais NUM.* 766 1,45%

    ^Voltar ao início da página

    Corpo Museu da Pessoa

    O corpus Museu da Pessoa é um corpus de cento e sete entrevistas transcritas pelo Núcleo Português do Museu da Pessoa (ver Almeida et al. 2000) no âmbito dos seus projectos, mais cento e seis entrevistas transcritas pelo Museu da Pessoa brasileiro. As entrevistas portuguesas sofreram um processo de revisão adicional.

    Em "XML simples", as entrevistas completas do Museu da Pessoa encontram-se aqui num formato com separação de frases e marcação de pergunta e resposta:

    Corpus Museu da Pessoa, versão do texto português de Abril de 2005, versão do texto brasileiro de Dezembro de 2008, anotado em março de 2016, v. 7.1

    Agradecemos ao Núcleo Português do Museu da Pessoa a disponibilização dos textos. Estamos gratos ao Museu da Pessoa brasileiro por disponibilzarem os textos na Internet, e a Lise Bianchini pelo seu tratamento. Agradecemos a Paula Taveira pela revisão (em curso) dos textos portugueses.

    Estrutura do corpo

    Marcadores estruturais: entrevista [entrevista completa], p [parágrafo], s [frase], resposta, pergunta, legenda [legenda de uma fotografia], introd [texto de introdução antes da entrevista]

    Para cada entrevista temos a indicação dos dados possíveis sobre cada entrevistado aqui.

    VarianteTamanho
    BR 1182544
    PT 346241
    SexoTamanho
    F 430.725
    M 1.073.840
    X 24.220

    Dados quantitativos

    Corpo MUSEUDAPESSOA Número de formasNúmero de tipos
    Unidades 200428242663
    Total de palavras 142243442521
    Palavras em minúscula 111559430234
    Palavras com inicial maiúscula1445578309
    Palavras todas em maiúsculas 4559346
    Números 8618347
    Palavras com números10161
    Palavras mistas21599
    Pontuação106351136

    Número de unidades estruturais

    Atributo Número
    mwe 26146
    p 23778
    s 93540
    entrevista 215
    pergunta 10982
    resposta 11321
    legenda 46
    introd 3
    corr 1583

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 39336 60682
    Locuções 26146 55562
    Palavras gráficas 1422434 1422434
    Palavras simples 1306190 1306190
    Palavras 1371672 1422434

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 234681 17,97%
    Verbos V.* 264128 20,22%
    Adjectivos ADJ.* 50497 3,87%
    Pronomes pessoais .*PERS.* 75543 5,78%
    Preposições PRP.* 168142 12,87%
    Conjunções K.* 80713 6,18%
    Advérbios ADV.* 133006 10,18%
    Determinantes .*DET.* 223825 17,14%
    Especificadores .*SPEC.* 40321 3,09%
    Numerais NUM.* 19220 1,47%

    ^Voltar ao início da página

    Corpo Natura/Minho

    O corpus Natura/Minho é um corpus jornalístico contendo texto do jornal regional português Diário do Minho, criado no âmbito do projecto Natura. O corpus (correspondente à versão 3 diariodoMinho.3.cor) contém notícias completas, separadas em edições e marcadas pela data. No texto encontravam-se assinalados, numa codificação de tipo XML, títulos, assinaturas e legendas, além de conter marcação (markup) de parágrafos e de formatação, esta última retirada do corpus final.

    Segundo o projecto Natura, o corpus original é assim descrito:
    Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de provas).

    Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.

    Corpus Natura/Minho (de 9 de Março de 2001), versão texto criada em Abril de 2002, v. 8.5

    Estamos gratos à direcção do Diário do Minho pela gentil autorização de disponibilização dos tex

    Estrutura do corpo

    A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. A partir da versão 3.0, introduzimos a anotação li para assinalar listas.

    Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.

    Dados quantitativos

    Corpo NATMINHO Número de formasNúmero de tipos
    Unidades 220855769000
    Total de palavras 174863667453
    Palavras em minúscula 128478738992
    Palavras com inicial maiúscula25380617610
    Palavras todas em maiúsculas 125501328
    Números 221841268
    Palavras com números2747354
    Palavras mistas1436439
    Pontuação1196351546

    Número de unidades estruturais

    Atributo Número
    p 57123
    s 69036
    assinatura 539
    legenda 782
    t 7661
    art 5117
    marca 0
    mwe 30536

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 104242 220100
    Locuções 30536 64151
    Palavras gráficas 1748636 1748636
    Palavras simples 1464385 1464385
    Palavras 1599163 1748636

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 374151 25,55%
    Verbos V.* 207519 14,17%
    Adjectivos ADJ.* 100303 6,85%
    Pronomes pessoais .*PERS.* 19892 1,36%
    Preposições PRP.* 313444 21,40%
    Conjunções K.* 73461 5,02%
    Advérbios ADV.* 72008 4,92%
    Determinantes .*DET.* 315085 21,52%
    Especificadores .*SPEC.* 22878 1,56%
    Numerais NUM.* 42092 2,87%

    ^Voltar ao início da página

    Corpo NOBRE

    O corpo NOBRE (Novas OBRas publicadas na Europa) é um corpo de textos literários em português que já alcançaram o domínio público, criado para simplificar a construção do lado português do ELTEC, no âmbito do projeto COST "Distant Reading for European Literary History".

    Corpus NOBRE, criado e anotado em junho de 2018, v. 1.4

    Agradecemos a todos os que tornarem este projeto viável, por terem digitalizado e tornado públicas as obras que incluimos, em particular o projeto Gutenberg e o LusoLivros.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

    Dados quantitativos

    Corpo NOBRE Número de formasNúmero de tipos
    Unidades 3045599110681
    Total de palavras 2252954110364
    Palavras em minúscula 180487675432
    Palavras com inicial maiúscula18766314896
    Palavras todas em maiúsculas 1366220
    Números 2509360
    Palavras com números3924
    Palavras mistas17441068
    Pontuação159759158

    Número de unidades estruturais

    Atributo Número
    p 15276
    s 121075
    v 0
    obra 36
    capitulo 0
    parte 0
    tit 0
    autor 36
    tituloobra 36
    div 0
    mwe 42442

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 65393 85474
    Locuções 42442 91848
    Palavras gráficas 2252954 2252954
    Palavras simples 2075632 2075632
    Palavras 2183467 2252954

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 435429 20,98%
    Verbos V.* 370995 17,87%
    Adjectivos ADJ.* 139452 6,72%
    Pronomes pessoais .*PERS.* 106494 5,13%
    Preposições PRP.* 332088 16,00%
    Conjunções K.* 121760 5,87%
    Advérbios ADV.* 148829 7,17%
    Determinantes .*DET.* 397579 19,15%
    Especificadores .*SPEC.* 53247 2,57%
    Numerais NUM.* 18929 0,91%

    ^Voltar ao início da página

    Corpo OBras

    O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio e Anya Campos, iniciada em julho de 2013. Para mais informações veja-se a página do projeto.

    Corpus OBras, criado a 18 de junho de 2018, v. 5.3

    Agradecemos a todos os que tornarem este projeto viável, por terem digitalizado e tornado públicas obras de autores brasileiros.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

    Dados quantitativos

    Corpo OBRAS Número de formasNúmero de tipos
    Unidades 6992478153825
    Total de palavras 4974132151990
    Palavras em minúscula 391138694115
    Palavras com inicial maiúscula42915423754
    Palavras todas em maiúsculas 2429393
    Números 6039607
    Palavras com números10255
    Palavras mistas18711212
    Pontuação402428312

    Número de unidades estruturais

    Atributo Número
    p 75306
    s 310622
    v 0
    obra 222
    capitulo 676
    parte 0
    tit 0
    autor 222
    tituloobra 222
    div 274
    mwe 101338

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 132196 178053
    Locuções 101338 218483
    Palavras gráficas 4974132 4974132
    Palavras simples 4577596 4577596
    Palavras 4811130 4974132

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 966343 21,11%
    Verbos V.* 842179 18,40%
    Adjectivos ADJ.* 289688 6,33%
    Pronomes pessoais .*PERS.* 234453 5,12%
    Preposições PRP.* 700006 15,29%
    Conjunções K.* 260522 5,69%
    Advérbios ADV.* 331779 7,25%
    Determinantes .*DET.* 883903 19,31%
    Especificadores .*SPEC.* 112275 2,45%
    Numerais NUM.* 48004 1,05%

    ^Voltar ao início da página

    Corpo P'lo Norte

    O corpo P'lo norte é constituído por blogues de portugueses sobre a Noruega, compilados manualmente.

    O corpus Plonorte é composto (neste momento) por 38 textos.

    Corpo PLONORTE, anotado a 13 de setembro de 2017, v. 2.0

    Corpo compilado por Ana Rita Ferreira e Diana Santos.

    Estrutura do corpo

    Marcadores posicionais: estatuto [visitante, residente, outro], autor, data, sexo

    Marcadores estruturais: texto [nome do texto], p [parágrafo], s [frase].

    Distribuições

    A sua distribuição, correspondendo à versão 2.0, é a seguinte:

    EstatutoTamanho
    outro 5.363
    residente 17.078
    visitante 21.274
    SexoTamanho
    F 30.369
    M 13.346
    BlogueTamanho
    alesund 698
    analogias 187
    autocarro 463
    barbaros 623
    bergen 218
    bolso 948
    breivik 3.719
    cabonorte 1.652
    chuvabagas 568
    dicas 1.054
    dicastrabalho 1.065
    duas 649
    entrevista 1.652
    exemplar 1.029
    festival 477
    fiordes 783
    fofocas 388
    fondant 370
    gratulerer 1.825
    gravidez 229
    idilico 669
    limpar 834
    mapa 576
    mochila 5.492
    multa 152
    noruega 1.563
    olha 724
    passeando 3.069
    Paulo 144
    pipocas 119
    princesas 3.337
    sardinha 915
    svalbard 604
    teambuilding 107
    trondheim 970
    trondheim2 2.331
    tubarao 1.470
    viajarcriancas 2.042

    Distribuição por fonte

    fofocasM23.01.07residentehttp://umportuguesnanoruega.blogspot.no/2007/01/dia-19.html
    fondantF10.02.10residentehttp://webcache.googleusercontent.com/search?q=cache:YAlq1opGVbIJ:eduarda-na-noruega.blogspot.com/&num=1&client=firefox-b-ab&hl=pt-PT&gl=pt&strip=1&vwsrc=0
    multaM14.07.10residentehttp://tugananoruega.blogspot.no/2010/07/multa.html
    dicastrabalhoM16.06.08residentehttp://portugalilainen.blogspot.pt/2008/06/trabalhar-na-noruega-dicas.html
    festivalF14.05.17residentehttp://quiosquedajoana.blogs.sapo.pt/da-noruega-para-portugal-com-amor-112310
    entrevistaF27.02.16residentehttps://halfway2happiness.wordpress.com/2016/02/27/portugal-no-globo-noruega/
    sardinhaF08.03.17residentehttps://umasardinhananoruega.wordpress.com/2017/03/08/nas-minhas-34-voltas-ao-sol/
    PauloM18.05.07residentehttp://terrasgelidasdonorte.blogspot.no/2007/05/17-de-maio-17-mai.html
    princesasF11.10.10residentehttp://in-bergen.blogspot.no/2010/10/princesses-in-bergen.html
    trondheim2F26.05.17residentehttp://www.almadeviajante.com/viver-em-trondheim-carla-carvalho/
    trondheimF08.09.12residentehttp://p3.publico.pt/node/4497
    viajarcriancasF27.05.14residentehttp://pikitim.com/trondheim-com-criancas-dicas-de-alice-pinto/
    gravidezF13.01.12residentehttp://demaeparamae.pt/forum/gravidez-noruega
    mochilaF18.03.14visitantehttps://viajardemochilaascostas.blogspot.pt/2014/03/noruega.html
    svalbardF09.04.15visitantehttp://viajarentreviagens.blogspot.pt/2015/04/o-apelo-do-arctico-correndo-de-trenos.html
    fiordesF12.03.10visitantehttp://viajante-do-mundo.blogspot.pt/2010/03/fiordes-da-noruega.html
    dicasM29.06.15visitantehttp://www.viagensasolta.com/2015/06/dicas-para-viajar-na-terra-dos-fiordes.html
    cabonorteM06.09.10visitantehttp://cabonorte2010.blogspot.no/2010/09/bodon-mo-i-ranan-319kms.html
    idilicoF26.07.08visitantehttps://asvoltasdovento.blogspot.no/2008/07/noruega-um-pas-idlico.html
    passeandoF10.03.11visitantehttp://passeando-pela-europa.blogspot.pt/2011/03/noruega.html
    exemplarM24.07.11visitantehttp://retalhos-de-sintra.blogspot.pt/2011/07/noruega-um-pais-exemplar-2.html
    bergenM26.10.15visitantehttp://soentrenos.blogs.sapo.pt/bergen-noruega-195633
    barbarosF05.03.06outrohttp://apoliticadospoliticos.blogs.sapo.pt/29323.html
    limparF22.11.09outrohttp://jugular.blogs.sapo.pt/1331558.html
    mapaM01.04.14visitantehttps://demapanamao.wordpress.com/noruega/
    gratulererF21.05.14visitantehttps://cartografiapessoal.wordpress.com/2014/05/21/gratulerer-med-dagen-norge/
    bolsoF16.08.16visitantehttps://alguresnomundo.wordpress.com/2016/08/16/foram-me-ao-bolso-e-eu-gostei-noruega/
    alesundF07.04.14visitantehttps://solnaeiraechuvanonabal.wordpress.com/2017/04/07/alesund-pequena-perola-nos-fjords-da-noruega/
    autocarroF25.04.17visitantehttps://solnaeiraechuvanonabal.wordpress.com/2017/04/25/fjords-da-noruega/#more-1423
    breivikM29.07.11outrohttp://5dias.net/2011/07/29/a-noruega-nao-e-um-exemplo-de-tolerancia-de-democracia-e-de-respeito-pelos-direitos-humanos/
    noruegaM12.09.16residentehttp://www.coquetteaportuguesa.com/2016/09/noruega.html
    tubaraoF04.08.11visitantehttps://cartografiapessoal.wordpress.com/2011/08/04/na-boca-do-tubarao/
    teambuildingM25.11.13residentehttp://aminhavidananoruega.blogspot.no/2013/11/sobre-o-team-building.html
    pipocasM05.02.15residentehttp://aminhavidananoruega.blogspot.no/2015/02/como-pipocas.html
    analogiasM28.10.11outrohttp://irparaanoruega.blogspot.no/2011/10/guerra-fria-e-guerra-quente.html
    chuvabagasF17.07.16residentehttp://goingnorthtilnorway.blogspot.no/2016/07/chuvabagas-e-futebol-como-passar-um-dia.html
    duasM09.10.14residentehttp://duas-ou-tres.blogspot.no/2014/10/portugal-na-noruega.html
    olhaM03.10.16visitantehttp://olhaqueresfalarsobreisso.blogspot.no/2016/10/um-portugues-pela-noruega.html

    Dados quantitativos

    Corpo PLONORTE Número de formasNúmero de tipos
    Unidades 537018204
    Total de palavras 409098140
    Palavras em minúscula 322526046
    Palavras com inicial maiúscula42691419
    Palavras todas em maiúsculas 7244
    Números 466156
    Palavras com números4633
    Palavras mistas6834
    Pontuação280658

    Número de unidades estruturais

    Atributo Número
    p 1108
    s 2366
    texto 38
    mwe 925

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 1813 2341
    Locuções 925 1962
    Palavras gráficas 40909 40909
    Palavras simples 36606 36606
    Palavras 39344 40909

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 8581 23,44%
    Verbos V.* 6036 16,49%
    Adjectivos ADJ.* 2510 6,86%
    Pronomes pessoais .*PERS.* 838 2,29%
    Preposições PRP.* 6762 18,47%
    Conjunções K.* 2095 5,72%
    Advérbios ADV.* 2779 7,59%
    Determinantes .*DET.* 7196 19,66%
    Especificadores .*SPEC.* 831 2,27%
    Numerais NUM.* 822 2,25%

    ^Voltar ao início da página

    Corpo Português Falado - Documentos Autênticos

    O corpus PortFalDA é um corpo de entrevistas transcritas proveniente dos quatro CD-ROM Português Falado: Documentos Autênticos (Gravações audio com transcrição alinhada), produzidos pelo Centro de Linguística da Universidade de Lisboa (CLUL) e pelo Instituto Camões em 1995-1997. Este material foi coletado maioritariamente no âmbito do projeto Português Falado, Variedades Geográficas e Sociais, levado a cabo pelo CLUL em parceria com as universidades francesas de Toulouse-le-Mirail e de Provence-Aix-Marseille. Para mais informação sobre este corpo, veja-se Bacelar do Nascimento (2001a) (em inglês) e Bacelar do Nascimento (2001b) (em francês).

    O corpus PortFalDA é composto (neste momento) por 50 textos, de Portugal e do Brasil.

    Como citar o (conteúdo do) corpus PortFALDA:

    Português Falado: Documentos Autênticos (Gravações audio com transcriçao alinhada), conjunto de quatro CD-ROM, produzido pelo Centro de Linguística da Universidade de Lisboa (CLUL), Instituto Camões, com apoio da União Europeia (Programas LINGUA e SOCRATES/LINGUA) numa parceria entre o CLUL, a Universidade de Toulouse-le-Mirail e a Universidade de Aix-en-Provence.

    Corpo PORTFALDA, texto original dos CD-ROM, anotado a 18 de janeiro de 2016, v. 1.0

    Agradecemos a (ainda em aberto) para incluir no AC/DC.

    Estrutura do corpo

    Marcadores posicionais: variante

    Marcadores estruturais: texto [nome do texto], pergunta, resposta, p [parágrafo], s [frase].

    Distribuição por variante

    A sua distribuição, correspondendo à versão 1.0, é a seguinte:

    Dados quantitativos

    Corpo PORTFALDA Número de formasNúmero de tipos
    Unidades 1022226194
    Total de palavras 633526185
    Palavras em minúscula 506325510
    Palavras com inicial maiúscula765338
    Palavras todas em maiúsculas 1810
    Números 11
    Palavras com números
    Palavras mistas94
    Pontuação57079

    Número de unidades estruturais

    Atributo Número
    p 2142
    s 4683
    texto 50
    pergunta 993
    resposta 1149
    mwe 1179

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 595 809
    Locuções 1179 2536
    Palavras gráficas 63352 63352
    Palavras simples 60007 60007
    Palavras 61781 63352

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 8611 14,35%
    Verbos V.* 11667 19,44%
    Adjectivos ADJ.* 2047 3,41%
    Pronomes pessoais .*PERS.* 2865 4,77%
    Preposições PRP.* 6122 10,20%
    Conjunções K.* 3664 6,11%
    Advérbios ADV.* 7144 11,91%
    Determinantes .*DET.* 7917 13,19%
    Especificadores .*SPEC.* 1742 2,90%
    Numerais NUM.* 1091 1,82%

    ^Voltar ao início da página

    Corpo ReLi

    O corpus ReLi é um corpo de 1601 resenhas de treze livros (de sete autores diferentes), compiladas de um sítio brasileiro de resenhas de livros, pela PUC-Rio, e acessível daqui. Essas resenhas foram anotadas em relação à opinião, ao objeto da opinião, e à sua polaridade, veja-se Freitas et al. (2012).

    O corpus ReLi é composto de 7 arquivos, com as resenhas das obras de cada autor. Foram manualmente marcadas as seguintes informações:

    object - indica segmento alvo de opinião. É designado por OBJXX, onde XX é o identificador do objeto no escopo da resenha, sendo 00 o objeto implícito livro

    opinion - indica segmento que expressa opinião sobre um OBJXX. Tem a forma opXXS, onde S={-,+} para indicar a polaridade da opinião e XX é o ponteiro para o objeto

    polarity - indica frase com opinião. Pode assumir os valores + e -.

    Como citar o corpus ReLi: Freitas, C.; Motta, E.; Milidiú, R.; Cesar, J. Vampiro que brilha... rá! Desafios na anotação de opinião em um corpus de resenhas de livros. In: XI Encontro de Linguística de Corpus (ELC 2012), São Paulo, Brasil, 2012.

    Corpus ReLi, versão do texto de Maio de 2013, anotado em novembro de 2015, v. 4.2

    Agradecemos a Cláudia Freitas, Eduardo Motta, Ruy Milidiú e Juliana Cesar a autorização para incluir no AC/DC.

    Estrutura do corpo

    Marcadores posicionais: objeto, opiniao, polaridade Marcadores estruturais: livro [nome do livro resenhado], resenha, p [parágrafo], s [frase].

    Distribuição por livro e autor

    Dados quantitativos

    Corpo RELI Número de formasNúmero de tipos
    Unidades 19676814272
    Total de palavras 15106214235
    Palavras em minúscula 10807011439
    Palavras com inicial maiúscula121372053
    Palavras todas em maiúsculas 9961
    Números 495100
    Palavras com números3819
    Palavras mistas96688
    Pontuação997632

    Número de unidades estruturais

    Atributo Número
    mwe 3244
    p 4082
    t 771
    s 9089
    livro 0
    rev 1

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 7282 6811
    Locuções 3244 6944
    Palavras gráficas 151062 151062
    Palavras simples 137307 137307
    Palavras 147833 151062

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 28274 20,59%
    Verbos V.* 25667 18,69%
    Adjectivos ADJ.* 10133 7,38%
    Pronomes pessoais .*PERS.* 4982 3,63%
    Preposições PRP.* 20640 15,03%
    Conjunções K.* 8351 6,08%
    Advérbios ADV.* 11013 8,02%
    Determinantes .*DET.* 26333 19,18%
    Especificadores .*SPEC.* 4197 3,06%
    Numerais NUM.* 1457 1,06%

    ^Voltar ao início da página

    Corpo NILC/São Carlos

    O corpus NILC/São Carlos do Núcleo Interinstitucional de Lingüística Computacional, sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo em São Carlos, contém textos brasileiros do registo jornalístico, didáctico, epistolar e redacções de alunos (Nunes et al., 1996a, 1996b). Para um descrição mais abrangente, veja-se a página de descrição do corpus NILC e sua descendência.

    Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.

    Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; anotado em 22 de Junho de 2013, v. 11.4

    Estamos gratos à Folha de São Paulo pela autorização gentilmente concedida para uso dos seus textos.
    Estamos gratos ao Núcleo Interinstitucional de Lingüística Computacional, em especial a Graça Nunes, por nos ter disponibilizado o texto do corpus em formato electrónico, autorizado a sua disponibilização através do projecto AC/DC e negociado com a Folha de São Paulo a autorização anteriormente mencionada.

    Estrutura do corpo

    Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura,
    Para os textos da folha de São Paulo, a (autor), artigo, caixa, situacao, li (elemento de lista).

    As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.

    Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.

    A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.

    O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 11.7, é a seguinte:

    TipoDescriçãoTamanho
    DI texto didáctico 426.766
    ENC enciclopédia 286.559
    ENS ensaio 2.193.807
    EP texto epistolar 3.350
    JO.* jornalístico 29.821.128
    JOCF jornalístico só CETENFolha 27.741.996
    JO jornalístico sem CETENFolha 2.079.132
    LE texto legal 1.111.864
    LI literário 921.361
    RE revista 153.786

    O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.

    A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .

    A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):

    Dados quantitativos

    Corpo SAOCARLOS Número de formasNúmero de tipos
    Unidades 42914896420723
    Total de palavras 32461799399763
    Palavras em minúscula 22979887157037
    Palavras com inicial maiúscula4793842129622
    Palavras todas em maiúsculas 30713010458
    Números 5475473384
    Palavras com números445734818
    Palavras mistas904545318
    Pontuação245680620885

    Número de unidades estruturais

    Atributo Número
    mwe 502759
    p 825922
    s 1977211
    texto 349622
    subtitulo 3767
    assinatura 13
    artigo 0
    caixa 20722
    situacao 5031
    t 161179
    a 80375
    li 62279

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 323412 3540365
    Locuções 502759 1065298
    Palavras gráficas 32461799 32461799
    Palavras simples 27856136 27856136
    Palavras 28682307 32461799

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 7113650 25,54%
    Verbos V.* 4298530 15,43%
    Adjectivos ADJ.* 1842594 6,61%
    Pronomes pessoais .*PERS.* 469797 1,69%
    Preposições PRP.* 5298623 19,02%
    Conjunções K.* 1264416 4,54%
    Advérbios ADV.* 1455573 5,23%
    Determinantes .*DET.* 5520746 19,82%
    Especificadores .*SPEC.* 409265 1,47%
    Numerais NUM.* 949774 3,41%

    ^Voltar ao início da página

    Corpo todos juntos

    O corpo TODOS foi criado pela Linguateca de forma a permitir que todos os corpos da Linguateca pudessem ser interrogados duma só vez, evitando ao mesmo tempo que sobreposições de material produzissem repetição escusada e enganadora de concordâncias ou frequências.

    É, portanto, especialmente apropriado para investigações relacionadas com género textual ou com anotação semântica.

    Porque é automaticamente produzido a partir de todos os outros corpos do AC/DC, contém apenas os atributos estruturais e posicionais que pertençam à interseção de todos os corpos, além dos atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas de corpos individuais.

    No caso da sobreposição entre o corpo NILC/São Carlos e o CHAVE, e do corpo CETEMPúblico e o CHAVE, foi escolhido o material do CHAVE.

    O corpo contém cerca de 1300 milhões de palavras, distribuídas entre vários géneros e temas, correspondendo ao conteúdo de todos os corpos presentes no AC/DC.

    GéneroUnidades
    academico 560.613.833
    blog 4.320.793
    cartas 101.520
    encic 45.538.867
    ensaio 2.268.418
    jorn 521.229.473
    legal 13.949.444
    lit 30.034.959
    littrad 72.483
    mail 1.782.966
    misto 5.775.851
    oraldebate 37.093
    oralent 5.668.686
    oralfut 86.130
    oralinf 292.748
    oralmono 78.527.399
    recensoes 265.266
    religioso 1.785.815
    revistas 647.601
    teatro 1.099.336
    tecnico 95.972.768
    variado 137.796

    Corpus todos, criado a 20 de junho de 2018, v. 5.2

    Agradecemos aos compiladores de todos os corpos incluídos por os terem criado e (deixado) tornar públicos.

    Estrutura do corpo

    Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

    Dados quantitativos

    Corpo TODOS Número de formasNúmero de tipos
    Unidades 15534724496391327
    Total de palavras 12878786255840948
    Palavras em minúscula 9032434381527639
    Palavras com inicial maiúscula1772719761311182
    Palavras todas em maiúsculas 14124143311911
    Números 25294745107376
    Palavras com números2915982472220
    Palavras mistas3466878300759
    Pontuação85772369521376

    Número de unidades estruturais

    Atributo Número
    TEXTO 0
    CATEGORY 208202
    0
    art 26445
    assinatura 1780
    assunto 3867
    autor 70230
    caixa 315
    capitulo 698
    cita 72
    div 4853
    entrevista 220
    ext 1058848
    fala 49195
    introd 3
    legenda 833
    li 89055
    marca 11680
    mens 3931
    mwe 20154213
    nota 2214
    obra 635
    p 4869048
    parte 12854
    pergunta 12220
    personagem 49767
    resposta 12688
    s 55536336
    situacao 561
    subtitulo 3303
    t 1100269
    texto 8966
    titulo 2014
    tituloobra 633
    u 1053495
    v 271471
    a 179620
    data 208619
    indic 4516

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 89244019 149815996
    Locuções 20154213 42661930
    Palavras gráficas 1287878625 1287878625
    Palavras simples 1095400699 1095400699
    Palavras 1204798931 1287878625

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 281275307 25,68%
    Verbos V.* 141821054 12,95%
    Adjectivos ADJ.* 78770415 7,19%
    Pronomes pessoais .*PERS.* 16693946 1,52%
    Preposições PRP.* 204810452 18,70%
    Conjunções K.* 50624814 4,62%
    Advérbios ADV.* 47087270 4,30%
    Determinantes .*DET.* 198447308 18,12%
    Especificadores .*SPEC.* 15672936 1,43%
    Numerais NUM.* 42449476 3,88%

    ^Voltar ao início da página

    Corpo Tycho Brahe

    O Corpus Histórico do Português Tycho Brahe é um corpo eletrônico anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845, compilado pela Universidade de Campinas (UniCamp). A sua página principal é http://www.tycho.iel.unicamp.br/corpus/index.html, onde todas as informações estão disponíveis.

    Corpo Tycho Brahe, versão do texto simples de 2017, criado em março de 2018, versão 3.0

    Agradecemos a Charlotte Galves a gentil autorização para disponibilizar o corpo Tycho Brahe através do AC/DC.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (com o identificador original), tituloobra, (o nome da obra), autor (o autor da obra), data (data de nascimento do autor), genero (o gênero de obra segundo os critérios do Tycho Brahe), grafia (preservada ou editada) e a variante (PT ou BR conforme publicado em Portugal ou Brasil). Também se encontram marcados, nas obras em que são relevantes, partes como assinatura, saudacao e data, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (o gênero de obra segundo os critérios do Tycho Brahe), grafia (preservada ou editada), seculo (de nascimento do autor) e a variante (PT ou BR conforme publicado em Portugal ou Brasil).

    Dados quantitativos

    Corpo TYCHO Número de formasNúmero de tipos
    Unidades 4018858148289
    Total de palavras 3241633147733
    Palavras em minúscula 250815394885
    Palavras com inicial maiúscula34790828331
    Palavras todas em maiúsculas 5557628
    Números 207111810
    Palavras com números697202
    Palavras mistas37031554
    Pontuação184033371

    Número de unidades estruturais

    Atributo Número
    s 152426
    obra 76
    t 1918
    autor 76
    tituloobra 76
    data 0
    variante 76
    genero 76
    grafia 76
    div 2307
    assinatura 1225
    saudacao 441
    mwe 56145

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 148508 228334
    Locuções 56145 118222
    Palavras gráficas 3241633 3241633
    Palavras simples 2895077 2895077
    Palavras 3099730 3241633

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 583463 20,15%
    Verbos V.* 513425 17,73%
    Adjectivos ADJ.* 156453 5,40%
    Pronomes pessoais .*PERS.* 149598 5,17%
    Preposições PRP.* 444189 15,34%
    Conjunções K.* 214951 7,42%
    Advérbios ADV.* 191651 6,62%
    Determinantes .*DET.* 511460 17,67%
    Especificadores .*SPEC.* 89020 3,07%
    Numerais NUM.* 44565 1,54%

    ^Voltar ao início da página

    Corpo Vercial

    O corpo Vercial contém 309 obras literárias de 55 autores portugueses, digitalizadas pelo projecto Vercial, cujas datas de publicação variam desde 1500 (Carta a El-rei Dom Manuel Sobre o Achamento do Brasil, de Pero Vaz de Caminha) a 1933 (Memórias III, de Raul Brandão).

    Corpus Vercial, criado a 18 de junho de 2018, v. 8.3

    Agradecemos à equipa do projecto Vercial, especialmente a José Leon Machado, que gentilmente nos cederam os textos para este corpus.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra).

    As 187 obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

    As 80 obras de poesia têm os seguintes marcadores estruturais adicionais: div [parte de um poema, assinalada graficamente por números romanos] e v [verso].

    As 43 obras de teatro têm os seguintes marcadores estruturais adicionais: fala [juntando a fala de uma personagem] e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (que pode ser Poesia, Prosa ou Teatro), e data (que quando é desconhecida tem o valor "desc").

    As obras presentes e respectivos autores são as seguintes:

    Dados quantitativos

    Corpo VERCIAL Número de formasNúmero de tipos
    Unidades 20705640339561
    Total de palavras 14644634328230
    Palavras em minúscula 10990629175721
    Palavras com inicial maiúscula163814373737
    Palavras todas em maiúsculas 324611807
    Números 519542052
    Palavras com números358308
    Palavras mistas235905229
    Pontuação10128552371

    Número de unidades estruturais

    Atributo Número
    p 223371
    s 954505
    v 271468
    obra 335
    capitulo 0
    titulo 0
    u 749599
    fala 29082
    autor 335
    tituloobra 335
    div 2224
    mwe 234636

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 641507 886686
    Locuções 234636 498041
    Palavras gráficas 14644634 14644634
    Palavras simples 13259907 13259907
    Palavras 14136050 14644634

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 2820590 21,27%
    Verbos V.* 2235819 16,86%
    Adjectivos ADJ.* 903769 6,82%
    Pronomes pessoais .*PERS.* 664425 5,01%
    Preposições PRP.* 2069076 15,60%
    Conjunções K.* 770360 5,81%
    Advérbios ADV.* 849105 6,40%
    Determinantes .*DET.* 2542610 19,18%
    Especificadores .*SPEC.* 344698 2,60%
    Numerais NUM.* 147578 1,11%

    ^Voltar ao início da página

    [ Acesso | Anotação | Atomização | Exemplos | Agradecimentos ]


    Última actualização: 11 de Junho de 2018
    Perguntas, comentários e sugestões