Informação pormenorizada sobre os corpos

Projecto AC/DC, Linguateca


Esta página fornece a informação necessária sobre cada corpo, para que os utilizadores do nosso serviço o possam utilizar como instrumento válido de teste de hipóteses científicas.

Além de apontar para a informação original fornecida pelos compiladores e de apresentar uma contabilização sumária de todos os corpos em forma de tabela, descreve várias opções básicas tomadas na codificação dos corpos no ambiente escolhido, o IMS-CWB. Sem que estas opções sejam explicitadas, não é possível compreender os resultados quantitativos ou comparar com vários trabalhos sobre os mesmos corpos.

Todos os corpos foram anotados pelo PALAVRAS, o analisador sintáctico criado Eckhard Bick, Bick (2000). Veja-se a página de anotação para mais informações sobre essa anotação.


Identificação sumária

Informação original fornecida pelos compiladores de corpos, acessível na rede ou publicada. Apenas os identificadores foram atribuídos por nós. Para saber mais informação sobre cada corpo, clique no respectivo identificador.

AmostRA-NILC Selecção de textos do corpo NILC, em português brasileiro, contendo textos dos géneros didático, jornalístico e literário, anotada com classificação gramatical, criada no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC
ANCIB Corpo de correio electrónico da lista ANCIB
Avante! Corpo de artigos da edição electrónica do Avante!, jornal semanal do Partido Comunista Português
CDHAREM As colecções douradas usadas no HAREM
CETEMPúblico CETEMPúblico (Corpo de Extractos de Textos Electrónicos MCT/Público)
CETEMPúblico (primeiro milhão) Primeiro milhão de palavras do CETEMPúblico, revisto pela equipa do projecto Floresta sintá(c)tica.
CHAVE Corpo de texto jornalístico usado no CLEF
ClassLPPECorpo Clássicos da Literatura Portuguesa da Porto Editora
CONDIVport Parte do corpo CONDIVport, contendo textos de jornais desportivos de Portugal e do Brasil
CoNECorpo de Correio Não-Endereçado, criado pela Linguateca
DiaCLAV Corpo de artigos da edição electrónica de jornais regionais da região centro de Portugal (Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário)
ECI-EBR A parte do corpo Borba-Ramsey, contido no European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ECI-EE A parte da apresentação do programa Esprit do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ENPCPUB Parte disponível da parte portuguesa (traduções para português de originais em inglês) do English-Norwegian Parallel Corpus (ENPC)
FrasesPP Corpo FrasesPP, desenvolvido no INESC
FrasesPB Corpo FrasesPB, criado no âmbito do Projecto Processamento Computacional do Português
Museu da PessoaCorpo de 109 entrevistas realizadas pelo Museu da Pessoa
Natura/Minho Corpo jornalístico Natura/Diário do Minho
Natura/Público Corpo jornalístico Natura/Público
NILC/São Carlos Corpo NILC/São Carlos (parte corrigida), contendo texto jornalístico, didáctico e epistolar.
Vercial Corpo de textos literários portugueses clássicos, disponibilizados pelo projecto Vercial.

Contabilização básica dos corpos

Todos os corpos foram processados de forma a serem codificados pelo IMS-CWB, o que significa que foram previamente transformados no formato de uma unidade por linha, e com um atributo estrutural (que delimita um conjunto de unidades) por linha também.

Este processo, que chamamos atomização, encontra-se descrito em Atomização, e inclui também a divisão em frases, obtida automaticamente na maior parte dos casos.

De forma a poder comparar os vários corpos numa única tabela, convém notar que os elementos classificados como títulos, legendas, etc. não foram considerados frases para efeitos desta contagem. Por outro lado, os parágrafos (geralmente curtos) sem pontuação final são marcados como frases, do tipo fragmento.

Esta contabilização é actualizada sempre que há criação de novas versões.

Corpo Nº de frases Nº de parágrafos Nº de palavras (formas) Nº de palavras (tipos) Nº de unidades
AmostRA-NILC4.9654.90498.78617.153127.832
ANCIB80.99257.6011.258.76473.6861.690.376
Avante!204.414104.7876.501.257119.7877.766.418
CD HAREM8.1855.059147.07721.941222.407
CETEMPúblico7.665.4103.197.089189.575.095885.616232.543.379
CETEMPúblico (primeiro milhão)38.25113.345912.29468.1381.202.938
CHAVE4.740.4482.269.73499.478.954698.031123.868.725
Clássicos LP/Porto Editora74.69036.2361.304.28269.8631.922.601
CONDIVport328.214157.0025.577.632150.0987.088.775
CoNE31.56119.415685.22541.045925.230
DiaCLAV232.15244.1336.651.549107.9337.758.467
ECI-EBR44.38112.117724.01560.198917.127
ECI-EE83934027.1404.09632.034
ENPCPUB (parte portuguesa)4.3711.69072.38912.87692.693
FrasesPB65364819.1626.00823.313
FrasesPP59459416.2335.08520.049
Museu da Pessoa27.28816.858375.15821.498517.747
Natura/Minho68.91056.9271.749.08367.4542.156.187
Natura/Público225.75279.4496.274.542168.7847.369.349
NILC/São Carlos1.963.7951.128.17632.342.456397.55242.608.038
Vercial596.86980.43514.315.992328.28118.854.273
Total16.342.7347.286.539368.107.0853.325.123457.707.958


Frequência de formas e lemas por categoria gramatical nos corpos

Para obter as listas de frequências, clique na célula correspondente da tabela abaixo, que indica o número de tipos distintos. Tenha, contudo, em atenção as seguintes informações

CorpusFormas
NADJADVVNUMGRAMtodos
AmostRA64562902453651734556117185
ANCIB2519897291083201816042132276627
Avante!336842252122015776655421314121348
CDHAREM77673185569740476864922182
CETEMPúblico21052311014069293037215544974252951061
CETEMPúblico (primeiro milhão)195449763113524893243990066928
CHAVE171685953155774223594881803896722152
Clássicos da Literatura Portuguesa/Porto Editora1952811874145044219268109769898
ConDIVport440892901525666565963391805152220
ConE1627354126549774430486043932
DiaCLAV344541995015764936758491217110049
ECI-EBR200201124112492765284996160391
ECI-EE137090323013932373274254
ENPC (parte pública)43962061487556013452812895
FrasesPB25759912371878673566018
FrasesPP20509222301553803555099
Museu da Pessoa771528155051089039673921543
Natura/Minho2134411670115725863431195568957
Natura/Público515192710320636070494551383170762
NILC/São Carlos107300580343751131770600562485418521
Vercial13733552581414419903639732488374068
43160317724510054594660138747776881522327

CorpusLemas
NADJADVVNUMGRAMPROPtodostodos/pos
AmostRA50521903329189831714514211092611065
ANCIB17661472676638625945333375407018970832
Avante!201989096169755865945297480729008690891
CDHAREM54821976391175675017138441414714370
CETEMPúblico15189848104523028509571731722106645513350271359091
CETEMPúblico (primeiro milhão)13511474384235662391211237654860249029
CHAVE1120514014343332152590806871696633961623966362
Clássicos da Literatura Portuguesa/Porto Editora1273750961117464226026050442902329156
ConDIVport273461279219297045654035553729108964109736
ConE10314264143922354305221175113725837666
DiaCLAV191467730115649235992279475928604886818
ECI-EBR137025787937409889522189993417734639
ECI-EE10285611834952319618627192780
ENPC (parte pública)35441381366145013714079776707815
FrasesPB21557471878346010221742054302
FrasesPP16946891836637110619735583603
Museu da Pessoa55581621326179938217423031197812163
Natura/Minho12992548185437764395234303755752858106
Natura/Público363911248615768812961031383255150844152443
NILC/São Carlos659612455528671479861519514300933468367471147
Vercial10535321256326819563366748696112247225249705
313174825657751524281437602122163035821868661174440


Contabilização detalhada por corpo

A maior parte dos corpos requereu tratamento específico e opções dedicadas, que serão mencionadas na descrição de cada caso. Como opções gerais, mais detalhadas na página de atomização, temos:

Os dados quantitativos que apresentamos para cada corpo dividem-se em quatro grupos: Nota: em relação aos dados quantitativos, a categoria "pontuação" inclui todos as unidades que contenham sinais de pontuação e que não tenham sido considerados como abreviaturas (incluindo portanto números do tipo "3.876.210", abreviaturas com mais de um ponto como "S.O.S." ou "E.U.A", assim como erros de codificação ainda não depurados, como "primeiro-ministro.").


Corpo AmostRA-NILC

O corpus AmostRA-NILC (Corpus Amostra Rachel Aires - NILC) foi criado no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC, para avaliar e comparar o desempenho de etiquetadores para o português brasileiro (Aires 2000).

Citando Aires 2000 (secção 4.1.1)

" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:

  1. textos simples, isto é, aqueles que seguem uma estrutura formal fixa, por exemplo a escrita técnica (didáticos);
  2. textos mais próximos da linguagem viva (jornalístico);
  3. textos com estrutura livre, isto é, com formas menos comuns como ordem inversa por exemplo, (literários).

(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.

(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)

Tabela 1 - Corpus de treinamento e teste
Tipo de CorpusTamanho do corpus
D Didático 16.255 palavras
J Jornalístico 56.653 palavras
L Literário 32.054 palavras

(fim de citação)

Corpus AmostRA-NILC duplamente anotado, versão texto de 7 de Agosto de 2003 com primeira anotação do NILC (Rachel Aires), anotado em Agosto de 2008 pelo PALAVRAS, criado a 5 de Janeiro de 2010, v. 3.1

Agradecemos a Rachel Aires a disponibilização do corpus.

Estrutura do corpo

Os atributos estruturais usados são p (parágrafo) e s (frase). É também usado o atributo posicional pos2 (anotação gramatical original do corpus).

Dados quantitativos

Corpo AMOSTRA Número de formasNúmero de tipos
Unidades 12783217185
Total de palavras 9878617153
Palavras em minúscula 7845013535
Palavras com inicial maiúscula83112414
Palavras todas em maiúsculas 42818
Números 914190
Palavras com números7146
Palavras mistas3020
Pontuação575032

Número de unidades estruturais

Atributo Número
s 4963
p 4903
mwe 1779

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 3376 4914
Locuções 1779 3745
Palavras gráficas 98786 98786
Palavras simples 90127 90127
Palavras 95282 98786

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 23235 25,78%
Verbos V.* 14122 15,67%
Adjectivos ADJ.* 6488 7,20%
Pronomes pessoais .*PERS.* 2283 2,53%
Preposições PRP.* 16642 18,47%
Conjunções K.* 4151 4,61%
Advérbios ADV.* 5066 5,62%
Determinantes .*DET.* 17544 19,47%
Especificadores .*SPEC.* 1368 1,52%
Numerais NUM.* 1808 2,01%

^Voltar ao início da página

Corpo ANCIB

O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista homónima da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (até Novembro de 2003) e para a lista abarreto-l, após essa data.

Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.

Corpus ANCIB, versão texto de Junho de 2009, anotado 9 de Janeiro de 2010, v. 6.1

Agradecemos a Aldo Barreto a autorização gentilmente cedida para uso dos textos da lista.

Estrutura do corpo

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.

Dados quantitativos

Corpo ANCIB Número de formasNúmero de tipos
Unidades 169041876627
Total de palavras 125875673685
Palavras em minúscula 84147734806
Palavras com inicial maiúscula22673421846
Palavras todas em maiúsculas 191693505
Números 201271337
Palavras com números2715801
Palavras mistas2721630
Pontuação1071452928

Número de unidades estruturais

Atributo Número
p 57556
s 80698
mwe 14541
autor 3007
mens 3012
assunto 2978
li 0
titulo 0
cita 81

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 97197 202682
Locuções 14541 31057
Palavras gráficas 1258764 1258764
Palavras simples 1025025 1025025
Palavras 1136763 1258764

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 292528 28,54%
Verbos V.* 126007 12,29%
Adjectivos ADJ.* 73300 7,15%
Pronomes pessoais .*PERS.* 13786 1,34%
Preposições PRP.* 194495 18,97%
Conjunções K.* 59283 5,78%
Advérbios ADV.* 40010 3,90%
Determinantes .*DET.* 190626 18,60%
Especificadores .*SPEC.* 12344 1,20%
Numerais NUM.* 32675 3,19%

^Voltar ao início da página

Corpo Avante!

O corpus Avante! contém textos do semanário «Avante!», orgão oficial do Partido Comunista Português. O corpus contém cerca de 6 milhões de palavras, extraídas da versão na rede do jornal, correspondendo a um total de 8.515 artigos de 207 edições do dito jornal, de Abril de 1997 até Fevereiro de 2002.

Corpus Avante, versão de 6 de Março de 2006, criado a 11 de Janeiro de 2010, versão 4.1

Estamos gratos à direcção do «Avante!», em especial ao seu director José Casanova, pela autorização gentilmente cedida para a elaboração deste corpus.

Estrutura do corpo

O corpus contém as etiquetas art (artigo), t (título), p (parágrafo), s (frase) e li (elemento de uma lista); os artigos não estão datados, sendo apenas indicado o número da edição, através da indicação <art ed= id=> .

Dados quantitativos

Corpo AVANTE Número de formasNúmero de tipos
Unidades 7766418121348
Total de palavras 6501257119787
Palavras em minúscula 509586167954
Palavras com inicial maiúscula67147029343
Palavras todas em maiúsculas 736672305
Números 579271646
Palavras com números764296
Palavras mistas2096742
Pontuação2263271559

Número de unidades estruturais

Atributo Número
art 8540
t 29277
a 2
p 104736
li 43141
s 204212
mwe 130182

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 81210 492045
Locuções 130182 275934
Palavras gráficas 6501266 6501266
Palavras simples 5733287 5733287
Palavras 5944679 6501266

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1453063 25,34%
Verbos V.* 778162 13,57%
Adjectivos ADJ.* 457038 7,97%
Pronomes pessoais .*PERS.* 92085 1,61%
Preposições PRP.* 1215413 21,20%
Conjunções K.* 326851 5,70%
Advérbios ADV.* 311329 5,43%
Determinantes .*DET.* 1265166 22,07%
Especificadores .*SPEC.* 105518 1,84%
Numerais NUM.* 104446 1,82%

^Voltar ao início da página

Corpo CD HAREM

O corpo CDHAREM contém as colecções douradas usadas no Primeiro HAREM (Avaliação conjunta de sistemas de Reconhecimento de Entidades Mencionadas), criadas em 2005 e 2006. Este corpo encontra-se pormenorizadamente descrito em Rocha & Santos (2007).

Corpus Colecção Dourada do HAREM, a partir das versões das CD do Primeiro HAREM de 2007, anotado em 10 de Fevereiro de 2009, versão 2.0

Estrutura do corpo

  • Atributos estruturais:
  • Atributos posicionais:

    Dados quantitativos

    Corpo CDHAREM Número de formasNúmero de tipos
    Unidades 22240722182
    Total de palavras 14707721941
    Palavras em minúscula 10769614463
    Palavras com inicial maiúscula198665443
    Palavras todas em maiúsculas 815262
    Números 1576374
    Palavras com números6847
    Palavras mistas9350
    Pontuação7499241

    Número de unidades estruturais

    Atributo Número
    DOC 257
    TEXTO 257
    LOCAL 2181
    ORGANIZACAO 1578
    VALOR 812
    COISA 264
    ACONTECIMENTO 191
    OBRA 352
    PESSOA 1865
    TEMPO 798
    ABSTRACCAO 775
    VARIADO 54
    p 5046
    s 8160
    ALT 121
    EM 8647
    mwe 2607

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 7032 12575
    Locuções 2607 5556
    Palavras gráficas 147077 147077
    Palavras simples 128946 128946
    Palavras 138585 147077

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 29823 23,13%
    Verbos V.* 20897 16,21%
    Adjectivos ADJ.* 7535 5,84%
    Pronomes pessoais .*PERS.* 3906 3,03%
    Preposições PRP.* 21781 16,89%
    Conjunções K.* 7119 5,52%
    Advérbios ADV.* 9018 6,99%
    Determinantes .*DET.* 24481 18,99%
    Especificadores .*SPEC.* 2386 1,85%
    Numerais NUM.* 2863 2,22%

    ^Voltar ao início da página

    Corpo CETEMPúblico

    O CETEMPúblico contém cerca de 190 milhões de palavras extraídas do diário PÚBLICO. Veja-se a página oficial do CETEMPúblico para mais informação.

    Corpus CETEMPúblico anotado: versão 1.7 do texto, criada em 18 de Setembro de 2001, anotada em 2009, versão na rede criada a 14 de Agosto de 2009, v. 5.0

    Estamos gratos ao Público pela gentil disponibilização dos textos.
    Estamos especialmente gratos a José Vitor Malheiros, director da versão electrónica, sem o qual este corpo não existiria, e a Paulo Almeida pelo apoio técnico com os ficheiros electrónicos.

    Estrutura do corpo

    Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase], t [título ou subtítulo], a [identificação do autor], li [elemento de lista], marca.

    Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.

    semestretamanhocltclt-soccomdesecondopipolsoc
    91a71492176353591820770843279500641278573609766261225499
    91b137453091218925207192013670429132015530051020986912410207
    92a1481480324256655195550145944014692962019147038065353115165
    92b111290152144899426980012637681254558485878026324472920485
    93a147656973077753877517014382351629571573268033065183862835
    93b1177026321948695645760122028212245051040088024936183032325
    94a1489447829332768466700146865715267451427250032025693489311
    94b1441232326910858449080155647215226881676620028405393280011
    95a16142029268329110549220175500615579651877697029995784213570
    95b1521792421559729106940156288813695982006580031801024032090
    96a1158312915898820130401384668930279116951661082520772213807698
    96b112798011551042001497139766872120460160285918492113808077
    97a96165461324919016258127442965349589089660975416011413245654
    97b965087513211480236995119935463219290770555501717608633037601
    98a12537354141639303781141470310769244170822562848919250584241521
    98b870072010150070269169101690654806783289842108316045572993033
    Todos 30379485643509191357621777875172689172613615634280273835527452715082

    Dados quantitativos

    Corpo CETEMPUBLICO Número de formasNúmero de tipos
    Unidades 232543379912439
    Total de palavras 189575095885616
    Palavras em minúscula 141541314262087
    Palavras com inicial maiúscula22379729296913
    Palavras todas em maiúsculas 109638121178
    Números 49522110220
    Palavras com números8919815487
    Palavras mistas17103428068
    Pontuação783491826759

    Número de unidades estruturais

    Atributo Número
    p 3052961
    s 7210202
    ext 1315624
    t 454817
    a 228259
    mwe 3418979
    marca 3456

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 9559400 16966464
    Locuções 3418979 7199589
    Palavras gráficas 175372032 175372032
    Palavras simples 151205979 151205979
    Palavras 164184358 175372032

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 35978560 23,79%
    Verbos V.* 22569371 14,93%
    Adjectivos ADJ.* 10726757 7,09%
    Pronomes pessoais .*PERS.* 2675830 1,77%
    Preposições PRP.* 30880990 20,42%
    Conjunções K.* 7429273 4,91%
    Advérbios ADV.* 9155395 6,05%
    Determinantes .*DET.* 32119618 21,24%
    Especificadores .*SPEC.* 2773034 1,83%
    Numerais NUM.* 3812872 2,52%

    ^Voltar ao início da página

    Corpo CETEMPúblico (primeiro milhão)

    Este corpus consiste no primeiro milhão de palavras (aproximadamente) do corpus CETEMPúblico.

    O texto que o constitui foi objecto de uma revisão aturada de forma a servir de matéria base para um "treebank" do português, a Floresta Sintáctica, seguindo outros critérios de definição de frase <s> e incluindo o marcador <sic> nos casos não julgados de interesse para esse efeito. Informação sobre os novos critérios de separação de frases, sobre a introdução da marca <sic> e sobre o processo de revisão encontram-se respectivamente em Afonso et al. (2001a); Afonso et al. (2001b) e Santos (2001).

    Corpus primeiro milhão do CETEMPúblico revisto e anotado, versão 1.0), anotado em Abril de 2002 e criado a 13 de Janeiro de 2003, v.3.3

    Estamos gratos ao Público pela gentil disponibilização dos textos.
    Estamos especialmente gratos a José Vitor Malheiros, director da versão electrónica, sem o qual este corpus não existiria, e a Paulo Almeida pelo apoio técnico com os ficheiro electrónicos.

    Estrutura do corpo

    Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase] t [título ou subtítulo] a [identificação do autor] li [elemento de lista] marca e sic [elemento a não analisar].

    Dados quantitativos

    Número de formasNúmero de tipos
    Unidades 119801568784
    Palavras 99769568138
    Palavras em minúscula 75701337765
    Palavras com inicial maiúscula12277119250
    Palavras todas em maiúsculas 74221539
    Números 8655777
    Palavras com números1146522
    Palavras mistas1452960
    Pontuação68106637

    Número de unidades estruturais

    Atributo Número
    p 13435
    s 38251
    li 408
    ext 7914
    a 1279
    t 3650
    sic 533
    marca 0
    mwe 5046

    Contabilização de multipalavras

    Número de entidades Número de tokens
    Nomes próprios 52178 93850
    Locuções 5046 9645
    Palavras gráficas 995851 995851
    Palavras simples 892356 892356
    Palavras 949580 995851

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de tokensEm percentagem
    substantivos N|N[^U].* 204299 22,89%
    verbos V.* 132470 14,84%
    adjectivos ADJ.* 57646 6,46%
    pronomes pessoais .*PERS.* 15539 1,74%
    preposições PRP.* 176541 19,78%
    conjunções K.* 40590 4,55%
    advérbios ADV.* 53817 6,03%
    determinantes .*DET.* 183852 20,60%
    especificadores .*SPEC.* 17511 1,96%
    numerais NUM.* 20997 2,35%

    ^Voltar ao início da página

    Corpo CHAVE

    O corpus CHAVE contém textos jornalísticos dos jornais Público e Folha de São Paulo dos anos de 1994 e 1995. Este corpus foi criado no âmbito da participação da língua portuguesa no CLEF. Pode obter o corpus completo em formato texto requerendo-o nesta página.

    Corpus CHAVE anotado, criado e anotado de Outubro a Dezembro de 2008, versao 2.0

    Agradecemos ao PÚBLICO e à Folha de São Paulo a gentil autorização de disponibilização dos textos.

    Estrutura do corpo

    Marcadores estruturais: DOC [documento], s [frase], CATEGORY (secção do jornal), AUTHOR (autor do texto), NE (lista de nomes próprios contidos no documento, usando a anotação do PALAVRAS).

    Dados quantitativos

    Corpo CHAVE Número de formasNúmero de tipos
    Unidades 123868725722152
    Total de palavras 99478954698031
    Palavras em minúscula 73737504230460
    Palavras com inicial maiúscula13001169233405
    Palavras todas em maiúsculas 65469616752
    Números 11108437585
    Palavras com números1076809903
    Palavras mistas15040715229
    Pontuação474012924004

    Número de unidades estruturais

    Atributo Número
    s 4738273
    mwe 1787546
    DOC 210726
    CATEGORY 210729
    AUTHOR 2
    EM 210729

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 5504868 9547536
    Locuções 1787546 3775791
    Palavras gráficas 99478954 99478954
    Palavras simples 86155627 86155627
    Palavras 93448041 99478954

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 20994423 24,37%
    Verbos V.* 12920670 15,00%
    Adjectivos ADJ.* 6032931 7,00%
    Pronomes pessoais .*PERS.* 1502949 1,74%
    Preposições PRP.* 17043473 19,78%
    Conjunções K.* 4180282 4,85%
    Advérbios ADV.* 4975068 5,77%
    Determinantes .*DET.* 17735511 20,59%
    Especificadores .*SPEC.* 1484406 1,72%
    Numerais NUM.* 2297484 2,67%

    ^Voltar ao início da página

    Corpo Clássicos LP/Porto Editora

    O corpus Clássicos da Língua Portuguesa é um corpus de textos literários portugueses que nos foi gentilmente cedido pela Porto Editora. O corpus destina-se exclusivamente à pesquisa através da Internet. Contém as seguintes obras: O corpus engloba, de momento, 6 peças de teatro, 7 obras de poesia e 13 obras em prosa.

    Corpus Clássicos da Literatura Portuguesa - Porto Editora, versão 1.8 e versão 3.1 da sua codificação, 9 de Janeiro de 2010

    Estrutura do corpo

    O corpus foi criado a partir da versão texto das obras da Biblioteca Digital da Porto Editora (o URL da Biblioteca Digital é http://www.portoeditora.pt/bdigital/).

    Alguns dos ficheiros de texto utilizados como base para este corpus foram manipulados manualmente para inserir determinados marcadores. No entanto, na grande maioria dos casos, os marcadores foram inseridos automaticamente.

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o código interno da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, data (a data da obra, quando assinalada no texto), nota, titulo, marca e u (uma unidade de texto: frase, verso, título ou indicação de cena, consoante o tipo de obra).

    As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

    As obras de poesia têm os seguintes marcadores estruturais adicionais: dedicatoria, poema, div [parte de um poema, assinalada graficamente por números romanos], e [estrofe] e v [verso].

    As obras de teatro têm os seguintes marcadores estruturais adicionais: fala, personagem e indic (indicação de cena); além disso, as obras de Gil Vicente utilizam o marcador v [verso], enquanto as restantes utilizam o marcador s [frase].

    Os códigos de autores e obras usados neste corpus correspondendo respectivamos aos atributo posicional autor e obra, são listados na página de descrição do corpus.
    AFC António Feliciano de Castilho6,630 PoePoesias6,630
    AG Almeida Garrett141,571 CamCamões28,354
    FC1Folhas Caídas I5,950
    FC2Folhas Caídas II3,732
    FLSFrei Luís de Sousa22,615
    VMTViagens na minha terra80,920
    AH Alexandre Herculano148,220 BoboO Bobo62,518
    EPEurico o Presbítero66,491
    HCA Harpa do Crente19,211
    AJS António José da Silva27,891 GAMGuerras do Alecrim e Manjerona27,891
    AQ Antero de Quental36,710 OMOdes Modernas21,241
    PRPrimaveras Românticas15,469
    CCB Camilo Castelo Branco140,874 APAmor de Perdição57,640
    MMMaria Moisés24,417
    QAA Queda de um Anjo58,817
    EQ Eça de Queirós261,146 MaiasOs Maias263,146
    GV Gil Vicente21,001 AAAuto da Alma4,428
    ABIAuto da Barca do Inferno5,837
    AIAuto da Índia3,263
    FIPFarsa de Inês Pereira7,473
    JD Júlio Dinis607,933 FCMOs Fidalgos da Casa Mourisca168,453
    MCA Morgadinha dos Canaviais177,638
    PSRAs Pupilas do Senhor Reitor115,062
    UFIUma Família Inglesa146,780
    PAV Pe. António Vieira14,073 CIO Cárcere e interrogatório510
    SSAPSermão de Santo António aos Peixes14,048

    O atributo classe pode tomar um dos três valores

    classetamanho
    poesia100.866
    prosa1.236.332
    teatro70.554

    Dados quantitativos

    Corpo CLASSLPPE Número de formasNúmero de tipos
    Unidades 192260169898
    Total de palavras 130428269863
    Palavras em minúscula 99794747891
    Palavras com inicial maiúscula1327689945
    Palavras todas em maiúsculas 34996
    Números 468143
    Palavras com números33
    Palavras mistas583398
    Pontuação10382734

    Número de unidades estruturais

    Atributo Número
    p 33309
    s 74679
    personagem 2821
    v 17378
    obra 26
    capitulo 135
    e 1851
    marca 144
    canto 0
    poema 105
    titulo 215
    u 92444
    indic 166
    fala 2820
    autor 26
    tituloobra 26
    div 394
    mwe 23830

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 39924 52900
    Locuções 23830 50693
    Palavras gráficas 1304284 1304284
    Palavras simples 1200691 1200691
    Palavras 1264445 1304284

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 239065 19,91%
    Verbos V.* 221254 18,43%
    Adjectivos ADJ.* 69840 5,82%
    Pronomes pessoais .*PERS.* 70748 5,89%
    Preposições PRP.* 181496 15,12%
    Conjunções K.* 70433 5,87%
    Advérbios ADV.* 95803 7,98%
    Determinantes .*DET.* 222622 18,54%
    Especificadores .*SPEC.* 30521 2,54%
    Numerais NUM.* 7236 0,60%

    ^Voltar ao início da página

    Corpo CONDIVport

    O corpus CONDIVport é o subcorpus de textos dos domínios do futebol, do vestuário/moda e da saúde das décadas de 50, 70 e 2000 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

    Este subcorpus contém 3981 extractos de textos de jornais desportivos portugueses e brasileiros, das décadas de 1950, 1970 e 2000; 4372 textos (agrupados em 82 extractos, ou seja, provenientes de 82 edições) de revistas de moda portuguesas e brasileiras, das décadas de 1950, 1970, e 1990-2000, assim como 1815 textos de revistas e jornais de saúde nos mesmos períodos.

    Corpus CONDIV, versão texto (futebol) de 15 de Fevereiro de 2006, versão texto (moda) de 18 de Dezembro de 2008, versão texto (saúde) de 2 de Fevereiro de 2010, criado a 9 de Março de 2010, v. 5.8

    Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.

    Estrutura do corpo

    O corpo está dividido em extractos, assinalados pelo atributo ext; cada extracto está dividido em parágrafos (atributo p) e frases (atributo s). Nos casos da moda e da saúde, os extractos estão ainda subdivididos em textos, que correspondem a notícias completas. Além disso, o CONDIVport contém os atributos posicionais decada (valores: 50, 70, 2000), variante (valores: PT, BR) e fonte. Como todos os corpos do AC/DC o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica no atributo sema, por agora referente apenas a cor e roupa.

    TamanhoFutebolModa/vestuárioSaúde
    PT327943416442643070421328128
    BR26231711347798797300478073
    Todos 299206211043471806201

    Dados quantitativos

    Corpo CONDIV Número de formasNúmero de tipos
    Unidades 7088775152220
    Total de palavras 5577632150098
    Palavras em minúscula 419564581324
    Palavras com inicial maiúscula65467238566
    Palavras todas em maiúsculas 140113514
    Números 730301741
    Palavras com números2536772
    Palavras mistas47901267
    Pontuação3388291932

    Número de unidades estruturais

    Atributo Número
    ext 4081
    texto 6223
    p 148134
    s 318159
    mwe 106631

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 240795 374608
    Locuções 106631 224904
    Palavras gráficas 5570215 5570215
    Palavras simples 4970703 4970703
    Palavras 5318129 5570215

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1217483 24,49%
    Verbos V.* 753033 15,15%
    Adjectivos ADJ.* 389391 7,83%
    Pronomes pessoais .*PERS.* 103190 2,08%
    Preposições PRP.* 878408 17,67%
    Conjunções K.* 266237 5,36%
    Advérbios ADV.* 311826 6,27%
    Determinantes .*DET.* 963712 19,39%
    Especificadores .*SPEC.* 77452 1,56%
    Numerais NUM.* 132016 2,66%

    ^Voltar ao início da página

    Corpo CoNE

    O corpus CoNE (Correio Não Endereçado) é um corpus de mensagens não-endereçadas em português.

    O corpus foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 24 de Janeiro de 2006.

    Versão do corpus de 15 de Janeiro de 2006 e versão 3.1 da sua codificação e anotação, a 9 de Janeiro de 2010

    Estrutura do corpo

    O corpus está dividido em mensagens, marcadas pelo atributo mens, com informação da data . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

    Dados quantitativos

    Corpo CONE Número de formasNúmero de tipos
    Unidades 92523043932
    Total de palavras 68522541045
    Palavras em minúscula 39916718492
    Palavras com inicial maiúscula16037413527
    Palavras todas em maiúsculas 120441998
    Números 15297872
    Palavras com números2888678
    Palavras mistas3427407
    Pontuação552982887

    Número de unidades estruturais

    Atributo Número
    p 19247
    s 31297
    mwe 8283
    autor 1949
    mens 1949
    assunto 1904
    div 0
    li 26844
    titulo 1295
    cita 0

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 58675 121139
    Locuções 8283 17509
    Palavras gráficas 685231 685231
    Palavras simples 546583 546583
    Palavras 613541 685231

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 160091 29,29%
    Verbos V.* 68258 12,49%
    Adjectivos ADJ.* 36796 6,73%
    Pronomes pessoais .*PERS.* 8978 1,64%
    Preposições PRP.* 94535 17,30%
    Conjunções K.* 32270 5,90%
    Advérbios ADV.* 23758 4,35%
    Determinantes .*DET.* 82614 15,11%
    Especificadores .*SPEC.* 5203 0,95%
    Numerais NUM.* 26399 4,83%

    ^Voltar ao início da página

    Corpo DiaCLAV

    O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line. Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contêm textos semelhantes, embora não haja casos de artigos exactamente iguais.

    Corpus DIACLAVANOT, versão texto criada em Abril de 2002, anotado em Agosto de 2008, criado a 11 de Janeiro de 2010, v. 3.1

    Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.

    Estrutura do corpo

    O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

    O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

    Dados quantitativos

    Corpo DIACLAV Número de formasNúmero de tipos
    Unidades 7758467110049
    Total de palavras 6651549107933
    Palavras em minúscula 498457358853
    Palavras com inicial maiúscula85938328967
    Palavras todas em maiúsculas 400612141
    Números 596911330
    Palavras com números65041047
    Palavras mistas2490863
    Pontuação2316832115

    Número de unidades estruturais

    Atributo Número
    p 44133
    s 232139
    art 13008
    t 13007
    a 5840
    mwe 130541

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 331676 513265
    Locuções 130541 273667
    Palavras gráficas 6651564 6651564
    Palavras simples 5864632 5864632
    Palavras 6326849 6651564

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1461150 24,91%
    Verbos V.* 879523 15,00%
    Adjectivos ADJ.* 389559 6,64%
    Pronomes pessoais .*PERS.* 86894 1,48%
    Preposições PRP.* 1225336 20,89%
    Conjunções K.* 289298 4,93%
    Advérbios ADV.* 336862 5,74%
    Determinantes .*DET.* 1220515 20,81%
    Especificadores .*SPEC.* 105931 1,81%
    Numerais NUM.* 129334 2,21%

    ^Voltar ao início da página

    Corpo ECI-EBR

    O corpo ECI-EBR foi criado pela ECI (European Corpus Initiative; Thomson et al. 1994) , baseado no corpo Borba-Ramsey. É uma selecção de excertos de obras brasileiras, contendo pelo menos discurso literário, didáctico e oral cuidado (discursos políticos). O corpo contém pouco mais de 700 mil palavras, e estava codificado em SGML muito leve (além do cabeçalho, apenas continha marcas de parágrafos), cf. a informação da ELSNET.

    Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.

    Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:

    Dentro do género jornalismo, incluímos as subdivisões: crónica, cultura, desporto, economia, entretenimento, generalidades, internacional, país, religião, reportagem, saúde, sociedade, título.

    Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.

    Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.

    Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).

    O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.

    Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:

    GéneroUnidadesTextos
    Literatura 368.024 151
    Informativo 201.425 285
    Jornalismo 88.070 536
    Oral 66.565 29
    Outros 16.061 33
    Indef 16.774 81
    AssuntosUnidadesTextos
    Agricultura 3458 8
    Arqueologia 1669 3
    Arte 4193 4
    Astrologia 1292 1
    Biologia 3660 3
    Botânica 6082 4
    Ciência 7375 9
    Clima 302 1
    Crónica 3716 11
    Culinária 1316 1
    Cultura 5698 44
    Desporto 8173 39
    Direito 1703 4
    Ecologia 326 2
    Economia 18360 60
    Edição 821 1
    Educação 1092 1
    Entretenimento 4988 31
    Escutismo 422 1
    Estatística 1237 1
    Filatelia 1109 1
    Filosofia 3382 3
    Física 627 1
    Fotografia 1056 2
    Generalidades 5476 45
    Geografia 3685 6
    Geologia 77 1
    Gestão 2300 3
    Hidrografia 1276 1
    História 35076 30
    Indef 482747 1
    Indústria 1375 3
    Internacional 8098 57
    Jornalismo 277 536
    Linguística 8066 12
    Literatura 8180 14
    Maternidade 344 1
    Medicina 16837 18
    Música 1689 3
    Oceanografia 302 1
    País 44537 206
    Política 19620 36
    Psicologia 2388 5
    Religião 20977 32
    Reportagem 1275 3
    Saúde 4460 18
    Sociedade 7286 58
    Sociologia 10347 15
    Título 173 12
    Turismo 188 1
    Zoologia 2985 15

    Corpus ECI-EBR, versão texto de Abril de 2002, analisado em Novembro de 2009, criado a 8 de Janeiro de 2010, v. 8.1

    Agradecemos aos compiladores do corpus por o terem criado e tornado público.

    Estrutura do corpo

    A partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).

    A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.

    Marcadores estruturais: s, p, ext e marca.

    Dados quantitativos

    Corpo ECI-EBR Número de formasNúmero de tipos
    Unidades 91712760391
    Total de palavras 72401560198
    Palavras em minúscula 56902642161
    Palavras com inicial maiúscula7342812233
    Palavras todas em maiúsculas 19246
    Números 1996459
    Palavras com números5340
    Palavras mistas181123
    Pontuação48083193

    Número de unidades estruturais

    Atributo Número
    ext 1107
    p 12116
    s 43543
    marca 3
    mwe 14909

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 19405 32985
    Locuções 14909 31801
    Palavras gráficas 724015 724015
    Palavras simples 659229 659229
    Palavras 693543 724015

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 149934 22,74%
    Verbos V.* 114540 17,37%
    Adjectivos ADJ.* 45414 6,89%
    Pronomes pessoais .*PERS.* 25036 3,80%
    Preposições PRP.* 108577 16,47%
    Conjunções K.* 35139 5,33%
    Advérbios ADV.* 46924 7,12%
    Determinantes .*DET.* 125957 19,11%
    Especificadores .*SPEC.* 13550 2,06%
    Numerais NUM.* 9116 1,38%

    ^Voltar ao início da página

    Corpo ECI-EE

    O corpus ECI-EE foi criado pela ECI (European Corpus Initiative, Thomson et al. 1994), e contém o anúncio do programa comunitário ESPRIT . O corpus usa uma codificação SGML leve, com parágrafos e secções/artigos numerados, o que produziu alguns problemas em relação à separação de notas de rodapé (apenas indicadas graficamente por linhas iniciadas por tabuladores, e que tiveram de ser reconstituídas e colocadas após o parágrafo respectivo).

    Pode também consultar a informação da ELSNET.

    Corpus ECI-EE, versão de Abril de 2002, anotado em Agosto de 2008, criado a 1 de Dezembro de 2009, v. 5.2

    Agradecemos aos compiladores do corpus por o terem criado e tornado publico.

    Estrutura do corpo

    Marcadores estruturais: s, p, titulo, nota, marca.

    Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
    <marca num=3> <nota num=3>

    Dados quantitativos

    Corpo ECI-EE Número de formasNúmero de tipos
    Unidades 320344254
    Total de palavras 271404096
    Palavras em minúscula 217443332
    Palavras com inicial maiúscula1786391
    Palavras todas em maiúsculas 19541
    Números 463104
    Palavras com números22
    Palavras mistas1125
    Pontuação1125155

    Número de unidades estruturais

    Atributo Número
    p 340
    s 839
    t 0
    nota 27
    marca 27
    mwe 607

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 641 1008
    Locuções 607 1318
    Palavras gráficas 27140 27140
    Palavras simples 24814 24814
    Palavras 26062 27140

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 6938 27,96%
    Verbos V.* 2908 11,72%
    Adjectivos ADJ.* 2437 9,82%
    Pronomes pessoais .*PERS.* 411 1,66%
    Preposições PRP.* 5300 21,36%
    Conjunções K.* 1322 5,33%
    Advérbios ADV.* 947 3,82%
    Determinantes .*DET.* 4971 20,03%
    Especificadores .*SPEC.* 280 1,13%
    Numerais NUM.* 706 2,85%

    ^Voltar ao início da página

    Corpo ENPCPUB (parte portuguesa)

    O corpus ENPCPUB é um corpus de traduções para português de textos literários em inglês (Johansson et al., 1996, 1999; Oksefjell 1999). Apenas recebemos autorização para dar acesso a uma pequena parte do corpus ENPC, nomeadamente extractos dos textos (identificação do ENPC):
    CódigoAutorObraEditoraAnoTradutor(a)Título original
    JB1PPJulian BarnesAmor & C.aQuetzal Editores, Lisboa1994Helena CardosoTalking It Over.
    BC1Bruce ChatwinUtzQuetzal Editores, Lisboa1991José Luís LunaUtz.
    AH1Arthur HaileyRemédio AmargoDistribuidora Record, Rio de Janeiros/dA.B.P. de Lemos. Strong Medicine.
    JH1Joseph HellerImaginem queDifusão Cultural, Lisboa1991Cristina Rodriguez. Picture This.
    NG1Nadine GordimerA história do meu filhoEditora Siciliano, São Paulo1992Geraldo Galvão FerrazMy Son's Story.

    O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).

    Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).
    Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".

    Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado em Agosto de 2008, criado a 29 de Novembro de 2009, v. 6.2

    Estamos gratos a Stig Johansson e à equipa do ENPC pela colaboração na criação deste corpus, e aos detentores dos direitos de autor pela autorizações gentilmente cedidas.

    Estrutura do corpo

    Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.
    Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".
    O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).

    Dados quantitativos

    Corpo ENPCPUB Número de formasNúmero de tipos
    Unidades 9269312895
    Total de palavras 7238912876
    Palavras em minúscula 5763410252
    Palavras com inicial maiúscula70841691
    Palavras todas em maiúsculas 4119
    Números 13778
    Palavras com números11
    Palavras mistas1613
    Pontuação495119

    Número de unidades estruturais

    Atributo Número
    p 1682
    s 4369
    texto 5
    parte 8
    capitulo 25
    mwe 1605

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 2543 3314
    Locuções 1605 3475
    Palavras gráficas 72389 72389
    Palavras simples 65600 65600
    Palavras 69748 72389

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 13271 20,23%
    Verbos V.* 12769 19,46%
    Adjectivos ADJ.* 3875 5,91%
    Pronomes pessoais .*PERS.* 3109 4,74%
    Preposições PRP.* 10805 16,47%
    Conjunções K.* 3961 6,04%
    Advérbios ADV.* 5374 8,19%
    Determinantes .*DET.* 12177 18,56%
    Especificadores .*SPEC.* 1545 2,36%
    Numerais NUM.* 773 1,18%

    ^Voltar ao início da página

    Corpo FrasesPB

    O corpus FrasesPB é um conjunto de frases em português brasileiro.

    O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).

    Corpus FrasesPB, versão texto de 17 de Abril de 2002, anotado em Maio de 2002, criado a 30 de Novembro de 2009, v. 4.1

    Estrutura do corpo

    Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo. Em dois casos, contudo, o algoritmo separador de frases ainda conseguiu detectar unidades mais pequenas, dando origem pois a dois parágrafos com duas frases cada.

    Marcadores estruturais: s, p.

    Dados quantitativos

    Corpo FRASESPB Número de formasNúmero de tipos
    Unidades 233136018
    Total de palavras 191626008
    Palavras em minúscula 164225265
    Palavras com inicial maiúscula1051526
    Palavras todas em maiúsculas 1414
    Números 4935
    Palavras com números
    Palavras mistas55
    Pontuação70510

    Número de unidades estruturais

    Atributo Número
    p 648
    s 653
    mwe 422

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 250 409
    Locuções 422 904
    Palavras gráficas 19162 19162
    Palavras simples 17849 17849
    Palavras 18521 19162

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 4623 25,90%
    Verbos V.* 2895 16,22%
    Adjectivos ADJ.* 1434 8,03%
    Pronomes pessoais .*PERS.* 356 1,99%
    Preposições PRP.* 3269 18,31%
    Conjunções K.* 1011 5,66%
    Advérbios ADV.* 1054 5,91%
    Determinantes .*DET.* 3639 20,39%
    Especificadores .*SPEC.* 343 1,92%
    Numerais NUM.* 166 0,93%

    ^Voltar ao início da página

    Corpo FrasesPP

    O corpus FrasesPP é um conjunto de frases em português de Portugal, compilado para o teste de uma gramática computacional, desenvolvido no Grupo Científico IBM-INESC (depois Grupo de Linguagem Natural do INESC) de 1990 a 1992. (Santos (ed.) 1992; Medeiros et al. 1993). Encontrava-se em texto simples e em formato LaTeX.

    Corpus FrasesPP, anotado a 22 de Maio de 2007, criado a 30 de Novembro de 2009, versão 6.1

    Estrutura do corpo

    Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo.

    Marcadores estruturais: s, p.

    Os valores da anotação original encontram-se no atributo posicional pos2. Os valores deste atributo (A, N, V, VPP, PF, PONT e CL) foram atribuídos automaticamente e depois revistos manualmente nos casos em que as palavras obtiveram mais do que uma categoria.

    Dados quantitativos

    Corpo FRASESPP Número de formasNúmero de tipos
    Unidades 200495099
    Total de palavras 162335085
    Palavras em minúscula 135024243
    Palavras com inicial maiúscula1088569
    Palavras todas em maiúsculas 96
    Números 9750
    Palavras com números22
    Palavras mistas
    Pontuação73814

    Número de unidades estruturais

    Atributo Número
    p 594
    s 594
    mwe 351

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 262 431
    Locuções 351 759
    Palavras gráficas 16234 16234
    Palavras simples 15044 15044
    Palavras 15657 16234

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 3699 24,59%
    Verbos V.* 2281 15,16%
    Adjectivos ADJ.* 1298 8,63%
    Pronomes pessoais .*PERS.* 411 2,73%
    Preposições PRP.* 2796 18,59%
    Conjunções K.* 819 5,44%
    Advérbios ADV.* 967 6,43%
    Determinantes .*DET.* 3115 20,71%
    Especificadores .*SPEC.* 311 2,07%
    Numerais NUM.* 205 1,36%

    ^Voltar ao início da página

    Corpo Museu da Pessoa

    O corpus Museu da Pessoa é um corpus de 107 entrevistas transcritas pelo Núcleo Português do Museu da Pessoa no âmbito dos seus projectos, mais seis entrevistas transcritas pelo Museu da Pessoa brasileiro.

    Corpus Museu da Pessoa, versão do texto português de Abril de 2005, versão do texto brasileiro de Dezembro de 2008, anotado 9 de Fevereiro de 2009, criado a 7 de Janeiro de 2010, versão 3.3

    Agradecemos ao Núcleo Português do Museu da Pessoa a disponibilização dos textos.

    Estrutura do corpo

    Marcadores estruturais: entrevista [entrevista completa], p [parágrafo], s [frase], resposta, pergunta, legenda [legenda de uma fotografia], introd [texto de introdução antes da entrevista]

    Dados quantitativos

    Corpo MUSEUDAPESSOA Número de formasNúmero de tipos
    Unidades 51774721543
    Total de palavras 37515821498
    Palavras em minúscula 29800515331
    Palavras com inicial maiúscula392653464
    Palavras todas em maiúsculas 10453
    Números 2377240
    Palavras com números8850
    Palavras mistas11495
    Pontuação2862345

    Número de unidades estruturais

    Atributo Número
    mwe 7336
    p 11790
    s 27284
    entrevista 115
    pergunta 5067
    resposta 5340
    legenda 43
    introd 3

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 7124 11855
    Locuções 7336 15718
    Palavras gráficas 375158 375158
    Palavras simples 347585 347585
    Palavras 362045 375158

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 66140 19,03%
    Verbos V.* 72595 20,89%
    Adjectivos ADJ.* 11782 3,39%
    Pronomes pessoais .*PERS.* 17948 5,16%
    Preposições PRP.* 47326 13,62%
    Conjunções K.* 23142 6,66%
    Advérbios ADV.* 37575 10,81%
    Determinantes .*DET.* 62748 18,05%
    Especificadores .*SPEC.* 9441 2,72%
    Numerais NUM.* 5366 1,54%

    ^Voltar ao início da página

    Corpo Natura/Minho

    O corpus Natura/Minho é um corpus jornalístico contendo texto do jornal regional português Diário do Minho, criado no âmbito do projecto Natura. O corpus (correspondente à versão 3 diariodoMinho.3.cor) contém notícias completas, separadas em edições e marcadas pela data. No texto encontravam-se assinalados, numa codificação de tipo XML, títulos, assinaturas e legendas, além de conter marcação (markup) de parágrafos e de formatação, esta última retirada do corpus final.

    Segundo o projecto Natura, o corpus original é assim descrito:
    Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de provas).

    Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.

    Corpus Natura/Minho (de 9 de Março de 2001), versão texto criada em Abril de 2002, anotado em Outubro de 2008, criado a 15 de Agosto de 2009, v. 5.0

    Estamos gratos à direcção do Diário do Minho pela gentil autorização de disponibilização dos tex

    Estrutura do corpo

    A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. A partir da versão 3.0, introduzimos a anotação li para assinalar listas.

    Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.

    Dados quantitativos

    Corpo NATMINHO Número de formasNúmero de tipos
    Unidades 215618768957
    Total de palavras 174908367454
    Palavras em minúscula 128500639003
    Palavras com inicial maiúscula25376017614
    Palavras todas em maiúsculas 126481332
    Números 222031268
    Palavras com números2739348
    Palavras mistas1425447
    Pontuação679461502

    Número de unidades estruturais

    Atributo Número
    p 56908
    s 68850
    assinatura 542
    legenda 782
    t 7668
    art 5117
    marca 0
    mwe 30262

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 104234 219641
    Locuções 30262 63521
    Palavras gráficas 1749083 1749083
    Palavras simples 1465921 1465921
    Palavras 1600417 1749083

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 374337 25,54%
    Verbos V.* 207104 14,13%
    Adjectivos ADJ.* 101312 6,91%
    Pronomes pessoais .*PERS.* 19821 1,35%
    Preposições PRP.* 314787 21,47%
    Conjunções K.* 73350 5,00%
    Advérbios ADV.* 70635 4,82%
    Determinantes .*DET.* 315174 21,50%
    Especificadores .*SPEC.* 22654 1,55%
    Numerais NUM.* 42074 2,87%

    ^Voltar ao início da página

    Corpo Natura/Público

    O corpus NATURA/Público contém os primeiros dois parágrafos de notícias do diário PÚBLICO de 1991 a 1994. O corpus foi criado no âmbito do projecto Natura.

    Visto que este corpus é constituído pelos primeiros dois parágrafos da cada notícia, não há informação sobre secções do jornal, como títulos ou tipo de notícia.

    Corpus Natura/Público, NATPANOT, versão texto de Abril de 2002, anotado em Outubro de 2008, criado a 15 de Agosto de 2009, v.5.0

    Estrutura do corpo

    Marcadores estruturais: s [frase], p [parágrafo] e marca [(conjuntos de) asteriscos que indicam notas de rodapé].

    Dados quantitativos

    Corpo NATPUBLICO Número de formasNúmero de tipos
    Unidades 7369349170762
    Total de palavras 6274542168784
    Palavras em minúscula 485799589999
    Palavras com inicial maiúscula68666246715
    Palavras todas em maiúsculas 339343337
    Números 672852067
    Palavras com números64101633
    Palavras mistas30631371
    Pontuação2498051975

    Número de unidades estruturais

    Atributo Número
    p 79438
    s 225603
    marca 66
    mwe 117276

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 303733 565671
    Locuções 117276 247127
    Palavras gráficas 6274542 6274542
    Palavras simples 5461744 5461744
    Palavras 5882753 6274542

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1360698 24,91%
    Verbos V.* 777459 14,23%
    Adjectivos ADJ.* 406852 7,45%
    Pronomes pessoais .*PERS.* 84590 1,55%
    Preposições PRP.* 1154829 21,14%
    Conjunções K.* 245821 4,50%
    Advérbios ADV.* 300947 5,51%
    Determinantes .*DET.* 1171647 21,45%
    Especificadores .*SPEC.* 90931 1,66%
    Numerais NUM.* 147140 2,69%

    ^Voltar ao início da página

    Corpo NILC/São Carlos

    O corpus NILC/São Carlos do Núcleo Interinstitucional de Lingüística Computacional, sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo em São Carlos, contém textos brasileiros do registo jornalístico, didáctico, epistolar e redacções de alunos (Nunes et al., 1996a, 1996b). Para um descrição mais abrangente, veja-se a página de descrição do corpus NILC e sua descendência.

    Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.

    Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; anotação em Outubro de 2008, criado a 2 de Fevereiro de 20010, versão 9.2

    Estamos gratos à Folha de São Paulo pela autorização gentilmente concedida para uso dos seus textos.
    Estamos gratos ao Núcleo Interinstitucional de Lingüística Computacional, em especial a Graça Nunes, por nos ter disponibilizado o texto do corpus em formato electrónico, autorizado a sua disponibilização através do projecto AC/DC e negociado com a Folha de São Paulo a autorização anteriormente mencionada.

    Estrutura do corpo

    Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura,
    Para os textos da folha de São Paulo, a (autor), artigo, caixa, situacao, li (elemento de lista).

    As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.

    Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.

    A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.

    O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 9.0, é a seguinte:

    TipoDescriçãoTamanho
    DI texto didáctico 425.692
    ENC enciclopédia 286.550
    ENS ensaio 2.169.726
    EP texto epistolar 3.332
    JO.* jornalístico 29.140.843
    JOCF jornalístico só CETENFolha 27.082.793
    JO jornalístico sem CETENFolha 2.058.050
    LE texto legal 1.117.747
    LI literário 921.011
    RE revista 152.366

    O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.

    A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .

    A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):

    Dados quantitativos

    Corpo SAOCARLOS Número de formasNúmero de tipos
    Unidades 42608038418521
    Total de palavras 32342456397552
    Palavras em minúscula 23209070158452
    Palavras com inicial maiúscula4774992130096
    Palavras todas em maiúsculas 2939419351
    Números 5314743385
    Palavras com números411834724
    Palavras mistas870025350
    Pontuação187481120899

    Número de unidades estruturais

    Atributo Número
    mwe 496702
    p 1126598
    s 1952390
    texto 341900
    subtitulo 3767
    assinatura 13
    artigo 0
    caixa 20722
    situacao 5031
    t 148933
    a 80375
    li 49702

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 2043779 3509766
    Locuções 496702 1050828
    Palavras gráficas 32342767 32342767
    Palavras simples 27782173 27782173
    Palavras 30322654 32342767

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 7084805 25,50%
    Verbos V.* 4284305 15,42%
    Adjectivos ADJ.* 1845446 6,64%
    Pronomes pessoais .*PERS.* 467161 1,68%
    Preposições PRP.* 5279636 19,00%
    Conjunções K.* 1261955 4,54%
    Advérbios ADV.* 1456426 5,24%
    Determinantes .*DET.* 5508773 19,83%
    Especificadores .*SPEC.* 405569 1,46%
    Numerais NUM.* 924946 3,33%

    ^Voltar ao início da página

    Corpo Vercial

    O corpo Vercial contém 309 obras literárias de 55 autores portugueses, digitalizadas pelo projecto Vercial, cujas datas de publicação variam desde 1500 (Carta a El-rei Dom Manuel Sobre o Achamento do Brasil, de Pero Vaz de Caminha) a 1933 (Memórias III, de Raul Brandão).

    Corpus Vercial, anotado em 14 de Janeiro de 2010, criado em 13 de Fevereiro de 2010, v. 2.2

    Agradecemos à equipa do projecto Vercial, especialmente a José Leon Machado, que gentilmente nos cederam os textos para este corpus.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra).

    As 187 obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

    As 80 obras de poesia têm os seguintes marcadores estruturais adicionais: div [parte de um poema, assinalada graficamente por números romanos] e v [verso].

    As 43 obras de teatro têm os seguintes marcadores estruturais adicionais: fala [juntando a fala de uma personagem] e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (que pode ser Poesia, Prosa ou Teatro), e data (que quando é desconhecida tem o valor "desc").

    As obras presentes e respectivos autores são as seguintes:

    Dados quantitativos

    Corpo VERCIAL Número de formasNúmero de tipos
    Unidades 18854273374068
    Total de palavras 14315992328281
    Palavras em minúscula 10660148176948
    Palavras com inicial maiúscula162259274555
    Palavras todas em maiúsculas 256371751
    Números 463902035
    Palavras com números208158
    Palavras mistas288717500
    Pontuação113654245574

    Número de unidades estruturais

    Atributo Número
    p 79851
    s 592283
    v 90044
    obra 309
    capitulo 565
    titulo 0
    u 682844
    fala 16605
    autor 310
    tituloobra 310
    div 159
    mwe 229561

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 487764 755202
    Locuções 229561 485543
    Palavras gráficas 14316097 14316097
    Palavras simples 13075352 13075352
    Palavras 13792677 14316097

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 3010677 23,03%
    Verbos V.* 2185895 16,72%
    Adjectivos ADJ.* 842679 6,44%
    Pronomes pessoais .*PERS.* 647557 4,95%
    Preposições PRP.* 2023992 15,48%
    Conjunções K.* 832177 6,36%
    Advérbios ADV.* 866728 6,63%
    Determinantes .*DET.* 2524784 19,31%
    Especificadores .*SPEC.* 295602 2,26%
    Numerais NUM.* 137681 1,05%

    ^Voltar ao início da página

    [ Acesso | Anotação | Atomização | Exemplos | Agradecimentos ]


    Última actualização: 25 de Fevereiro de 2009
    Perguntas, comentários e sugestões