Informação pormenorizada sobre os corpos

Projecto AC/DC, Linguateca


Esta página fornece a informação necessária sobre cada corpo, para que os utilizadores do nosso serviço o possam utilizar como instrumento válido de teste de hipóteses científicas.

Além de apontar para a informação original fornecida pelos compiladores e de apresentar uma contabilização sumária de todos os corpos em forma de tabela, descreve várias opções básicas tomadas na codificação dos corpos no ambiente escolhido, o CWB. Sem que estas opções sejam explicitadas, não é possível compreender os resultados quantitativos ou comparar com outros trabalhos sobre os mesmos corpos.

Todos os corpos foram anotados pelo PALAVRAS, o analisador sintáctico criado Eckhard Bick, Bick (2000). Veja-se a página de anotação para mais informações sobre essa anotação.


Identificação sumária

Informação original fornecida pelos compiladores de corpos, acessível na rede ou publicada. Apenas os identificadores foram atribuídos por nós. Para saber mais informação sobre cada corpo, clique no respectivo identificador.

AmostRA-NILC Seleção de textos do corpo NILC, em português brasileiro, contendo textos dos géneros didático, jornalístico e literário, anotada com classificação gramatical, criada no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC
ANCIB Corpo de correio electrónico da lista ANCIB
Avante! Corpo de artigos da edição electrónica do Avante!, jornal semanal do Partido Comunista Português
CDHAREM As colecções douradas usadas no HAREM
CETEMPúblico CETEMPúblico (Corpo de Extractos de Textos Electrónicos MCT/Público)
CHAVE Corpo de texto jornalístico usado no CLEF
CONDIVport Parte do corpo CONDIVport, contendo textos de jornais desportivos de Portugal e do Brasil
CoNECorpo de Correio Não-Endereçado, criado pela Linguateca
DiaCLAV Corpo de artigos da edição electrónica de jornais regionais da região centro de Portugal (Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário)
ECI-EBR A parte do corpo Borba-Ramsey, contido no European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ECI-EE A parte da apresentação do programa Esprit do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ENPCPUB Parte disponibilizável do subconjunto em português do English-Norwegian Parallel Corpus (ENPC) (traduções para português de originais em inglês)
Floresta Corpo relativo ao material da Floresta Sintá(c)tica
FrasesPP Corpo FrasesPP, desenvolvido no Grupo de PLN do INESC em 1990-93
FrasesPB Corpo FrasesPB, criado no âmbito do Projecto Processamento Computacional do Português
Museu da PessoaCorpo de 109 entrevistas realizadas pelo Museu da Pessoa
Natura/Minho Corpo jornalístico Natura/Diário do Minho
NILC/São Carlos Corpo NILC/São Carlos (parte corrigida), contendo texto jornalístico, didáctico e epistolar.
TodosJuntos Todos os corpos combinados, evitando repetições.
Vercial Corpo de textos literários portugueses clássicos, disponibilizados pelo projecto Vercial.

Contabilização básica dos corpos

Todos os corpos foram processados de forma a serem codificados pelo IMS-CWB, o que significa que foram previamente transformados no formato de uma unidade por linha, e com um atributo estrutural (que delimita um conjunto de unidades) por linha também.

Este processo, que chamamos atomização, encontra-se descrito em Atomização, e inclui também a divisão em frases, obtida automaticamente na maior parte dos casos.

De forma a poder comparar os vários corpos numa única tabela, convém notar que os elementos classificados como títulos, legendas, etc. não foram considerados frases para efeitos desta contagem. Por outro lado, os parágrafos (geralmente curtos) sem pontuação final são marcados como frases, do tipo fragmento.

Esta contabilização é atualizada sempre que há criação de novas versões.

Corpo Nº de frases Nº de parágrafos Nº de palavras (formas) Nº de palavras (tipos) Nº de unidades
AmostRA-NILC4.9644.90498.72017.151128.324
ANCIB83.50960.1171.257.22173.6711.707.799
Avante!212.183108.4366.762.307119.8928.189.915
Corpus Brasileiro6.799.26066.862145.619.5073.574.353175.675.329
CD HAREM12.5587.276225.76630.985290.001
CETEMPúblico8.128.6203.613.334191.277.678927.530240.425.222
CHAVE4.682.3632.247.19297.886.617696.809124.070.878
CONDIVport318.776148.8925.576.474150.1627.156.558
CoNE31.36119.313675.52041.034923.002
DiaCLAV210.37324.4396.550.966107.9657.721.767
ECI-EBR44.38112.117723.99560.208921.977
ECI-EE83934027.1384.09632.138
ENPCPUB (parte em português)4.3711.69072.37412.87493.099
Floresta327.05006.046.627179.5447.250.117
FrasesPB65364819.1626.00823.313
FrasesPP67659416.2365.08620.218
Moçambula2.34012059.40710.69970.148
Museu da Pessoa93.40822.8071.419.76242.9791.833.181
Natura/Minho69.09957.1491.748.68867.4602.208.376
ReLi12.5911260.41418.709310.189
NILC/São Carlos1.988.621827.36332.462.201399.80842.906.259
todos juntos12.955.3115.580.155281.639.3931.415.773356.595.251
Vercial950.980182.64914.710.560340.97820.595.099
Total23.978.9767.406.243513.497.340 --642.552.909


Frequência de formas e lemas por categoria gramatical nos corpos

Para obter as listas de frequências, clique na célula correspondente da tabela abaixo, que indica o número de tipos distintos. Tenha, contudo, em atenção as seguintes informações

CorpusFormas
NADJADVVNUMGRAMtodos
AmostRA64442721413597031144617193
ANCIB24261843998917184592672176635
Avante!31957184262098468675223915121458
CDHAREM102124228610888797962831180
CETEMPúblico2008558870868882210131104603000956928
CHAVE162262737585570176380863232688721921
ConDIVport418092414224455426360141272152217
ConE1479848545948722425162443816
DiaCLAV30540154401463396195604855110081
ECI-EBR196821012611682410977672160403
ECI-EE135886920713012302604256
ENPC (parte pública)43901936447507213242512895
Floresta527152452923605438467471551182608
FrasesPB25729582141775672986020
FrasesPP20458762101478782755099
Mocambula37231619387380918242910739
Museu da Pessoa1480860837421746661567043105
Natura/Minho2015510068107821748415371268968
NILC/São Carlos100332462493611105432586741801420447
Vercial91936429704025168443340110997347292
34299214504810186391295183611148631511960

CorpusLemas
NADJADVVNUMGRAMPROPtodostodos/pos
AmostRA50581891327188931714214011089311025
ANCIB17730473176138135946292375417014270813
Avante!201769056169155315945283481018995490783
CDHAREM71502709459214598319169302025820567
CETEMPúblico14840950939577427628118085697106829214129271419824
CHAVE1130513989842962119190424587690561954803960008
ConDIVport274121281419176979651735253631108788109622
ConE10104270243522084316225174663705437455
DiaCLAV18913763211444887599827163494101523102339
ECI-EBR136925782932407189721889993413134591
ECI-EE10265601844952319818627212780
ENPC (parte pública)35381371367144713714179476507795
Floresta3450812551201474766876641102666164718166731
FrasesPB21527441888336010521842044300
FrasesPP16926811846607110619735463591
Mocambula28951123301129118314384366926779
Museu da Pessoa103263544550306865922481432592426514
Natura/Minho12972545084937534395232304025745358053
NILC/São Carlos661912447228571462761341472301863468791471823
Vercial6441622219329519933374048399099210199213185
260892873508383523481950681010168052522721992285470


Contabilização detalhada por corpo

A maior parte dos corpos requereu tratamento específico e opções dedicadas, que serão mencionadas na descrição de cada caso. Como opções gerais, mais detalhadas na página de atomização, temos:

Os dados quantitativos que apresentamos para cada corpo dividem-se em quatro grupos: Nota: em relação aos dados quantitativos, a categoria "pontuação" inclui todos as unidades que contenham sinais de pontuação e que não tenham sido considerados como abreviaturas (incluindo portanto números do tipo "3.876.210", abreviaturas com mais de um ponto como "S.O.S." ou "E.U.A", assim como erros de codificação ainda não depurados, como "primeiro-ministro.").


Corpo AmostRA-NILC

O corpus AmostRA-NILC (Corpus Amostra Rachel Aires - NILC) foi criado no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC, para avaliar e comparar o desempenho de etiquetadores para o português brasileiro (Aires 2000).

Citando Aires 2000 (secção 4.1.1)

" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:

  1. textos simples, isto é, aqueles que seguem uma estrutura formal fixa, por exemplo a escrita técnica (didáticos);
  2. textos mais próximos da linguagem viva (jornalístico);
  3. textos com estrutura livre, isto é, com formas menos comuns como ordem inversa por exemplo, (literários).

(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.

(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)

Tabela 1 - Corpus de treinamento e teste
Tipo de CorpusTamanho do corpus
D Didático 16.255 palavras
J Jornalístico 56.653 palavras
L Literário 32.054 palavras

(fim de citação)

Corpus AmostRA-NILC duplamente anotado, versão texto de 7 de Agosto de 2003 com primeira anotação do NILC (Rachel Aires), anotado em 8 de Março de 2011 pelo PALAVRAS, criado a 27 de Junho de 2012, v. 4.1

Agradecemos a Rachel Aires a disponibilização do corpus.

Estrutura do corpo

Os atributos estruturais usados são p (parágrafo) e s (frase). É também usado o atributo posicional pos2 (anotação gramatical original do corpus).

Dados quantitativos

Corpo AMOSTRA Número de formasNúmero de tipos
Unidades 12832417184
Total de palavras 9872017151
Palavras em minúscula 7840813533
Palavras com inicial maiúscula83092413
Palavras todas em maiúsculas 42818
Números 915190
Palavras com números7146
Palavras mistas2818
Pontuação629533

Número de unidades estruturais

Atributo Número
s 4962
p 4902
mwe 1787

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 3376 4910
Locuções 1787 3762
Palavras gráficas 98720 98720
Palavras simples 90048 90048
Palavras 95211 98720

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 23242 25,81%
Verbos V.* 14161 15,73%
Adjectivos ADJ.* 6440 7,15%
Pronomes pessoais .*PERS.* 2285 2,54%
Preposições PRP.* 16627 18,46%
Conjunções K.* 4146 4,60%
Advérbios ADV.* 5050 5,61%
Determinantes .*DET.* 17554 19,49%
Especificadores .*SPEC.* 1388 1,54%
Numerais NUM.* 1810 2,01%

^Voltar ao início da página

Corpo ANCIB

O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista homónima da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (até Novembro de 2003) e para a lista abarreto-l, após essa data.

Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.

Corpus ANCIB, versão texto de Junho de 2009, anotado a 14 de Março de 2011, criado a 27 de Junho de 2012, v. 7.1

Agradecemos a Aldo Barreto a autorização gentilmente cedida para uso dos textos da lista.

Estrutura do corpo

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.

Dados quantitativos

Corpo ANCIB Número de formasNúmero de tipos
Unidades 170779976635
Total de palavras 125722173671
Palavras em minúscula 84067434803
Palavras com inicial maiúscula22673521846
Palavras todas em maiúsculas 191693505
Números 201271337
Palavras com números2715801
Palavras mistas2717628
Pontuação1160002950

Número de unidades estruturais

Atributo Número
p 60047
s 83189
mwe 14541
autor 3007
mens 3012
assunto 2978
li 0
titulo 0
cita 81

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 97197 202684
Locuções 14541 31058
Palavras gráficas 1257221 1257221
Palavras simples 1023479 1023479
Palavras 1135217 1257221

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 293380 28,66%
Verbos V.* 125785 12,29%
Adjectivos ADJ.* 72934 7,13%
Pronomes pessoais .*PERS.* 13845 1,35%
Preposições PRP.* 194505 19,00%
Conjunções K.* 59387 5,80%
Advérbios ADV.* 39981 3,91%
Determinantes .*DET.* 190701 18,63%
Especificadores .*SPEC.* 12427 1,21%
Numerais NUM.* 32681 3,19%

^Voltar ao início da página

Corpo Avante!

O corpus Avante! contém textos do semanário «Avante!», orgão oficial do Partido Comunista Português. O corpus contém cerca de 6 milhões de palavras, extraídas da versão na rede do jornal, correspondendo a um total de 8.515 artigos de 207 edições do dito jornal, de Abril de 1997 até Fevereiro de 2002.

Corpus Avante, versão de 6 de Março de 2006, anotado a 19 de Março de 2011, criado a 1 de Julho de 2012, versão 5.2

Estamos gratos à direcção do «Avante!», em especial ao seu director José Casanova, pela autorização gentilmente cedida para a elaboração deste corpus.

Estrutura do corpo

O corpus contém as etiquetas art (artigo), t (título), p (parágrafo), s (frase) e li (elemento de uma lista); os artigos não estão datados, sendo apenas indicado o número da edição, através da indicação <art ed= id=> .

Dados quantitativos

Corpo AVANTE Número de formasNúmero de tipos
Unidades 8189915121458
Total de palavras 6762307119892
Palavras em minúscula 530117467952
Palavras com inicial maiúscula70161629348
Palavras todas em maiúsculas 736542307
Números 602291646
Palavras com números803296
Palavras mistas2188725
Pontuação3480691564

Número de unidades estruturais

Atributo Número
art 8843
t 30224
a 2
p 108385
li 45066
s 211975
mwe 135939

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 298931 512502
Locuções 135939 288060
Palavras gráficas 6762307 6762307
Palavras simples 5961745 5961745
Palavras 6396615 6762307

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1511827 25,36%
Verbos V.* 810862 13,60%
Adjectivos ADJ.* 473025 7,93%
Pronomes pessoais .*PERS.* 95425 1,60%
Preposições PRP.* 1261308 21,16%
Conjunções K.* 340799 5,72%
Advérbios ADV.* 326580 5,48%
Determinantes .*DET.* 1315448 22,06%
Especificadores .*SPEC.* 110880 1,86%
Numerais NUM.* 108803 1,83%

^Voltar ao início da página

Corpo Corpus Brasileiro

O Corpus Brasileiro é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp. De momento ainda disponibilizamos apenas uma parte do Corpus Brasileiro.

Listas de frequências

As listas de frequência de palavras (unigramas) do corpus podem ser obtidas em:

Referências

Berber Sardinha, T. (2008). Léxico-gramática e corpus. II Ebralc - Escola Brasileira de Linguística Computacional, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2008). O Corpus Brasileiro. Comunicação apresentada em VII Encontro de Lingüística de Corpus, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T. (2009). Applied Linguistics and Technology. Ames, Iowa State University, USA, January 20, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus: A one- billion word online resource. Comunicação apresentada em 5th Corpus Linguistics Conference, Liverpool, UK, July 21-23, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus. Comunicação apresentada em AACL 2009 - American Association for Corpus Linguistics, Alberta, Canadá, October 8-11, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2010). O Corpus Brasileiro. Comunicação apresentada em 13o Congresso Brasileiro De Língua Portuguesa e 4o Congresso Internacional De Lusofonia, PUCSP, São Paulo, SP, 30 de abril de 2010.
Berber Sardinha, T. (2010). Corpus Linguistics and Metaphor. Conferência plenária apresentada em 2nd International Conference on Corpus Linguistics (CILC), A Coruña, Spain, May 13-15, 2010.
Berber Sardinha, T. (2010). A Linguística de Corpus na Prática. Santiago de Compostela, Espanha: Universidade de Santiago de Compostela, Espanha, 2010.
Berber Sardinha, T. (2010). Corpus Linguistics. Murcia, Espanha: Universidade de Murcia, Espanha, 2010.

Corpus Brasileiro anotado versão 1.1, versão processada e anotada pelo AC/DC de janeiro de 2013

Tony Berber Sardinha, a quem estamos gratos pela autorização para a disponibilização deste corpus, agradece à Fapesp o financiamento do projeto.

Estrutura do corpo

O corpo está apenas dividido em frases (s).

Além disso, o Corpus Brasileiro contém os seguintes valores do atributo classe, em que o prefixo e indica português escrito e f português falado:

ClasseGêneroFonte
eiAcadêmicoArtigos
ejAcadêmicoTeses e dissertações
eqAcadêmicoAnais de congresso
enCinema e TVRoteiros
ee/efEducaçãoDiversos
etEnciclopédiaWikipédia
faEsporteNarração de jogos de futebol
ekInformáticaManuais
edJornalismoRevistas
egJornalismoJornais
eoJornalismoHoróscopo
feJornalismoEntrevistas
em/exLegislaçãoDiversos
ebLiteraturaContos
ecLiteraturaCrônicas
eh/ewLiteraturaVariados
euLiteraturaBiografias
eaMedicinaBulas de remédio
epPolíticaAtas de assembléia legislativa
fbPolíticaDebates de TV
fcPolíticaPronunciamentos do presidente
fdPolíticaSessões do congresso
elReligiãoDiversos
evReligiãoBíblia
er/esTécnicoRelatórios e manuais diversos

Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.

Dados quantitativos

Corpo CBRAS Número de formasNúmero de tipos
Unidades 1756753294064467
Total de palavras 1456195073574353
Palavras em minúscula 106475768887818
Palavras com inicial maiúscula12495879757747
Palavras todas em maiúsculas 1515723244451
Números 374230896904
Palavras com números387656346683
Palavras mistas376384144191
Pontuação10241704489363

Número de unidades estruturais

Atributo Número
p 0
s 24572493
mwe 8109159

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 732853 22818
Locuções 8109159 17058518
Palavras gráficas 145619507 145619507
Palavras simples 128538171 128538171
Palavras 137380183 145619507

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 131572029 102,36%
Verbos V.* 59576909 46,35%
Adjectivos ADJ.* 34896686 27,15%
Pronomes pessoais .*PERS.* 7116175 5,54%
Preposições PRP.* 87957822 68,43%
Conjunções K.* 22340832 17,38%
Advérbios ADV.* 18586462 14,46%
Determinantes .*DET.* 81430373 63,35%
Especificadores .*SPEC.* 5871911 4,57%
Numerais NUM.* 26741468 20,80%

^Voltar ao início da página

Corpo CD HAREM

O corpo CDHAREM contém as colecções douradas usadas no HAREM (avaliação conjunta de sistemas de Reconhecimento de Entidades Mencionadas), tanto no Primeiro (criadas em 2005 e 2006) como no Segundo (criada em 2008). A forma como este corpo foi criado encontra-se pormenorizadamente descrita em Rocha & Santos (2007).

Corpus Colecção Dourada do HAREM, a partir das versões das CD do Primeiro HAREM de 2007, anotado em 3 de Maio de 2010, criado a 15 de Maio de 2010, versão 3.2

Estrutura do corpo

  • Atributos estruturais:
  • Atributos posicionais relacionados com a anotação das entidades:

    Dados quantitativos

    Corpo CDHAREM Número de formasNúmero de tipos
    Unidades 29000131214
    Total de palavras 22576630985
    Palavras em minúscula 16561719241
    Palavras com inicial maiúscula327377956
    Palavras todas em maiúsculas 14001046
    Números 2887564
    Palavras com números12383
    Palavras mistas14995
    Pontuação15197229

    Número de unidades estruturais

    Atributo Número
    DOC 386
    TEXTO 386
    LOCAL 3494
    ORGANIZACAO 2621
    VALOR 1153
    COISA 640
    ACONTECIMENTO 501
    OBRA 863
    PESSOA 4014
    TEMPO 1970
    ABSTRACCAO 1195
    VARIADO 54
    OUTRO 110
    p 7262
    s 12530
    ALT 533
    EM 15908
    mwe 3913

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 12178 22866
    Locuções 3913 8318
    Palavras gráficas 225766 225766
    Palavras simples 194582 194582
    Palavras 210673 225766

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 45363 23,31%
    Verbos V.* 30984 15,92%
    Adjectivos ADJ.* 12191 6,27%
    Pronomes pessoais .*PERS.* 5198 2,67%
    Preposições PRP.* 35007 17,99%
    Conjunções K.* 10098 5,19%
    Advérbios ADV.* 13231 6,80%
    Determinantes .*DET.* 38627 19,85%
    Especificadores .*SPEC.* 3841 1,97%
    Numerais NUM.* 4667 2,40%

    ^Voltar ao início da página

    Corpo CETEMPúblico

    O CETEMPúblico contém cerca de 190 milhões de palavras extraídas do diário PÚBLICO. Veja-se a página oficial do CETEMPúblico para mais informação.

    Corpus CETEMPúblico anotado: versão 1.7 do texto, criada a 18 de Setembro de 2001, anotada em Abril-Julho de 2011, versão na rede criada a 29 de Junho de 2012, v. 7.1

    Estamos gratos ao Público pela gentil disponibilização dos textos.
    Estamos especialmente gratos a José Vitor Malheiros, director da versão electrónica, sem o qual este corpo não existiria, e a Paulo Almeida pelo apoio técnico com os ficheiros electrónicos.

    Estrutura do corpo

    Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase], t [título ou subtítulo], a [identificação do autor], li [elemento de lista], marca.

    Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.

    semestretamanhocltclt-soccomdesecondopipolsoc
    91a743868765426918869608864215230102905212010109641270115
    91b142980451257934215680014424049510825770903021676092492433
    92a1537614025170775355710152891815327342105994039399183215928
    92b115489802228320439928013247851307012510736027160563022143
    93a152812873182036903110014990251691448601275034197843984609
    93b1219088822663545840050127798612736461084029025760303128838
    94a1541543430363998734910152435215885451478117033083933606137
    94b1489863227785498738380161442915858321735878029239143386192
    95a16679581277084110898060182384716227991935381030905874346320
    95b1571616522270519382000162166214307552070295032736994154503
    96a1197553716381960132981435401972402121290462849221436063931238
    96b116682311604184001553403799945124730762043419099103933048
    97a99413261368435017103132749067832592607662483116490993349967
    97b997515313616110245061124443565935794452456883118154363135898
    98a12955412146005903897671528837799921177215864587219845954374203
    98b899388410503120279008105651257221386160843030516522563091670
    Todos 31401627664232594423722689907179890262716239735187653958185654423242

    Dados quantitativos

    Corpo CETEMPUBLICO Número de formasNúmero de tipos
    Unidades 240425222956928
    Total de palavras 191277678927530
    Palavras em minúscula 144232762270880
    Palavras com inicial maiúscula24080112309280
    Palavras todas em maiúsculas 112953622120
    Números 184423010640
    Palavras com números26237816256
    Palavras mistas12128130037
    Pontuação1307585729316

    Número de unidades estruturais

    Atributo Número
    p 3613274
    s 8128017
    ext 1522699
    t 702953
    a 247658
    mwe 3730529
    marca 3839

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 10556258 18608805
    Locuções 3730529 7856223
    Palavras gráficas 191277678 191277678
    Palavras simples 164812650 164812650
    Palavras 179099437 191277678

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 39333827 23,87%
    Verbos V.* 24625681 14,94%
    Adjectivos ADJ.* 11656223 7,07%
    Pronomes pessoais .*PERS.* 2922656 1,77%
    Preposições PRP.* 33548352 20,36%
    Conjunções K.* 8098658 4,91%
    Advérbios ADV.* 10120834 6,14%
    Determinantes .*DET.* 34972187 21,22%
    Especificadores .*SPEC.* 3038078 1,84%
    Numerais NUM.* 4185363 2,54%

    ^Voltar ao início da página

    Corpo CHAVE

    O corpus CHAVE contém textos jornalísticos dos jornais Público e Folha de São Paulo dos anos de 1994 e 1995. Este corpus foi criado no âmbito da participação da língua portuguesa no CLEF. Pode obter o corpus completo em formato texto requerendo-o nesta página.

    Corpus CHAVE anotado, anotado sintacticamente de Outubro a Dezembro de 2008, anotado com cor e roupa em Abril-Maio de 2010, versão 4.2

    Agradecemos ao PÚBLICO e à Folha de São Paulo a gentil autorização de disponibilização dos textos.

    Estrutura do corpo

    Marcadores estruturais: DOC [documento], s [frase], CATEGORY (secção do jornal), AUTHOR (autor do texto), NE (lista de nomes próprios contidos no documento, usando a anotação do PALAVRAS).

    Dados quantitativos

    Corpo CHAVE Número de formasNúmero de tipos
    Unidades 123936528722150
    Total de palavras 99355321698030
    Palavras em minúscula 73737504230459
    Palavras com inicial maiúscula13001169233405
    Palavras todas em maiúsculas 65469616752
    Números 11108437585
    Palavras com números1076809903
    Palavras mistas15040715229
    Pontuação474012924004

    Número de unidades estruturais

    Atributo Número
    s 4738282
    t 577928
    p 2269421
    mwe 1790346
    data 210729
    DOC 210726
    CATEGORY 210729
    AUTHOR 2
    EM 210729

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 5504868 9550201
    Locuções 1790346 3782008
    Palavras gráficas 99477971 99477971
    Palavras simples 86145762 86145762
    Palavras 93440976 99477971

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 20993953 24,37%
    Verbos V.* 12920153 15,00%
    Adjectivos ADJ.* 6031253 7,00%
    Pronomes pessoais .*PERS.* 1502949 1,74%
    Preposições PRP.* 17043473 19,78%
    Conjunções K.* 4180282 4,85%
    Advérbios ADV.* 4975068 5,78%
    Determinantes .*DET.* 17735511 20,59%
    Especificadores .*SPEC.* 1484406 1,72%
    Numerais NUM.* 2297484 2,67%

    ^Voltar ao início da página

    Corpo CONDIVport

    O corpus CONDIVport é o subcorpus de textos dos domínios do futebol, do vestuário/moda e da saúde das décadas de 50, 70 e 2000 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

    Este subcorpus contém 3981 extractos de textos de jornais desportivos portugueses e brasileiros, das décadas de 1950, 1970 e 2000; 4372 textos (agrupados em 82 extractos, ou seja, provenientes de 82 edições) de revistas de moda portuguesas e brasileiras, das décadas de 1950, 1970, e 1990-2000, assim como 1815 textos de revistas e jornais de saúde nos mesmos períodos.

    Corpus CONDIV, versão texto (futebol) de 15 de Fevereiro de 2006, versão texto (moda) de 18 de Dezembro de 2008, versão texto (saúde) de 2 de Fevereiro de 2010, anotado em 30 de Junho de 2012, v. 9.1

    Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.

    Estrutura do corpo

    O corpo está dividido em extractos, assinalados pelo atributo ext; cada extracto está dividido em parágrafos (atributo p) e frases (atributo s). Nos casos da moda e da saúde, os extractos estão ainda subdivididos em textos, que correspondem a notícias completas. Além disso, o CONDIVport contém os atributos posicionais decada (valores: 50, 70, 2000), variante (valores: PT, BR), texto (valores:t1 a tN) e fonte. Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

    TamanhoFutebolModa/vestuárioSaúde
    PT333341116792903168531337268
    BR26493791367115801410480854
    Todos 304640511182731818122

    Dados quantitativos

    Corpo CONDIV Número de formasNúmero de tipos
    Unidades 7156558152217
    Total de palavras 5576474150162
    Palavras em minúscula 419525881380
    Palavras com inicial maiúscula65508238629
    Palavras todas em maiúsculas 136083380
    Números 729941741
    Palavras com números2500773
    Palavras mistas47681247
    Pontuação4064641979

    Número de unidades estruturais

    Atributo Número
    ext 4081
    texto 6223
    p 148171
    s 318359
    mwe 107110

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 240932 374585
    Locuções 107110 225912
    Palavras gráficas 5576474 5576474
    Palavras simples 4975977 4975977
    Palavras 5324019 5576474

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1218015 24,48%
    Verbos V.* 752556 15,12%
    Adjectivos ADJ.* 387623 7,79%
    Pronomes pessoais .*PERS.* 103589 2,08%
    Preposições PRP.* 877887 17,64%
    Conjunções K.* 266812 5,36%
    Advérbios ADV.* 312358 6,28%
    Determinantes .*DET.* 963520 19,36%
    Especificadores .*SPEC.* 78340 1,57%
    Numerais NUM.* 132225 2,66%

    ^Voltar ao início da página

    Corpo CoNE

    O corpus CoNE (Correio Não Endereçado) é um corpus de mensagens não-endereçadas em português.

    O corpus foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 24 de Janeiro de 2006.

    Versão do corpus de 15 de Janeiro de 2006, anotado a 19 de Março de 2011, e criado a 27 de Junho de 2012, versão 4.1

    Estrutura do corpo

    O corpus está dividido em mensagens, marcadas pelo atributo mens, com informação da data . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

    Dados quantitativos

    Corpo CONE Número de formasNúmero de tipos
    Unidades 92300243816
    Total de palavras 67552041034
    Palavras em minúscula 39423018492
    Palavras com inicial maiúscula15892413520
    Palavras todas em maiúsculas 119651999
    Números 15008867
    Palavras com números2871678
    Palavras mistas3408404
    Pontuação640412776

    Número de unidades estruturais

    Atributo Número
    p 19145
    s 31097
    mwe 8217
    autor 1939
    mens 1939
    assunto 1894
    div 0
    li 26523
    t 1285
    cita 0

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 58262 119849
    Locuções 8217 17382
    Palavras gráficas 675520 675520
    Palavras simples 538289 538289
    Palavras 604768 675520

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 158816 29,50%
    Verbos V.* 67774 12,59%
    Adjectivos ADJ.* 36669 6,81%
    Pronomes pessoais .*PERS.* 8971 1,67%
    Preposições PRP.* 93431 17,36%
    Conjunções K.* 31871 5,92%
    Advérbios ADV.* 23734 4,41%
    Determinantes .*DET.* 82091 15,25%
    Especificadores .*SPEC.* 5208 0,97%
    Numerais NUM.* 25878 4,81%

    ^Voltar ao início da página

    Corpo DiaCLAV

    O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line. Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contêm textos semelhantes, embora não haja casos de artigos exactamente iguais.

    Corpus DIACLAV, versão texto criada em Abril de 2002, anotado em Abril de 2011, criado a 27 de Junho de 2012, v. 4.1

    Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.

    Estrutura do corpo

    O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

    O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

    Dados quantitativos

    Corpo DIACLAV Número de formasNúmero de tipos
    Unidades 7721767110081
    Total de palavras 6550966107965
    Palavras em minúscula 491060058847
    Palavras com inicial maiúscula84705928965
    Palavras todas em maiúsculas 395122141
    Números 587041330
    Palavras com números64521047
    Palavras mistas2333807
    Pontuação3809882115

    Número de unidades estruturais

    Atributo Número
    p 24439
    s 210363
    art 12802
    t 12802
    a 5726
    mwe 128770

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 353661 689579
    Locuções 128770 269992
    Palavras gráficas 6550966 6550966
    Palavras simples 5591395 5591395
    Palavras 6073826 6550966

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1346252 24,08%
    Verbos V.* 865061 15,47%
    Adjectivos ADJ.* 353061 6,31%
    Pronomes pessoais .*PERS.* 85864 1,54%
    Preposições PRP.* 1144565 20,47%
    Conjunções K.* 284326 5,09%
    Advérbios ADV.* 337300 6,03%
    Determinantes .*DET.* 1179105 21,09%
    Especificadores .*SPEC.* 105583 1,89%
    Numerais NUM.* 127033 2,27%

    ^Voltar ao início da página

    Corpo ECI-EBR

    O corpo ECI-EBR foi criado pela ECI (European Corpus Initiative; Thomson et al. 1994) , baseado no corpo Borba-Ramsey. É uma selecção de excertos de obras brasileiras, contendo pelo menos discurso literário, didáctico e oral cuidado (discursos políticos). O corpo contém pouco mais de 700 mil palavras, e estava codificado em SGML muito leve (além do cabeçalho, apenas continha marcas de parágrafos), cf. a informação da ELSNET.

    Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.

    Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:

    Dentro do género jornalismo, incluímos as subdivisões: crónica, cultura, desporto, economia, entretenimento, generalidades, internacional, país, religião, reportagem, saúde, sociedade, título.

    Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.

    Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.

    Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).

    O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.

    Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:

    GéneroUnidadesTextos
    Literatura 368.024 151
    Informativo 201.425 285
    Jornalismo 88.070 536
    Oral 66.565 29
    Outros 16.061 33
    Indef 16.774 81
    AssuntosUnidadesTextos
    Agricultura 3458 8
    Arqueologia 1669 3
    Arte 4193 4
    Astrologia 1292 1
    Biologia 3660 3
    Botânica 6082 4
    Ciência 7375 9
    Clima 302 1
    Crónica 3716 11
    Culinária 1316 1
    Cultura 5698 44
    Desporto 8173 39
    Direito 1703 4
    Ecologia 326 2
    Economia 18360 60
    Edição 821 1
    Educação 1092 1
    Entretenimento 4988 31
    Escutismo 422 1
    Estatística 1237 1
    Filatelia 1109 1
    Filosofia 3382 3
    Física 627 1
    Fotografia 1056 2
    Generalidades 5476 45
    Geografia 3685 6
    Geologia 77 1
    Gestão 2300 3
    Hidrografia 1276 1
    História 35076 30
    Indef 482747 1
    Indústria 1375 3
    Internacional 8098 57
    Jornalismo 277 536
    Linguística 8066 12
    Literatura 8180 14
    Maternidade 344 1
    Medicina 16837 18
    Música 1689 3
    Oceanografia 302 1
    País 44537 206
    Política 19620 36
    Psicologia 2388 5
    Religião 20977 32
    Reportagem 1275 3
    Saúde 4460 18
    Sociedade 7286 58
    Sociologia 10347 15
    Título 173 12
    Turismo 188 1
    Zoologia 2985 15

    Corpus ECI-EBR, versão texto de Abril de 2002, anotado a 10 de Março de 2011, criado a 27 de Junho de 2012, v. 9.1

    Agradecemos aos compiladores do corpus por o terem criado e tornado público.

    Estrutura do corpo

    A partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).

    A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.

    Marcadores estruturais: s, p, ext e marca.

    Dados quantitativos

    Corpo ECI-EBR Número de formasNúmero de tipos
    Unidades 92197760403
    Total de palavras 72399560208
    Palavras em minúscula 56901142159
    Palavras com inicial maiúscula7342912233
    Palavras todas em maiúsculas 19246
    Números 1994459
    Palavras com números5340
    Palavras mistas177120
    Pontuação52933195

    Número de unidades estruturais

    Atributo Número
    ext 1107
    p 12116
    s 43543
    marca 3
    mwe 14919

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 19441 32991
    Locuções 14919 31826
    Palavras gráficas 723995 723995
    Palavras simples 659178 659178
    Palavras 693538 723995

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 149902 22,74%
    Verbos V.* 114484 17,37%
    Adjectivos ADJ.* 45310 6,87%
    Pronomes pessoais .*PERS.* 25063 3,80%
    Preposições PRP.* 108567 16,47%
    Conjunções K.* 35199 5,34%
    Advérbios ADV.* 46864 7,11%
    Determinantes .*DET.* 125972 19,11%
    Especificadores .*SPEC.* 13685 2,08%
    Numerais NUM.* 9136 1,39%

    ^Voltar ao início da página

    Corpo ECI-EE

    O corpus ECI-EE foi criado pela ECI (European Corpus Initiative, Thomson et al. 1994), e contém o anúncio do programa comunitário ESPRIT . O corpus usa uma codificação SGML leve, com parágrafos e secções/artigos numerados, o que produziu alguns problemas em relação à separação de notas de rodapé (apenas indicadas graficamente por linhas iniciadas por tabuladores, e que tiveram de ser reconstituídas e colocadas após o parágrafo respectivo).

    Pode também consultar a informação da ELSNET.

    Corpus ECI-EE, versão de Abril de 2002, anotado em 8 de Março de 2011, criado a 27 de Junho de 2012, v. 6.1

    Agradecemos aos compiladores do corpus por o terem criado e tornado publico.

    Estrutura do corpo

    Marcadores estruturais: s, p, titulo, nota, marca.

    Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
    <marca num=3> <nota num=3>

    Dados quantitativos

    Corpo ECI-EE Número de formasNúmero de tipos
    Unidades 321384256
    Total de palavras 271384096
    Palavras em minúscula 217443332
    Palavras com inicial maiúscula1786391
    Palavras todas em maiúsculas 19541
    Números 463104
    Palavras com números22
    Palavras mistas1125
    Pontuação1229157

    Número de unidades estruturais

    Atributo Número
    p 340
    s 839
    t 0
    nota 27
    marca 27
    mwe 607

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 641 1008
    Locuções 607 1318
    Palavras gráficas 27138 27138
    Palavras simples 24812 24812
    Palavras 26060 27138

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 6929 27,93%
    Verbos V.* 2920 11,77%
    Adjectivos ADJ.* 2423 9,77%
    Pronomes pessoais .*PERS.* 414 1,67%
    Preposições PRP.* 5285 21,30%
    Conjunções K.* 1327 5,35%
    Advérbios ADV.* 960 3,87%
    Determinantes .*DET.* 4970 20,03%
    Especificadores .*SPEC.* 286 1,15%
    Numerais NUM.* 706 2,85%

    ^Voltar ao início da página

    Corpo ENPCPUB (parte em português)

    O corpus ENPCPUB é um corpus de traduções para português de textos literários em inglês (Johansson et al., 1996, 1999; Oksefjell 1999). Apenas recebemos autorização para dar acesso a uma pequena parte do corpus ENPC, nomeadamente extractos dos textos (identificação do ENPC):
    CódigoAutorObraEditoraAnoTradutor(a)Título original
    JB1PPJulian BarnesAmor & C.aQuetzal Editores, Lisboa1994Helena CardosoTalking It Over.
    BC1Bruce ChatwinUtzQuetzal Editores, Lisboa1991José Luís LunaUtz.
    AH1Arthur HaileyRemédio AmargoDistribuidora Record, Rio de Janeiros/dA.B.P. de Lemos. Strong Medicine.
    JH1Joseph HellerImaginem queDifusão Cultural, Lisboa1991Cristina Rodriguez. Picture This.
    NG1Nadine GordimerA história do meu filhoEditora Siciliano, São Paulo1992Geraldo Galvão FerrazMy Son's Story.

    O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).

    Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).
    Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".

    Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado a 6 de Março de 2011, criado a 27 de Junho de 2012, v. 7.1

    Estamos gratos a Stig Johansson e à equipa do ENPC pela colaboração na criação deste corpus, e aos detentores dos direitos de autor pela autorizações gentilmente cedidas.

    Estrutura do corpo

    Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.
    Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".
    O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).

    Dados quantitativos

    Corpo ENPCPUB Número de formasNúmero de tipos
    Unidades 9309912895
    Total de palavras 7237412874
    Palavras em minúscula 5762110250
    Palavras com inicial maiúscula70771689
    Palavras todas em maiúsculas 4119
    Números 13778
    Palavras com números11
    Palavras mistas1613
    Pontuação536321

    Número de unidades estruturais

    Atributo Número
    p 1682
    s 4369
    texto 5
    parte 8
    capitulo 25
    mwe 1609

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 2548 3305
    Locuções 1609 3486
    Palavras gráficas 72374 72374
    Palavras simples 65583 65583
    Palavras 69740 72374

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 13273 20,24%
    Verbos V.* 12774 19,48%
    Adjectivos ADJ.* 3853 5,87%
    Pronomes pessoais .*PERS.* 3101 4,73%
    Preposições PRP.* 10737 16,37%
    Conjunções K.* 3963 6,04%
    Advérbios ADV.* 5434 8,29%
    Determinantes .*DET.* 12183 18,58%
    Especificadores .*SPEC.* 1562 2,38%
    Numerais NUM.* 775 1,18%

    ^Voltar ao início da página

    Corpo Floresta

    O corpo FLORESTA contém o material anotado criado no âmbito do projecto Floresta Sintá(c)tica , em particular o Bosque, a Floresta Virgem e a Amazónia. Informação detalhada sobre o conteúdo textual encontra-se aqui

    Corpus Floresta, a partir do material da Floresta de Junho de 2010, anotado semanticamente 27 de Junho de 2012, versão 2.0

    Estrutura do corpo

  • Atributos estruturais:
  • Atributos posicionais:

    Dados quantitativos

    Corpo FLORESTA Número de formasNúmero de tipos
    Unidades 7250117182608
    Total de palavras 6046627179544
    Palavras em minúscula 452999888948
    Palavras com inicial maiúscula73832058238
    Palavras todas em maiúsculas 279803961
    Números 504081606
    Palavras com números3760935
    Palavras mistas58142248
    Pontuação3213103063

    Número de unidades estruturais

    Atributo Número
    ext 24398
    s 326667
    mwe 101963

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 284084 503491
    Locuções 101963 214307
    Palavras gráficas 6046627 6046627
    Palavras simples 5328829 5328829
    Palavras 5714876 6046627

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1238665 23,24%
    Verbos V.* 847022 15,90%
    Adjectivos ADJ.* 350624 6,58%
    Pronomes pessoais .*PERS.* 117330 2,20%
    Preposições PRP.* 960967 18,03%
    Conjunções K.* 272889 5,12%
    Advérbios ADV.* 325271 6,10%
    Determinantes .*DET.* 1037407 19,47%
    Especificadores .*SPEC.* 106992 2,01%
    Numerais NUM.* 99128 1,86%

    ^Voltar ao início da página

    Corpo FrasesPB

    O corpus FrasesPB é um conjunto de frases em português brasileiro.

    O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).

    Corpus FrasesPB, versão texto de 17 de Abril de 2002, anotado a 6 de Março de 2011, criado a 27 de Junho de 2012, v. 5.1

    Estrutura do corpo

    Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo. Em dois casos, contudo, o algoritmo separador de frases ainda conseguiu detectar unidades mais pequenas, dando origem pois a dois parágrafos com duas frases cada.

    Marcadores estruturais: s, p.

    Dados quantitativos

    Corpo FRASESPB Número de formasNúmero de tipos
    Unidades 233396020
    Total de palavras 191626008
    Palavras em minúscula 164225265
    Palavras com inicial maiúscula1051526
    Palavras todas em maiúsculas 1414
    Números 4935
    Palavras com números
    Palavras mistas55
    Pontuação73112

    Número de unidades estruturais

    Atributo Número
    p 648
    s 653
    mwe 422

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 251 410
    Locuções 422 904
    Palavras gráficas 19162 19162
    Palavras simples 17848 17848
    Palavras 18521 19162

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 4622 25,90%
    Verbos V.* 2893 16,21%
    Adjectivos ADJ.* 1429 8,01%
    Pronomes pessoais .*PERS.* 358 2,01%
    Preposições PRP.* 3269 18,32%
    Conjunções K.* 1015 5,69%
    Advérbios ADV.* 1051 5,89%
    Determinantes .*DET.* 3639 20,39%
    Especificadores .*SPEC.* 347 1,94%
    Numerais NUM.* 166 0,93%

    ^Voltar ao início da página

    Corpo FrasesPP

    O corpus FrasesPP é um conjunto de frases em português de Portugal, compilado para o teste de uma gramática computacional, desenvolvido no Grupo Científico IBM-INESC (depois Grupo de Linguagem Natural do INESC) de 1990 a 1992. (Santos (ed.) 1992; Medeiros et al. 1993). Encontrava-se em texto simples e em formato LaTeX.

    Corpo FrasesPP, anotado a 8 de Março de 2011, criado a 27 de Junho de 2012, versão 7.1

    Estrutura do corpo

    Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo.

    Marcadores estruturais: s, p.

    Os valores da anotação original encontram-se no atributo posicional pos2. Os valores deste atributo (A, N, V, VPP, PF, PONT e CL) foram atribuídos automaticamente e depois revistos manualmente nos casos em que as palavras obtiveram mais do que uma categoria.

    Dados quantitativos

    Corpo FRASESPP Número de formasNúmero de tipos
    Unidades 202185099
    Total de palavras 162365086
    Palavras em minúscula 135024243
    Palavras com inicial maiúscula1088569
    Palavras todas em maiúsculas 96
    Números 9750
    Palavras com números22
    Palavras mistas
    Pontuação74013

    Número de unidades estruturais

    Atributo Número
    p 594
    s 675
    mwe 351

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 264 431
    Locuções 351 759
    Palavras gráficas 16236 16236
    Palavras simples 15046 15046
    Palavras 15661 16236

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 3698 24,58%
    Verbos V.* 2285 15,19%
    Adjectivos ADJ.* 1289 8,57%
    Pronomes pessoais .*PERS.* 408 2,71%
    Preposições PRP.* 2784 18,50%
    Conjunções K.* 823 5,47%
    Advérbios ADV.* 981 6,52%
    Determinantes .*DET.* 3115 20,70%
    Especificadores .*SPEC.* 313 2,08%
    Numerais NUM.* 205 1,36%

    ^Voltar ao início da página

    Corpo Moçambula

    O corpus MOCAMBULA foi criado no âmbito da tese de mestrado de Torun Reite na Universidade de Oslo, e contém cartas de leitores publicadas em 2012 em vários jornais moçambicanos.

    Os jornais incluídos são: A verdade, Notícias, ...

    Corpo MOÇAMBULA, versão texto de Novembro de 2012, anotado 28 de Março de 2013 com moçambicanismos, v. 2.0

    Estrutura do corpo

    Os textos foram transcritos manualmente ou obtidos através do sítio do jornal.

    O corpus está dividido em mensagens/textos separados, marcadas pelo atributo texto, com informação do identificador do mesmo.

    Dados quantitativos

    Corpo MOCAMBULA Número de formasNúmero de tipos
    Unidades 7014810739
    Total de palavras 5940710699
    Palavras em minúscula 484998453
    Palavras com inicial maiúscula47311469
    Palavras todas em maiúsculas 15685
    Números 420110
    Palavras com números1513
    Palavras mistas7532
    Pontuação313440

    Número de unidades estruturais

    Atributo Número
    p 120
    s 2264
    texto 96
    mwe 1246

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 1528 2740
    Locuções 1246 2689
    Palavras gráficas 59407 59407
    Palavras simples 53978 53978
    Palavras 56752 59407

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 12801 23,72%
    Verbos V.* 9202 17,05%
    Adjectivos ADJ.* 3411 6,32%
    Pronomes pessoais .*PERS.* 1450 2,69%
    Preposições PRP.* 9643 17,86%
    Conjunções K.* 3362 6,23%
    Advérbios ADV.* 3698 6,85%
    Determinantes .*DET.* 10856 20,11%
    Especificadores .*SPEC.* 1294 2,40%
    Numerais NUM.* 781 1,45%

    ^Voltar ao início da página

    Corpo Museu da Pessoa

    O corpus Museu da Pessoa é um corpus de cento e sete entrevistas transcritas pelo Núcleo Português do Museu da Pessoa no âmbito dos seus projectos, mais cento e seis entrevistas transcritas pelo Museu da Pessoa brasileiro.

    Corpus Museu da Pessoa, versão do texto português de Abril de 2005, versão do texto brasileiro de fevereiro de 2013, anotado a 28 de março de 2013, versão 5.0

    Agradecemos ao Núcleo Português do Museu da Pessoa a disponibilização dos textos.

    Estrutura do corpo

    Marcadores estruturais: entrevista [entrevista completa], p [parágrafo], s [frase], resposta, pergunta, legenda [legenda de uma fotografia], introd [texto de introdução antes da entrevista]

    Dados quantitativos

    Corpo MUSEUDAPESSOA Número de formasNúmero de tipos
    Unidades 183318143105
    Total de palavras 141976242979
    Palavras em minúscula 111467730476
    Palavras com inicial maiúscula1441708409
    Palavras todas em maiúsculas 4561350
    Números 9035358
    Palavras com números15184
    Palavras mistas285160
    Pontuação106452126

    Número de unidades estruturais

    Atributo Número
    mwe 25656
    p 11790
    s 93395
    entrevista 215
    pergunta 11016
    resposta 11351
    legenda 43
    introd 3

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 7190 57582
    Locuções 25656 54279
    Palavras gráficas 1419762 1419762
    Palavras simples 1307901 1307901
    Palavras 1340747 1419762

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 237189 18,14%
    Verbos V.* 263827 20,17%
    Adjectivos ADJ.* 50869 3,89%
    Pronomes pessoais .*PERS.* 75960 5,81%
    Preposições PRP.* 166894 12,76%
    Conjunções K.* 82412 6,30%
    Advérbios ADV.* 135403 10,35%
    Determinantes .*DET.* 224209 17,14%
    Especificadores .*SPEC.* 37888 2,90%
    Numerais NUM.* 18748 1,43%

    ^Voltar ao início da página

    Corpo Natura/Minho

    O corpus Natura/Minho é um corpus jornalístico contendo texto do jornal regional português Diário do Minho, criado no âmbito do projecto Natura. O corpus (correspondente à versão 3 diariodoMinho.3.cor) contém notícias completas, separadas em edições e marcadas pela data. No texto encontravam-se assinalados, numa codificação de tipo XML, títulos, assinaturas e legendas, além de conter marcação (markup) de parágrafos e de formatação, esta última retirada do corpus final.

    Segundo o projecto Natura, o corpus original é assim descrito:
    Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de provas).

    Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.

    Corpus Natura/Minho (de 9 de Março de 2001), versão texto criada em Abril de 2002, anotado em 14 de Maio de 2011, criado a 7 de Julho de 2011, v. 7.1

    Estamos gratos à direcção do Diário do Minho pela gentil autorização de disponibilização dos tex

    Estrutura do corpo

    A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. A partir da versão 3.0, introduzimos a anotação li para assinalar listas.

    Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.

    Dados quantitativos

    Corpo NATMINHO Número de formasNúmero de tipos
    Unidades 215670768966
    Total de palavras 174869867460
    Palavras em minúscula 128481138992
    Palavras com inicial maiúscula25383517613
    Palavras todas em maiúsculas 125511328
    Números 221851268
    Palavras com números2747354
    Palavras mistas1439442
    Pontuação679661505

    Número de unidades estruturais

    Atributo Número
    p 57123
    s 69036
    assinatura 539
    legenda 782
    t 7661
    art 5117
    marca 0
    mwe 30422

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 104234 220144
    Locuções 30422 63832
    Palavras gráficas 1748703 1748703
    Palavras simples 1464727 1464727
    Palavras 1599383 1748703

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 374158 25,54%
    Verbos V.* 207519 14,17%
    Adjectivos ADJ.* 100303 6,85%
    Pronomes pessoais .*PERS.* 19892 1,36%
    Preposições PRP.* 313445 21,40%
    Conjunções K.* 73461 5,02%
    Advérbios ADV.* 72008 4,92%
    Determinantes .*DET.* 315085 21,51%
    Especificadores .*SPEC.* 22878 1,56%
    Numerais NUM.* 42092 2,87%

    ^Voltar ao início da página

    Corpo ReLi

    O corpus ReLi é um corpo de 1601 resenhas de treze livros (de sete autores diferentes), compiladas de um sítio brasileiro de resenhas de livros, pela PUC-Rio, e acessível daqui. Essas resenhas foram anotadas em relação à opinião, ao objeto da opinião, e à sua polaridade, veja-se Freitas et al. (2012).

    O corpus ReLi é composto de 7 arquivos, com as resenhas das obras de cada autor.Foram manualmente marcados as seguintes informações:

    object - indica segmento alvo de opinião. É designado por OBJXX, onde XX é o identificador do objeto no escopo da resenha, sendo 00 o objeto implícito livro

    opinion - indica segmento que expressa opinião sobre um OBJXX. Tem a forma opXXS, onde S={-,+} para indicar a polaridade da opinião e XX é o ponteiro para o objeto

    polarity - indica frase com opinião. Pode assumir os valores + e -.

    Como citar o corpus ReLi: Freitas, C.; Motta, E.; Milidiú, R.; Cesar, J. Vampiro que brilha... rá! Desafios na anotação de opinião em um corpus de resenhas de livros. In: XI Encontro de Linguística de Corpus (ELC 2012), São Paulo, Brasil, 2012.

    Corpus ReLi, versão do texto de Maio de 2013, anotado a 17 de Maio de 2013, criado a 17 de Maio de 2013, versão 1.0

    Agradecemos a Cláudia Freitas, Eduardo Motta, Ruy Milidiú e Juliana Cesar a autorização para incluir no AC/DC.

    Estrutura do corpo

    Marcadores posicionais: objeto, opiniao, polaridade Marcadores estruturais: livro [nome do livro resenhado], resenha, p [parágrafo], s [frase].

    Dados quantitativos

    Corpo RELI Número de formasNúmero de tipos
    Unidades 31018918872
    Total de palavras 26041418709
    Palavras em minúscula 17790712255
    Palavras com inicial maiúscula189002395
    Palavras todas em maiúsculas 189100
    Números 874143
    Palavras com números1414
    Palavras mistas149291624
    Pontuação13563125

    Número de unidades estruturais

    Atributo Número
    mwe 3923
    p 0
    s 12508
    livro 13
    resenha 1599

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 6980 10268
    Locuções 3923 8600
    Palavras gráficas 260415 260415
    Palavras simples 241547 241547
    Palavras 252450 260415

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 44038 18,23%
    Verbos V.* 39026 16,16%
    Adjectivos ADJ.* 14848 6,15%
    Pronomes pessoais .*PERS.* 7898 3,27%
    Preposições PRP.* 32060 13,27%
    Conjunções K.* 12919 5,35%
    Advérbios ADV.* 16469 6,82%
    Determinantes .*DET.* 40078 16,59%
    Especificadores .*SPEC.* 6454 2,67%
    Numerais NUM.* 2471 1,02%

    ^Voltar ao início da página

    Corpo NILC/São Carlos

    O corpus NILC/São Carlos do Núcleo Interinstitucional de Lingüística Computacional, sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo em São Carlos, contém textos brasileiros do registo jornalístico, didáctico, epistolar e redacções de alunos (Nunes et al., 1996a, 1996b). Para um descrição mais abrangente, veja-se a página de descrição do corpus NILC e sua descendência.

    Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.

    Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; anotado em 27 de Junho de 2012, versão 10.1

    Estamos gratos à Folha de São Paulo pela autorização gentilmente concedida para uso dos seus textos.
    Estamos gratos ao Núcleo Interinstitucional de Lingüística Computacional, em especial a Graça Nunes, por nos ter disponibilizado o texto do corpus em formato electrónico, autorizado a sua disponibilização através do projecto AC/DC e negociado com a Folha de São Paulo a autorização anteriormente mencionada.

    Estrutura do corpo

    Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura,
    Para os textos da folha de São Paulo, a (autor), artigo, caixa, situacao, li (elemento de lista).

    As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.

    Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.

    A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.

    O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 10.1, é a seguinte:

    TipoDescriçãoTamanho
    DI texto didáctico 426.765
    ENC enciclopédia 286.558
    ENS ensaio 2.193.635
    EP texto epistolar 3.350
    JO.* jornalístico 29.821.708
    JOCF jornalístico só CETENFolha 27.742.574
    JO jornalístico sem CETENFolha 2.079.134
    LE texto legal 1.111.859
    LI literário 921.365
    RE revista 153.786

    O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.

    A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .

    A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):

    Dados quantitativos

    Corpo SAOCARLOS Número de formasNúmero de tipos
    Unidades 42906259420447
    Total de palavras 32462201399808
    Palavras em minúscula 22979950157039
    Palavras com inicial maiúscula4794306129635
    Palavras todas em maiúsculas 30708310460
    Números 5475923384
    Palavras com números445734818
    Palavras mistas904545320
    Pontuação245682520564

    Número de unidades estruturais

    Atributo Número
    mwe 498428
    p 825922
    s 1977211
    texto 349622
    subtitulo 3767
    assinatura 13
    artigo 0
    caixa 20722
    situacao 5031
    t 161179
    a 80375
    li 62279

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 324058 3540949
    Locuções 498428 1054077
    Palavras gráficas 32462201 32462201
    Palavras simples 27867175 27867175
    Palavras 28689661 32462201

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 7113748 25,53%
    Verbos V.* 4298528 15,43%
    Adjectivos ADJ.* 1842597 6,61%
    Pronomes pessoais .*PERS.* 469797 1,69%
    Preposições PRP.* 5298628 19,01%
    Conjunções K.* 1264416 4,54%
    Advérbios ADV.* 1455573 5,22%
    Determinantes .*DET.* 5520746 19,81%
    Especificadores .*SPEC.* 409265 1,47%
    Numerais NUM.* 949838 3,41%

    ^Voltar ao início da página

    Corpo todos juntos

    O corpo TODOS foi criado pela Linguateca de forma a permitir que todos os corpos da Linguateca pudessem ser interrogadas duma só vez, evitando ao mesmo tempo que sobreposições de material produzissem repetição escusada e enganadora de concordâncias ou frequências. É portanto especialmente apropriado para investigações relacionadas com género textual ou com anotação semântica. Porque é automaticamente produzido a partir de todos os outros corpos do AC/DC, contém apenas os atributos estruturais e posicionais que pertençam à interseção de todos os corpos, além dos atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas de corpos individuais.

    O corpo contém cerca de 300 milhões de palavras, distribuídas entre vários géneros e temas, correspondendo ao conteúdo de todos os corpos presentes no AC/DC.

    No caso da sobreposição entre o corpo NILC/São Carlos e o CHAVE, e do corpo CETEMPúblico e o CHAVE, foi escolhido o material do CHAVE.

    Corpo TODOS, criado a 3 de Julho de 2012, v. 2.0

    Agradecemos aos compiladores de todos os corpos incluídos por os terem criado e (deixado) tornar públicos.

    Estrutura do corpo

    Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

    Dados quantitativos

    Corpo TODOS Número de formasNúmero de tipos
    Unidades 3570236971481341
    Total de palavras 2820423911419610
    Palavras em minúscula 210683301441992
    Palavras com inicial maiúscula35864892441289
    Palavras todas em maiúsculas 170268136495
    Números 287619913751
    Palavras com números33363522013
    Palavras mistas29693546763
    Pontuação1923049661432

    Número de unidades estruturais

    Atributo Número
    TEXTO 0
    CATEGORY 208390
    art 26762
    assinatura 552
    assunto 4872
    autor 50523
    caixa 315
    capitulo 678
    cita 81
    div 1753
    entrevista 115
    ext 1094477
    fala 23769
    introd 3
    legenda 825
    li 136428
    marca 10629
    mens 4951
    mwe 5252162
    nota 276
    obra 309
    p 5539053
    parte 8
    pergunta 5067
    personagem 24721
    resposta 5340
    s 12949682
    situacao 561
    subtitulo 3767
    t 1135786
    texto 7202
    titulo 686
    tituloobra 309
    u 751742
    v 251377
    a 179628
    data 208390
    indic 2049

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 18322701 26522578
    Locuções 5252162 11075737
    Palavras gráficas 282042391 282042391
    Palavras simples 244444076 244444076
    Palavras 268018939 282042391

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 58733442 24,03%
    Verbos V.* 36829885 15,07%
    Adjectivos ADJ.* 17147949 7,02%
    Pronomes pessoais .*PERS.* 4769982 1,95%
    Preposições PRP.* 48175949 19,71%
    Conjunções K.* 12191176 4,99%
    Advérbios ADV.* 14662541 6,00%
    Determinantes .*DET.* 50739365 20,76%
    Especificadores .*SPEC.* 4426809 1,81%
    Numerais NUM.* 6119656 2,50%

    ^Voltar ao início da página

    Corpo Vercial

    O corpo Vercial contém 309 obras literárias de 55 autores portugueses, digitalizadas pelo projecto Vercial, cujas datas de publicação variam desde 1500 (Carta a El-rei Dom Manuel Sobre o Achamento do Brasil, de Pero Vaz de Caminha) a 1933 (Memórias III, de Raul Brandão).

    Corpus Vercial, criado a 21 de Dezembro de 2011, anotado em 27 de Junho de 2012, v. 5.1

    Agradecemos à equipa do projecto Vercial, especialmente a José Leon Machado, que gentilmente nos cederam os textos para este corpus.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra).

    As 187 obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

    As 80 obras de poesia têm os seguintes marcadores estruturais adicionais: div [parte de um poema, assinalada graficamente por números romanos] e v [verso].

    As 43 obras de teatro têm os seguintes marcadores estruturais adicionais: fala [juntando a fala de uma personagem] e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (que pode ser Poesia, Prosa ou Teatro), e data (que quando é desconhecida tem o valor "desc").

    As obras presentes e respectivos autores são as seguintes:

    Dados quantitativos

    Corpo VERCIAL Número de formasNúmero de tipos
    Unidades 20595099347292
    Total de palavras 14710560340978
    Palavras em minúscula 11073481180882
    Palavras com inicial maiúscula166082475533
    Palavras todas em maiúsculas 243511642
    Números 543852048
    Palavras com números373322
    Palavras mistas293657452
    Pontuação10263312859

    Número de unidades estruturais

    Atributo Número
    p 157225
    s 948751
    v 251377
    obra 309
    capitulo 653
    titulo 0
    u 759806
    fala 23769
    autor 309
    tituloobra 309
    div 1753
    mwe 231770

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 510817 772412
    Locuções 231770 490231
    Palavras gráficas 14710560 14710560
    Palavras simples 13447917 13447917
    Palavras 14190504 14710560

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 2897531 21,55%
    Verbos V.* 2279522 16,95%
    Adjectivos ADJ.* 897838 6,68%
    Pronomes pessoais .*PERS.* 671823 5,00%
    Preposições PRP.* 2050559 15,25%
    Conjunções K.* 807632 6,01%
    Advérbios ADV.* 892486 6,64%
    Determinantes .*DET.* 2552776 18,98%
    Especificadores .*SPEC.* 304848 2,27%
    Numerais NUM.* 148354 1,10%

    ^Voltar ao início da página

    [ Acesso | Anotação | Atomização | Exemplos | Agradecimentos ]


    Última actualização: 15 de Abril de 2013
    Perguntas, comentários e sugestões