Acesso a corpos de português: Projecto AC/DC: corpo FrasesPB

FrasesPB : AC/DC : Linguateca
O corpus FrasesPB é um conjunto de frases em português brasileiro.

O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).

Estrutura do corpo

Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo. Em dois casos, contudo, o algoritmo separador de frases ainda conseguiu detectar unidades mais pequenas, dando origem pois a dois parágrafos com duas frases cada.

Marcadores estruturais: s, p.

Versão do corpo

Corpus FrasesPB, versão texto de 17 de Abril de 2002, anotado a 21 de novembro de 2018, v. 7.2

Excerto do corpo


<p par=31>
<s> Eis que, próximo, na cancha, arma-se uma peleia, coisa comum, aliás, em dia de carreira, entrando em cena facões, adagas, cabo de relho, argolas
de rabo
de tatu e outras armas campeiras . </s>
</p>
<p par=74>
<s> Queria viajar, conhecer outras cidades e as histórias que envolviam golfinhos ou sereias . </s>
</p>

Dados quantitativos

Corpo FRASESPB Número de formasNúmero de tipos
Unidades 231786024
Total de palavras 191416012
Palavras em minúscula 164125270
Palavras com inicial maiúscula1037524
Palavras todas em maiúsculas 1515
Números 4935
Palavras com números
Palavras mistas66
Pontuação73112

Número de unidades estruturais

Atributo Número
p 648
s 652
mwe 353

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 260
Locuções 353 747
Palavras gráficas 19141 19141
Palavras simples 18394 18394
Palavras 19007 19141

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 4600 25,01%
Verbos V.* 2881 15,66%
Adjectivos ADJ.* 1424 7,74%
Pronomes pessoais .*PERS.* 359 1,95%
Preposições PRP.* 3352 18,22%
Conjunções K.* 993 5,40%
Advérbios ADV.* 984 5,35%
Determinantes .*DET.* 3617 19,66%
Especificadores .*SPEC.* 389 2,11%
Numerais NUM.* 164 0,89%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 21 de Novembro de 2018
Perguntas, comentários e sugestões