Acesso a corpos de português: Projecto AC/DC: corpo FrasesPB

FrasesPB : AC/DC : Linguateca
O corpus FrasesPB é um conjunto de frases em português brasileiro.

O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).

Estrutura do corpo

Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo. Em dois casos, contudo, o algoritmo separador de frases ainda conseguiu detectar unidades mais pequenas, dando origem pois a dois parágrafos com duas frases cada.

Marcadores estruturais: s, p.

Versão do corpo

Corpus FrasesPB, versão texto de 17 de Abril de 2002, anotado a 4 de julho de 2024, v. 9.1

Excerto do corpo


<p par=31>
<s> Eis que, próximo, na cancha, arma-se uma peleia, coisa comum, aliás, em dia de carreira, entrando em cena facões, adagas, cabo de relho, argolas
de rabo
de tatu e outras armas campeiras . </s>
</p>
<p par=74>
<s> Queria viajar, conhecer outras cidades e as histórias que envolviam golfinhos ou sereias . </s>
</p>

Dados quantitativos

Corpo FRASESPB Número de formasNúmero de tipos
Unidades 232596019
Total de palavras 191856007
Palavras em minúscula 164215263
Palavras com inicial maiúscula1046525
Palavras todas em maiúsculas 1515
Números 4935
Palavras com números
Palavras mistas55
Pontuação73012

Número de unidades estruturais

Atributo Número
p 648
s 652
mwe 371

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 249 408
Locuções 371 800
Palavras gráficas 19185 19185
Palavras simples 17977 17977
Palavras 18597 19185

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 4613 25,66%
Verbos V.* 2904 16,15%
Adjectivos ADJ.* 1420 7,90%
Pronomes pessoais .*PERS.* 358 1,99%
Preposições PRP.* 3378 18,79%
Conjunções K.* 979 5,45%
Advérbios ADV.* 974 5,42%
Determinantes .*DET.* 3620 20,14%
Especificadores .*SPEC.* 404 2,25%
Numerais NUM.* 161 0,90%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões