Acesso a corpos de português: Projecto AC/DC: corpo FrasesPP

FrasesPP : AC/DC : Linguateca
O corpus FrasesPP é um conjunto de frases em português de Portugal, compilado para o teste de uma gramática computacional, desenvolvido no Grupo Científico IBM-INESC (depois Grupo de Linguagem Natural do INESC) de 1990 a 1992. (Santos (ed.) 1992; Medeiros et al. 1993). Encontrava-se em texto simples e em formato LaTeX.

Estrutura do corpo

Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo.

Marcadores estruturais: s, p.

Os valores da anotação original encontram-se no atributo posicional pos2. Os valores deste atributo (A, N, V, VPP, PF, PONT e CL) foram atribuídos automaticamente e depois revistos manualmente nos casos em que as palavras obtiveram mais do que uma categoria.

Versão do corpo

Corpo FrasesPP, anotado a 8 de Março de 2011, criado a 22 de Junho de 2013, v. 7.6

Excerto do corpo


<p par=1>
<s>
O estudo dos sons elementares da língua e das suas combinações para form as palavras chama-se , em gramática , fonética ou fonologia .
</s>
</p>
<p par=2>
<s>
Os nomes que servem para designar particularmente uma determinada pessoa , coisa ou animal , chamam-se substantivos próprios .
</s>
</p>

Dados quantitativos

Corpo FRASESPP Número de formasNúmero de tipos
Unidades 202185099
Total de palavras 162365086
Palavras em minúscula 135024243
Palavras com inicial maiúscula1088569
Palavras todas em maiúsculas 96
Números 9750
Palavras com números22
Palavras mistas
Pontuação74013

Número de unidades estruturais

Atributo Número
p 594
s 675
mwe 351

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 262 431
Locuções 351 759
Palavras gráficas 16236 16236
Palavras simples 15046 15046
Palavras 15659 16236

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 3698 24,58%
Verbos V.* 2285 15,19%
Adjectivos ADJ.* 1289 8,57%
Pronomes pessoais .*PERS.* 408 2,71%
Preposições PRP.* 2784 18,50%
Conjunções K.* 823 5,47%
Advérbios ADV.* 981 6,52%
Determinantes .*DET.* 3115 20,70%
Especificadores .*SPEC.* 313 2,08%
Numerais NUM.* 205 1,36%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 08 de Junho de 2014
Perguntas, comentários e sugestões