Acesso a corpos de português: Projecto AC/DC: corpo Ciência Viva

Ciência Viva : AC/DC : Linguateca
O corpo Ciência Viva é constituído por notícias de jornal promovidas pela plataforma "Ciência na Imprensa Regional". Esta é uma iniciativa da Ciência Viva - Agência Nacional para a Cultura Científica e Tecnológica, lançada em 2011, com o objetivo de estimular a comunicaçâo de ciência na imprensa regional em Portugal.

A plataforma "Ciência na Imprensa Regional", http://imprensaregional.cienciaviva.pt, é um sistema digital de edição e distribuição de conteúdos de divulgação científica da autoria de cientistas e profissionais de comunicação de ciência. Após edição e catalogação os conteúdos ficam disponíveis para publicação por todos os órgãos de comunicação social, locais e regionais.

Estrutura do corpo

O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

Versão do corpo

Corpo CIENCIAVIVA, criado em 13 de abril de 2020, v. 2.3

Excerto do corpo


<texto idart=112 idaut=70 data=20120125>
<s> <t> A história química de uma raia eléctrica </t> </s>
<p>
<s> A raia eléctrica (Torpedo marmorata L.) possui órgãos eléctricos que podem dar um choque de mais de duzentos volts durante cerca de um segundo . </s>
<s> Este peixe, assim como a enguia eléctrica e o peixe-gato eléctrico, desde sempre maravilharam os naturalistas e atraíram a atenção de médicos e cientistas . </s>

Dados quantitativos

Corpo CIENCIAVIVA Número de formasNúmero de tipos
Unidades 79931242785
Total de palavras 65679141949
Palavras em minúscula 49987826478
Palavras com inicial maiúscula766359336
Palavras todas em maiúsculas 4790928
Números 7826768
Palavras com números1145539
Palavras mistas484237
Pontuação34766652

Número de unidades estruturais

Atributo Número
p 12475
s 27257
texto 1123
t 1124
mwe 11547

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 31856 58932
Locuções 11547 24551
Palavras gráficas 656791 656791
Palavras simples 573308 573308
Palavras 616711 656791

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 145643 25,40%
Verbos V.* 79948 13,95%
Adjectivos ADJ.* 47663 8,31%
Pronomes pessoais .*PERS.* 8198 1,43%
Preposições PRP.* 115200 20,09%
Conjunções K.* 27948 4,87%
Advérbios ADV.* 29501 5,15%
Determinantes .*DET.* 118376 20,65%
Especificadores .*SPEC.* 11482 2,00%
Numerais NUM.* 12667 2,21%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Abril de 2020
Perguntas, comentários e sugestões