Acesso a corpos de português: Projecto AC/DC: corpo Ciência Viva

Ciência Viva : AC/DC : Linguateca
O corpo Ciência Viva é constituído por notícias de jornal promovidas pela plataforma "Ciência na Imprensa Regional". Esta é uma iniciativa da Ciência Viva - Agência Nacional para a Cultura Científica e Tecnológica, lançada em 2011, com o objetivo de estimular a comunicação de ciência na imprensa regional em Portugal.

A plataforma "Ciência na Imprensa Regional", http://imprensaregional.cienciaviva.pt, é um sistema digital de edição e distribuição de conteúdos de divulgação científica da autoria de cientistas e profissionais de comunicação de ciência. Após edição e catalogação os conteúdos ficam disponíveis para publicação por todos os órgãos de comunicação social, locais e regionais.

Estrutura do corpo

O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

Versão do corpo

Corpo CIENCIAVIVA, criado a 31 de julho de 2022, v. 2.5

Excerto do corpo


<texto idart=112 idaut=70 data=20120125>
<s> <t> A história química de uma raia eléctrica </t> </s>
<p>
<s> A raia eléctrica (Torpedo marmorata L.) possui órgãos eléctricos que podem dar um choque de mais de duzentos volts durante cerca de um segundo . </s>
<s> Este peixe, assim como a enguia eléctrica e o peixe-gato eléctrico, desde sempre maravilharam os naturalistas e atraíram a atenção de médicos e cientistas . </s>

Dados quantitativos

Corpo CIENCIAVIVA Número de formasNúmero de tipos
Unidades 79936042807
Total de palavras 65658941968
Palavras em minúscula 49982626448
Palavras com inicial maiúscula766159330
Palavras todas em maiúsculas 4832951
Números 7797768
Palavras com números1146540
Palavras mistas479251
Pontuação35059665

Número de unidades estruturais

Atributo Número
p 12475
s 27256
texto 1122
t 1123
mwe 11539

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 30512 59766
Locuções 11539 24534
Palavras gráficas 656589 656589
Palavras simples 572289 572289
Palavras 614340 656589

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 146108 25,53%
Verbos V.* 80215 14,02%
Adjectivos ADJ.* 47738 8,34%
Pronomes pessoais .*PERS.* 8207 1,43%
Preposições PRP.* 114826 20,06%
Conjunções K.* 27437 4,79%
Advérbios ADV.* 29386 5,13%
Determinantes .*DET.* 117942 20,61%
Especificadores .*SPEC.* 11529 2,01%
Numerais NUM.* 12394 2,17%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 06 de Agosto de 2022
Perguntas, comentários e sugestões