Acesso a corpos de português: Projecto AC/DC: corpo Ciência Viva

Ciência Viva : AC/DC : Linguateca
O corpo Ciência Viva é constituído por notícias de jornal promovidas pela plataforma "Ciência na Imprensa Regional". Esta é uma iniciativa da Ciência Viva - Agência Nacional para a Cultura Científica e Tecnológica, lançada em 2011, com o objetivo de estimular a comunicação de ciência na imprensa regional em Portugal.

A plataforma "Ciência na Imprensa Regional", http://imprensaregional.cienciaviva.pt, é um sistema digital de edição e distribuição de conteúdos de divulgação científica da autoria de cientistas e profissionais de comunicação de ciência. Após edição e catalogação os conteúdos ficam disponíveis para publicação por todos os órgãos de comunicação social, locais e regionais.

Estrutura do corpo

O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).

Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.

Versão do corpo

Corpo CIENCIAVIVA, criado a 6 de julho de 2024, v. 4.1

Excerto do corpo


<texto idart=112 idaut=70 data=20120125>
<s> <t> A história química de uma raia eléctrica </t> </s>
<p>
<s> A raia eléctrica (Torpedo marmorata L.) possui órgãos eléctricos que podem dar um choque de mais de duzentos volts durante cerca de um segundo . </s>
<s> Este peixe, assim como a enguia eléctrica e o peixe-gato eléctrico, desde sempre maravilharam os naturalistas e atraíram a atenção de médicos e cientistas . </s>

Dados quantitativos

Corpo CIENCIAVIVA Número de formasNúmero de tipos
Unidades 80530742344
Total de palavras 66348741893
Palavras em minúscula 50018126504
Palavras com inicial maiúscula763889353
Palavras todas em maiúsculas 4647930
Números 7728755
Palavras com números1117512
Palavras mistas447261
Pontuação34419424

Número de unidades estruturais

Atributo Número
p 12483
s 27266
texto 1124
t 1124
mwe 11489

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 29688 58741
Locuções 11489 24319
Palavras gráficas 663487 663487
Palavras simples 580427 580427
Palavras 621604 663487

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 146325 25,21%
Verbos V.* 80112 13,80%
Adjectivos ADJ.* 47858 8,25%
Pronomes pessoais .*PERS.* 8228 1,42%
Preposições PRP.* 116126 20,01%
Conjunções K.* 27185 4,68%
Advérbios ADV.* 28725 4,95%
Determinantes .*DET.* 118495 20,42%
Especificadores .*SPEC.* 11498 1,98%
Numerais NUM.* 12148 2,09%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões