Acesso a corpos de português: Projecto AC/DC: corpo ECI-EE

ECI-EE : AC/DC : Linguateca
O corpus ECI-EE foi criado pela ECI (European Corpus Initiative, Thomson et al. 1994), e contém o anúncio do programa comunitário ESPRIT . O corpus usa uma codificação SGML leve, com parágrafos e secções/artigos numerados, o que produziu alguns problemas em relação à separação de notas de rodapé (apenas indicadas graficamente por linhas iniciadas por tabuladores, e que tiveram de ser reconstituídas e colocadas após o parágrafo respectivo).

Pode também consultar a informação da ELSNET.

Estrutura do corpo

Marcadores estruturais: s, p, titulo, nota, marca.

Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
<marca num=3> <nota num=3>

Versão do corpo

Corpus ECI-EE, versão de Abril de 2002, criado a 6 de julho de 2024, v. 9.1

Excerto do corpo


<titulo id=1>
PROPOSTA PARA UMA DECISÃO DO CONSELHO QUE ADOPTA O PRIMEIRO PROGRAMA ESTRATÉGICO EUROPEU DE INVESTIGAÇÃO E DESENVOLVIMENTO EM TECNOLOGIAS DA INFORMAÇÃO ESPRIT
</titulo>
<p par=1>
<s> Oito em cada dez computadores pessoais vendidos na Europa são importados dos EUA; nove em cada dez gravadores de vídeo vendidos na Europa vêm do Japão . </s>
</p>
<p par=2>
<s> Os fabricantes de circuitos integrados com sede na Europa fornecem 30% do seu mercado interno e representam 13% da produção mundial, metade da qual é fabricada nos EUA por filiais de empresas europeias . </s>
<s> Os grandes fabricantes europeus de computadores centrais, sem excepção, firmaram acordos com empresas não-europeias a fim de beneficiarem do seu avanço
tecnológico . </s>
...

Dados quantitativos

Corpo ECI-EE Número de formasNúmero de tipos
Unidades 302774122
Total de palavras 257793970
Palavras em minúscula 206553235
Palavras com inicial maiúscula1402323
Palavras todas em maiúsculas 38993
Números 41995
Palavras com números33
Palavras mistas1066
Pontuação1122150

Número de unidades estruturais

Atributo Número
p 313
s 789
t 0
nota 0
marca 27
mwe 480

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 610 904
Locuções 480 1062
Palavras gráficas 25779 25779
Palavras simples 23813 23813
Palavras 24903 25779

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 6625 27,82%
Verbos V.* 2805 11,78%
Adjectivos ADJ.* 2303 9,67%
Pronomes pessoais .*PERS.* 282 1,18%
Preposições PRP.* 5116 21,48%
Conjunções K.* 1206 5,06%
Advérbios ADV.* 800 3,36%
Determinantes .*DET.* 4755 19,97%
Especificadores .*SPEC.* 341 1,43%
Numerais NUM.* 646 2,71%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões