Acesso a corpos de português: Projecto AC/DC: corpo ECI-EE

ECI-EE : AC/DC : Linguateca
O corpus ECI-EE foi criado pela ECI (European Corpus Initiative, Thomson et al. 1994), e contém o anúncio do programa comunitário ESPRIT . O corpus usa uma codificação SGML leve, com parágrafos e secções/artigos numerados, o que produziu alguns problemas em relação à separação de notas de rodapé (apenas indicadas graficamente por linhas iniciadas por tabuladores, e que tiveram de ser reconstituídas e colocadas após o parágrafo respectivo).

Pode também consultar a informação da ELSNET.

Estrutura do corpo

Marcadores estruturais: s, p, titulo, nota, marca.

Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
<marca num=3> <nota num=3>

Versão do corpo

Corpus ECI-EE, versão de Abril de 2002, criado a 30 de julho de 2022, v. 7.7

Excerto do corpo


<titulo id=1>
PROPOSTA PARA UMA DECISÃO DO CONSELHO QUE ADOPTA O PRIMEIRO PROGRAMA ESTRATÉGICO EUROPEU DE INVESTIGAÇÃO E DESENVOLVIMENTO EM TECNOLOGIAS DA INFORMAÇÃO ESPRIT
</titulo>
<p par=1>
<s> Oito em cada dez computadores pessoais vendidos na Europa são importados dos EUA; nove em cada dez gravadores de vídeo vendidos na Europa vêm do Japão . </s>
</p>
<p par=2>
<s> Os fabricantes de circuitos integrados com sede na Europa fornecem 30% do seu mercado interno e representam 13% da produção mundial, metade da qual é fabricada nos EUA por filiais de empresas europeias . </s>
<s> Os grandes fabricantes europeus de computadores centrais, sem excepção, firmaram acordos com empresas não-europeias a fim de beneficiarem do seu avanço
tecnológico . </s>
...

Dados quantitativos

Corpo ECI-EE Número de formasNúmero de tipos
Unidades 319004275
Total de palavras 271114118
Palavras em minúscula 217443327
Palavras com inicial maiúscula1521353
Palavras todas em maiúsculas 39085
Números 466103
Palavras com números55
Palavras mistas1126
Pontuação1216155

Número de unidades estruturais

Atributo Número
p 180
s 61
t 0
nota 10
marca 25
mwe 508

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 544 814
Locuções 508 1118
Palavras gráficas 27111 27111
Palavras simples 25179 25179
Palavras 26231 27111

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 7047 27,99%
Verbos V.* 2930 11,64%
Adjectivos ADJ.* 2421 9,62%
Pronomes pessoais .*PERS.* 401 1,59%
Preposições PRP.* 5408 21,48%
Conjunções K.* 1270 5,04%
Advérbios ADV.* 864 3,43%
Determinantes .*DET.* 4981 19,78%
Especificadores .*SPEC.* 353 1,40%
Numerais NUM.* 717 2,85%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 05 de Agosto de 2022
Perguntas, comentários e sugestões