Acesso a corpos de português: Projecto AC/DC: corpo ECI-EE

ECI-EE : AC/DC : Linguateca
O corpus ECI-EE foi criado pela ECI (European Corpus Initiative, Thomson et al. 1994), e contém o anúncio do programa comunitário ESPRIT . O corpus usa uma codificação SGML leve, com parágrafos e secções/artigos numerados, o que produziu alguns problemas em relação à separação de notas de rodapé (apenas indicadas graficamente por linhas iniciadas por tabuladores, e que tiveram de ser reconstituídas e colocadas após o parágrafo respectivo).

Pode também consultar a informação da ELSNET.

Estrutura do corpo

Marcadores estruturais: s, p, titulo, nota, marca.

Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
<marca num=3> <nota num=3>

Versão do corpo

Corpus ECI-EE, versão de Abril de 2002, anotado em 8 de Março de 2011, criado a 22 de Junho de 2013, v. 6.6

Excerto do corpo


<titulo id=1>
PROPOSTA PARA UMA DECISÃO DO CONSELHO QUE ADOPTA O PRIMEIRO PROGRAMA ESTRATÉGICO EUROPEU DE INVESTIGAÇÃO E DESENVOLVIMENTO EM TECNOLOGIAS DA INFORMAÇÃO ESPRIT
</titulo>
<p par=1>
<s> Oito em cada dez computadores pessoais vendidos na Europa são importados dos EUA; nove em cada dez gravadores de vídeo vendidos na Europa vêm do Japão . </s>
</p>
<p par=2>
<s> Os fabricantes de circuitos integrados com sede na Europa fornecem 30% do seu mercado interno e representam 13% da produção mundial, metade da qual é fabricada nos EUA por filiais de empresas europeias . </s>
<s> Os grandes fabricantes europeus de computadores centrais, sem excepção, firmaram acordos com empresas não-europeias a fim de beneficiarem do seu avanço
tecnológico . </s>
...

Dados quantitativos

Corpo ECI-EE Número de formasNúmero de tipos
Unidades 321344254
Total de palavras 271304091
Palavras em minúscula 217443332
Palavras com inicial maiúscula1786391
Palavras todas em maiúsculas 19541
Números 459101
Palavras com números22
Palavras mistas1125
Pontuação1229160

Número de unidades estruturais

Atributo Número
p 340
s 839
t 0
nota 27
marca 27
mwe 608

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 641 1008
Locuções 608 1319
Palavras gráficas 27130 27130
Palavras simples 24803 24803
Palavras 26052 27130

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 6929 27,94%
Verbos V.* 2920 11,77%
Adjectivos ADJ.* 2423 9,77%
Pronomes pessoais .*PERS.* 414 1,67%
Preposições PRP.* 5285 21,31%
Conjunções K.* 1327 5,35%
Advérbios ADV.* 960 3,87%
Determinantes .*DET.* 4970 20,04%
Especificadores .*SPEC.* 286 1,15%
Numerais NUM.* 698 2,81%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 08 de Junho de 2014
Perguntas, comentários e sugestões