Acesso a corpos de português: Projecto AC/DC: corpo ECI-EBR

ECI-EBR : AC/DC : Linguateca
O corpo ECI-EBR foi criado pela ECI (European Corpus Initiative; Thomson et al. 1994) , baseado no corpo Borba-Ramsey. É uma selecção de excertos de obras brasileiras, contendo pelo menos discurso literário, didáctico e oral cuidado (discursos políticos). O corpo contém pouco mais de 700 mil palavras, e estava codificado em SGML muito leve (além do cabeçalho, apenas continha marcas de parágrafos), cf. a informação da ELSNET.

Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.

Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:

Dentro do género jornalismo, incluímos as subdivisões: crónica, cultura, desporto, economia, entretenimento, generalidades, internacional, país, religião, reportagem, saúde, sociedade, título.

Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.

Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.

Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).

O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.

Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:

GéneroUnidadesTextos
Literatura 384.961 157
Informativo 203.436 288
Jornalismo 89.086 537
Oral 66.092 29
Outros 16.419 33
Indef 16.935 82
AssuntosUnidadesTextos
Agricultura 3458 8
Arqueologia 1681 3
Arte 4255 4
Astrologia 1294 1
Biologia 3662 3
Botânica 6095 4
Ciência 7402 9
Clima 302 1
Crónica 3761 11
Culinária 1316 1
Cultura 5795 44
Desporto 8227 39
Direito 1746 4
Ecologia 326 2
Economia 18441 60
Edição 823 1
Educação 1105 1
Entretenimento 5084 31
Entrevista 592 3
Escutismo 424 1
Estatística 1253 1
Filatelia 1113 1
Filosofia 3470 3
Física 627 1
Fotografia 1056 2
Generalidades 5411 44
Generealidades 120 1
Geografia 3721 6
Geologia 77 1
Gestão 2247 2
Hidrografia 1280 1
História 35242 30
Indef 484736 1
Indústria 1375 3
Internacional 8196 57
Jornalismo 284 537
Linguística 8066 11
Literatura 8234 14
Maternidade 344 1
Medicina 16881 18
Música 1717 3
Oceanografia 302 1
País 44860 206
Política 19780 36
Psicologia 2412 5
Religião 21243 32
Reportagem 1298 3
Saúde 4615 19
Sociedade 7399 58
Sociologia 10432 15
Título 174 12
Turismo 188 1
Zoologia 2987 15

Estrutura do corpo

A partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).

A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.

Marcadores estruturais: s, p, ext e marca.

Versão do corpo

Corpus ECI-EBR, versão texto de Abril de 2002, anotado em novembro de 2018, v. 11.1

Excerto do corpo


<ext id=1 gen=«literatura»>
<p par=1>
<s> Foi entre a sopa e a galinha de molho pardo -- especialidade do restaurante Mickey Mouse -- que Sergio falou (voz forte, porém pouco firme, dir-se-ia: trôpega): </s>
</p>
<p par=2>
<s> Sergio não hesitou em se mostrar desarvorado com o protesto . </s>
<s> A intervenção de Silvio, porém, foi imediata: </s>
</p>
(...)
</ext>

Dados quantitativos

Corpo ECI-EBR Número de formasNúmero de tipos
Unidades 91778760537
Total de palavras 72353360322
Palavras em minúscula 56947742228
Palavras com inicial maiúscula7215312198
Palavras todas em maiúsculas 19347
Números 2003461
Palavras com números5644
Palavras mistas18295
Pontuação53673210

Número de unidades estruturais

Atributo Número
ext 1107
p 12115
s 44377
marca 3
mwe 12673

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 21179 81
Locuções 12673 26959
Palavras gráficas 723533 723533
Palavras simples 696493 696493
Palavras 730345 723533

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 148904 21,38%
Verbos V.* 113970 16,36%
Adjectivos ADJ.* 45325 6,51%
Pronomes pessoais .*PERS.* 24777 3,56%
Preposições PRP.* 111084 15,95%
Conjunções K.* 34152 4,90%
Advérbios ADV.* 44361 6,37%
Determinantes .*DET.* 124911 17,93%
Especificadores .*SPEC.* 16027 2,30%
Numerais NUM.* 9174 1,32%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 03 de Dezembro de 2018
Perguntas, comentários e sugestões