Acesso a corpos de português: Projecto AC/DC: corpo ECI-EBR

ECI-EBR : AC/DC : Linguateca

O corpo ECI-EBR foi criado pela ECI (European Corpus Initiative; Thomson et al. 1994) , baseado no corpo Borba-Ramsey. É uma selecção de excertos de obras brasileiras, contendo pelo menos discurso literário, didáctico e oral cuidado (discursos políticos). O corpo contém pouco mais de 700 mil palavras, e estava codificado em SGML muito leve (além do cabeçalho, apenas continha marcas de parágrafos), cf. a informação da ELSNET.

Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.

Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:

biografia (material biográfico)
crítica_lit (material indicativo de crítica literária)
debate (debates no parlamento)
definição
entrevista
informativo
discurso (discursos políticos, etc.)
jornalismo (notícias, breves, crónicas, etc.)
literatura (texto literário)
literatura ensaio (ensaios são considerados como um subgénero de literatura)
literatura teatro (texto literário do género dramático)

Dentro do género jornalismo, incluímos as subdivisões: crónica, cultura, desporto, economia, entretenimento, generalidades, internacional, país, religião, reportagem, saúde, sociedade, título.

Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.

Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.

Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).

O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.

Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:

Género Unidades Textos

Literatura 384.961 157

Informativo 203.436 288

Jornalismo 89.086 537

Oral 66.092 29

Outros 16.419 33

Indef 16.935 82

Assuntos Unidades Textos

Agricultura 3458 8

Arqueologia 1681 3

Arte 4255 4

Astrologia 1294 1

Biologia 3662 3

Botânica 6095 4

Ciência 7402 9

Clima 302 1

Crónica 3761 11

Culinária 1316 1

Cultura 5795 44

Desporto 8227 39

Direito 1746 4

Ecologia 326 2

Economia 18441 60

Edição 823 1

Educação 1105 1

Entretenimento 5084 31

Entrevista 592 3

Escutismo 424 1

Estatística 1253 1

Filatelia 1113 1

Filosofia 3470 3

Física 627 1

Fotografia 1056 2

Generalidades 5411 44

Generealidades 120 1

Geografia 3721 6

Geologia 77 1

Gestão 2247 2

Hidrografia 1280 1

História 35242 30

Indef 484736 1

Indústria 1375 3

Internacional 8196 57

Jornalismo 284 537

Linguística 8066 11

Literatura 8234 14

Maternidade 344 1

Medicina 16881 18

Música 1717 3

Oceanografia 302 1

País 44860 206

Política 19780 36

Psicologia 2412 5

Religião 21243 32

Reportagem 1298 3

Saúde 4615 19

Sociedade 7399 58

Sociologia 10432 15

Título 174 12

Turismo 188 1

Zoologia 2987 15

Estrutura do corpo
A partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).
A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.
Marcadores estruturais: s, p, ext e marca.
Versão do corpo
Corpus ECI-EBR, versão texto de Abril de 2002, anotado a 6 de julho de 2024, v. 13.1

Excerto do corpo

<ext id=1 gen=«literatura»>
<p par=1>
<s> Foi entre a sopa e a galinha de molho pardo -- especialidade do restaurante Mickey Mouse -- que Sergio falou (voz forte, porém pouco firme, dir-se-ia: trôpega): </s>
</p>
<p par=2>
<s> Sergio não hesitou em se mostrar desarvorado com o protesto . </s>
<s> A intervenção de Silvio, porém, foi imediata: </s>
</p>
(...)
</ext>

Dados quantitativos

Corpo ECI-EBR Número de formas Número de tipos

Unidades 924904 60376

Total de palavras 728951 60175

Palavras em minúscula 569163 42116

Palavras com inicial maiúscula 73135 12208

Palavras todas em maiúsculas 200 53

Números 1999 461

Palavras com números 56 44

Palavras mistas 179 100

Pontuação 53752 199

Número de unidades estruturais

Atributo Número

ext 1107

p 12117

s 44379

marca 3

mwe 13459

Contabilização de multipalavras

Número de entidades Número de unidades

Nomes próprios 19625 32296

Locuções 13459 29099

Palavras gráficas 728951 728951

Palavras simples 667556 667556

Palavras 700640 728951

Distribuição por categoria gramatical

Categoria gramatical Expressão de procura Número de palavras Percentagem do corpo

Substantivos N|N[^U].* 149607 22,41%

Verbos V.* 114979 17,22%

Adjectivos ADJ.* 45082 6,75%

Pronomes pessoais .*PERS.* 24850 3,72%

Preposições PRP.* 112027 16,78%

Conjunções K.* 33800 5,06%

Advérbios ADV.* 44315 6,64%

Determinantes .*DET.* 125212 18,76%

Especificadores .*SPEC.* 16264 2,44%

Numerais NUM.* 9333 1,40%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]

Última atualização: 13 de Julho de 2024

Perguntas, comentários e sugestões

Género	Unidades	Textos
Literatura	384.961	157
Informativo	203.436	288
Jornalismo	89.086	537
Oral	66.092	29
Outros	16.419	33
Indef	16.935	82

Assuntos	Unidades	Textos
Agricultura	3458	8
Arqueologia	1681	3
Arte	4255	4
Astrologia	1294	1
Biologia	3662	3
Botânica	6095	4
Ciência	7402	9
Clima	302	1
Crónica	3761	11
Culinária	1316	1
Cultura	5795	44
Desporto	8227	39
Direito	1746	4
Ecologia	326	2
Economia	18441	60
Edição	823	1
Educação	1105	1
Entretenimento	5084	31
Entrevista	592	3
Escutismo	424	1
Estatística	1253	1
Filatelia	1113	1
Filosofia	3470	3
Física	627	1
Fotografia	1056	2
Generalidades	5411	44
Generealidades	120	1
Geografia	3721	6
Geologia	77	1
Gestão	2247	2
Hidrografia	1280	1
História	35242	30
Indef	484736	1
Indústria	1375	3
Internacional	8196	57
Jornalismo	284	537
Linguística	8066	11
Literatura	8234	14
Maternidade	344	1
Medicina	16881	18
Música	1717	3
Oceanografia	302	1
País	44860	206
Política	19780	36
Psicologia	2412	5
Religião	21243	32
Reportagem	1298	3
Saúde	4615	19
Sociedade	7399	58
Sociologia	10432	15
Título	174	12
Turismo	188	1
Zoologia	2987	15