Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.
Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:
Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.
Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.
Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).
O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.
Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:
Género | Unidades | Textos |
Literatura | 384.961 | 157 |
Informativo | 203.436 | 288 |
Jornalismo | 89.086 | 537 |
Oral | 66.092 | 29 |
Outros | 16.419 | 33 |
Indef | 16.935 | 82 |
Assuntos | Unidades | Textos |
Agricultura | 3458 | 8 |
Arqueologia | 1681 | 3 |
Arte | 4255 | 4 |
Astrologia | 1294 | 1 |
Biologia | 3662 | 3 |
Botânica | 6095 | 4 |
Ciência | 7402 | 9 |
Clima | 302 | 1 |
Crónica | 3761 | 11 |
Culinária | 1316 | 1 |
Cultura | 5795 | 44 |
Desporto | 8227 | 39 |
Direito | 1746 | 4 |
Ecologia | 326 | 2 |
Economia | 18441 | 60 |
Edição | 823 | 1 |
Educação | 1105 | 1 |
Entretenimento | 5084 | 31 |
Entrevista | 592 | 3 |
Escutismo | 424 | 1 |
Estatística | 1253 | 1 |
Filatelia | 1113 | 1 |
Filosofia | 3470 | 3 |
Física | 627 | 1 |
Fotografia | 1056 | 2 |
Generalidades | 5411 | 44 |
Generealidades | 120 | 1 |
Geografia | 3721 | 6 |
Geologia | 77 | 1 |
Gestão | 2247 | 2 |
Hidrografia | 1280 | 1 |
História | 35242 | 30 |
Indef | 484736 | 1 |
Indústria | 1375 | 3 |
Internacional | 8196 | 57 |
Jornalismo | 284 | 537 |
Linguística | 8066 | 11 |
Literatura | 8234 | 14 |
Maternidade | 344 | 1 |
Medicina | 16881 | 18 |
Música | 1717 | 3 |
Oceanografia | 302 | 1 |
País | 44860 | 206 |
Política | 19780 | 36 |
Psicologia | 2412 | 5 |
Religião | 21243 | 32 |
Reportagem | 1298 | 3 |
Saúde | 4615 | 19 |
Sociedade | 7399 | 58 |
Sociologia | 10432 | 15 |
Título | 174 | 12 |
Turismo | 188 | 1 |
Zoologia | 2987 | 15 |
Estrutura do corpoA partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. Marcadores estruturais: s, p, ext e marca. Versão do corpoCorpus ECI-EBR, versão texto de Abril de 2002, anotado a 6 de julho de 2024, v. 13.1Excerto do corpo<ext id=1 gen=«literatura»> <p par=1> <s> Foi entre a sopa e a galinha de molho pardo -- especialidade do restaurante Mickey Mouse -- que Sergio falou (voz forte, porém pouco firme, dir-se-ia: trôpega): </s> </p> <p par=2> <s> Sergio não hesitou em se mostrar desarvorado com o protesto . </s> <s> A intervenção de Silvio, porém, foi imediata: </s> </p> (...) </ext> Dados quantitativos
Número de unidades estruturais
Contabilização de multipalavras
Distribuição por categoria gramatical
Para informação sobre como foram obtidos este valores, consulte esta página |
[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]