Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.
Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:
Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.
Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.
Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).
O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.
Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:
| Género | Unidades | Textos |
| Literatura | 384.961 | 157 |
| Informativo | 203.436 | 288 |
| Jornalismo | 89.086 | 537 |
| Oral | 66.092 | 29 |
| Outros | 16.419 | 33 |
| Indef | 16.935 | 82 |
| Assuntos | Unidades | Textos |
| Agricultura | 3458 | 8 |
| Arqueologia | 1681 | 3 |
| Arte | 4255 | 4 |
| Astrologia | 1294 | 1 |
| Biologia | 3662 | 3 |
| Botânica | 6095 | 4 |
| Ciência | 7402 | 9 |
| Clima | 302 | 1 |
| Crónica | 3761 | 11 |
| Culinária | 1316 | 1 |
| Cultura | 5795 | 44 |
| Desporto | 8227 | 39 |
| Direito | 1746 | 4 |
| Ecologia | 326 | 2 |
| Economia | 18441 | 60 |
| Edição | 823 | 1 |
| Educação | 1105 | 1 |
| Entretenimento | 5084 | 31 |
| Entrevista | 592 | 3 |
| Escutismo | 424 | 1 |
| Estatística | 1253 | 1 |
| Filatelia | 1113 | 1 |
| Filosofia | 3470 | 3 |
| Física | 627 | 1 |
| Fotografia | 1056 | 2 |
| Generalidades | 5411 | 44 |
| Generealidades | 120 | 1 |
| Geografia | 3721 | 6 |
| Geologia | 77 | 1 |
| Gestão | 2247 | 2 |
| Hidrografia | 1280 | 1 |
| História | 35242 | 30 |
| Indef | 484736 | 1 |
| Indústria | 1375 | 3 |
| Internacional | 8196 | 57 |
| Jornalismo | 284 | 537 |
| Linguística | 8066 | 11 |
| Literatura | 8234 | 14 |
| Maternidade | 344 | 1 |
| Medicina | 16881 | 18 |
| Música | 1717 | 3 |
| Oceanografia | 302 | 1 |
| País | 44860 | 206 |
| Política | 19780 | 36 |
| Psicologia | 2412 | 5 |
| Religião | 21243 | 32 |
| Reportagem | 1298 | 3 |
| Saúde | 4615 | 19 |
| Sociedade | 7399 | 58 |
| Sociologia | 10432 | 15 |
| Título | 174 | 12 |
| Turismo | 188 | 1 |
| Zoologia | 2987 | 15 |
Estrutura do corpoA partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. Marcadores estruturais: s, p, ext e marca. Versão do corpoCorpus ECI-EBR, versão texto de Abril de 2002, anotado a 6 de julho de 2024, v. 13.1Excerto do corpo<ext id=1 gen=«literatura»> <p par=1> <s> Foi entre a sopa e a galinha de molho pardo -- especialidade do restaurante Mickey Mouse -- que Sergio falou (voz forte, porém pouco firme, dir-se-ia: trôpega): </s> </p> <p par=2> <s> Sergio não hesitou em se mostrar desarvorado com o protesto . </s> <s> A intervenção de Silvio, porém, foi imediata: </s> </p> (...) </ext> Dados quantitativos
Número de unidades estruturais
Contabilização de multipalavras
Distribuição por categoria gramatical
Para informação sobre como foram obtidos este valores, consulte esta página |
[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]