Estrutura do corpo
O corpus contém as etiquetas texto (documento), t (titulo), p (parágrafo) e s (frase).
O atributo posicional fonte indica a que texto cada palavra pertence (ver lista das fontes).
Os valores de classe estão por enquanto marcados da seguinte forma: noticia, se é uma notícia de jornal (ou texto publicado num blogue) após a sua morte; discurso se é um discurso (ou outro texto escrito por Mariano Gago), entrevista se é uma entrevista feita a Mariano Gago. outros marca textos escritos com menção a Mariano Gago antes da sua morte, e vão de críticas a reportagens a simples descrições de acontecimentos. Finalmente, sitiohomenagem contém todos os textos colocado em marianogago.org.
Prevemos para breve uma classificação mais fina dos textos, assim como alguma limpeza do material.
Distribuição por tipo de texto
A sua distribuição, correspondendo à versão 7.1, é a seguinte:
Tipo | Descrição | Tamanho |
noticia | texto noticioso | 169.445 |
discurso | discursos | 17.896 |
entrevista | entrevistas | 33.492 |
outros | outros | 344.955 |
sitiohomenagem | sítio de homenagem | 37.140 |
Dado o número considerável de diferentes fontes, colocamos a origem de cada texto em ficheiros separados
Mais textos (de Mariano Gago) previstos:
- http://confoa08.sdum.uminho.pt/apresentacoes/Mensagem%20MCTES.pdf
- http://imagens.publico.pt/imagens.aspx/916095?tp=UH&db=IMAGENS&dl=1&fln=entrevista-a-jose-mariano-gago-20150417-224009.pdf
- http://act.fct.pt/wp-content/uploads/2014/05/1_JMG_FCT_2011_Protocolo-de-doa%C3%A7%C3%A3o-acervo-documental.pdf
Versão do corpo
Corpo JMG, criado em 6 de julho de 2024, v. 7.1
Excerto do corpo
<texto id=1 genero=noticia> <s> <t> Reações à morte de Mariano Gago </t> </s> <s> Funeral de Mariano Gago marcado para sábado às 12h00 . </s> <s frag> O antigo ministro da Ciência e do Ensino Superior Mariano Gago morreu esta sexta-feira, em sua casa, em Lisboa, aos 66 anos, vítima de cancro </s>
<s frag> Deixa um "vazio muito grande na ciência" Arlindo Oliveira, presidente do IST </s>
Dados quantitativos
Corpo JMG
| Número de formas | Número de tipos |
Unidades | 693884 | 31895 |
Total de palavras | 569843 | 31627 |
Palavras em minúscula | 413219 | 21053 |
Palavras com inicial maiúscula | 81713 | 6316 |
Palavras todas em maiúsculas | 5197 | 928 |
Números | 5650 | 358 |
Palavras com números | 255 | 89 |
Palavras mistas | 212 | 102 |
Pontuação | 33088 | 253 |
Número de unidades estruturais
Atributo | Número |
p | 11352 |
s | 22923 |
texto | 1375 |
t | 1575 |
mwe | 8105 |
Contabilização de multipalavras
| Número de entidades | Número de unidades |
Nomes próprios | 30606 | 66268 |
Locuções | 8105 | 17331 |
Palavras gráficas | 569843 | 569843 |
Palavras simples | 486244 | 486244 |
Palavras | 524955 | 569843 |
Distribuição por categoria gramatical
Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
Substantivos | N|N[^U].* | 115708 | 23,80% |
Verbos | V.* | 68673 | 14,12% |
Adjectivos | ADJ.* | 34176 | 7,03% |
Pronomes pessoais | .*PERS.* | 8340 | 1,72% |
Preposições | PRP.* | 98006 | 20,16% |
Conjunções | K.* | 25568 | 5,26% |
Advérbios | ADV.* | 25320 | 5,21% |
Determinantes | .*DET.* | 98821 | 20,32% |
Especificadores | .*SPEC.* | 11413 | 2,35% |
Numerais | NUM.* | 9232 | 1,90% |
Para informação sobre como foram obtidos este valores, consulte esta página
|