Estrutura do corpo
Atributos estruturais:
- DOC (delimitador de documento), p (delimitador de parágrafo), s (delimitador de frase)
- EM (delimitador de entidade mencionada)
- ABSTRACCAO, ACONTECIMENTO, COISA, LOCAL, OBRA, ORGANIZACAO, PESSOA, TEMPO, VALOR, VARIADO (delimitador de categoria de entidade mencionada)
- ALT (delimitador de EM com anotação alternativa).
Atributos posicionais relacionados com a anotação das entidades:
- em (entidade mencionada a que o termo pertence)
- categoria (categoria(s) de EM)
- tipo (subcategoria de EM)
- docid (documento da CD)
- variante (país de origem do texto, o valor do campo ORIGEM)
- genero (género textual)
- morf (classificação morfológica na CD)
- prem (posição relativa na EM),
- abstraccao, acontecimento, coisa, local, obra, organizacao, pessoa, tempo, valor, variado (subcategoria de EM)
Versão do corpo
Corpus Colecção Dourada do HAREM, a partir das versões das CD do Primeiro HAREM de 2007, anotado em 3 de Maio de 2010, criado a 15 de Maio de 2010, versão 3.2
Excerto do corpo
<DOC docid=HAREM-871-07800 genero=Web origem=PT> <TEXTO TAM=279> <p> <s frag> <EM TAM=1> <ORGANIZACAO TIPO="INSTITUICAO" MORF="F,S"> Abraço </ORGANIZACAO> </EM> Página Principal </s> </p> <p> <s frag> <EM TAM=9> <ORGANIZACAO TIPO="INSTITUICAO" MORF="F,S"> ASSOCIAÇÃO DE APOIO A PESSOAS COM VIH / SIDA </ORGANIZACAO> </EM> </s> </p> <p> <s> A <EM TAM=1> <ORGANIZACAO TIPO="INSTITUICAO" MORF="F,S"> ABRAÇO </ORGANIZACAO> </EM> é uma <EM TAM=5> <ORGANIZACAO TIPO="INSTITUICAO" MORF="F,S"> Instituição Particular de Solidariedade Social </ORGANIZACAO> </EM> . </s> <s frag> Organização não governamental sem fins lucrativos de prestação de serviços </s> </p> <p> <s> na área da <EM TAM=1> <ABSTRACCAO TIPO="ESTADO" MORF="F,S"> SIDA </ABSTRACCAO> </EM> . </s> </p> <p> <s frag> Foi constituída por escritura pública em <EM TAM=3> <TEMPO TIPO="DATA"> Junho de 1992 </TEMPO> </EM> , ...
Dados quantitativos
| Corpo CDHAREM
| Número de formas | Número de tipos |
| Unidades | 290001 | 31214 |
| Total de palavras | 225766 | 30985 |
| Palavras em minúscula | 165617 | 19241 |
| Palavras com inicial maiúscula | 32737 | 7956 |
| Palavras todas em maiúsculas | 1400 | 1046 |
| Números | 2887 | 564 |
| Palavras com números | 123 | 83 |
| Palavras mistas | 149 | 95 |
| Pontuação | 15197 | 229 |
Número de unidades estruturais
| Atributo | Número |
| DOC | 386 |
| TEXTO | 386 |
| LOCAL | 3494 |
| ORGANIZACAO | 2621 |
| VALOR | 1153 |
| COISA | 640 |
| ACONTECIMENTO | 501 |
| OBRA | 863 |
| PESSOA | 4014 |
| TEMPO | 1970 |
| ABSTRACCAO | 1195 |
| VARIADO | 54 |
| OUTRO | 110 |
| p | 7262 |
| s | 12530 |
| ALT | 533 |
| EM | 15908 |
| mwe | 3913 |
Contabilização de multipalavras
| Número de entidades | Número de unidades |
| Nomes próprios | 12178 | 22866 |
| Locuções | 3913 | 8318 |
| Palavras gráficas | 225766 | 225766 |
| Palavras simples | 194582 | 194582 |
| Palavras | 210673 | 225766 |
Distribuição por categoria gramatical
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
| Substantivos | N|N[^U].* | 45363 | 23,31% |
| Verbos | V.* | 30984 | 15,92% |
| Adjectivos | ADJ.* | 12191 | 6,27% |
| Pronomes pessoais | .*PERS.* | 5198 | 2,67% |
| Preposições | PRP.* | 35007 | 17,99% |
| Conjunções | K.* | 10098 | 5,19% |
| Advérbios | ADV.* | 13231 | 6,80% |
| Determinantes | .*DET.* | 38627 | 19,85% |
| Especificadores | .*SPEC.* | 3841 | 1,97% |
| Numerais | NUM.* | 4667 | 2,40% |
Para informação sobre como foram obtidos este valores, consulte esta página
|