Acesso a corpos de português: Projecto AC/DC: corpo CD HAREM

CD HAREM : AC/DC : Linguateca
O corpo CDHAREM contém as colecções douradas usadas no HAREM (avaliação conjunta de sistemas de Reconhecimento de Entidades Mencionadas), tanto no Primeiro (criadas em 2005 e 2006) como no Segundo (criada em 2008). A forma como este corpo foi criado encontra-se pormenorizadamente descrita em Rocha & Santos (2007).

Estrutura do corpo

  • Atributos estruturais:
    • DOC (delimitador de documento), p (delimitador de parágrafo), s (delimitador de frase)
    • EM (delimitador de entidade mencionada)
    • ABSTRACCAO, ACONTECIMENTO, COISA, LOCAL, OBRA, ORGANIZACAO, PESSOA, TEMPO, VALOR, VARIADO (delimitador de categoria de entidade mencionada)
    • ALT (delimitador de EM com anotação alternativa).
  • Atributos posicionais relacionados com a anotação das entidades:
    • em (entidade mencionada a que o termo pertence)
    • categoria (categoria(s) de EM)
    • tipo (subcategoria de EM)
    • docid (documento da CD)
    • variante (país de origem do texto, o valor do campo ORIGEM)
    • genero (género textual)
    • morf (classificação morfológica na CD)
    • prem (posição relativa na EM),
    • abstraccao, acontecimento, coisa, local, obra, organizacao, pessoa, tempo, valor, variado (subcategoria de EM)

    Versão do corpo

    Corpus Colecção Dourada do HAREM, a partir das versões das CD do Primeiro HAREM de 2007, anotado em 3 de Maio de 2010, criado a 15 de Maio de 2010, versão 3.2

    Excerto do corpo


    <DOC docid=HAREM-871-07800 genero=Web origem=PT>
    <TEXTO TAM=279>
    <p> <s frag> <EM TAM=1> <ORGANIZACAO TIPO="INSTITUICAO" MORF="F,S"> Abraço
    </ORGANIZACAO> </EM> Página Principal </s> </p>
    <p> <s frag> <EM TAM=9> <ORGANIZACAO TIPO="INSTITUICAO" MORF="F,S"> ASSOCIAÇÃO DE APOIO A
    PESSOAS COM VIH / SIDA </ORGANIZACAO> </EM> </s> </p>
    <p> <s> A <EM TAM=1> <ORGANIZACAO TIPO="INSTITUICAO" MORF="F,S"> ABRAÇO </ORGANIZACAO>
    </EM> é uma <EM TAM=5> <ORGANIZACAO TIPO="INSTITUICAO" MORF="F,S"> Instituição Particular de Solidariedade Social </ORGANIZACAO> </EM> . </s>
    <s frag> Organização não governamental sem fins lucrativos de prestação de serviços </s> </p> <p> <s> na área da <EM TAM=1> <ABSTRACCAO
    TIPO="ESTADO" MORF="F,S"> SIDA </ABSTRACCAO> </EM>
    . </s> </p>
    <p> <s frag> Foi constituída por escritura pública em <EM TAM=3> <TEMPO TIPO="DATA"> Junho de 1992 </TEMPO> </EM> , ...

    Dados quantitativos

    Corpo CDHAREM Número de formasNúmero de tipos
    Unidades 29000131214
    Total de palavras 22576630985
    Palavras em minúscula 16561719241
    Palavras com inicial maiúscula327377956
    Palavras todas em maiúsculas 14001046
    Números 2887564
    Palavras com números12383
    Palavras mistas14995
    Pontuação15197229

    Número de unidades estruturais

    Atributo Número
    DOC 386
    TEXTO 386
    LOCAL 3494
    ORGANIZACAO 2621
    VALOR 1153
    COISA 640
    ACONTECIMENTO 501
    OBRA 863
    PESSOA 4014
    TEMPO 1970
    ABSTRACCAO 1195
    VARIADO 54
    OUTRO 110
    p 7262
    s 12530
    ALT 533
    EM 15908
    mwe 3913

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 12178 22866
    Locuções 3913 8318
    Palavras gráficas 225766 225766
    Palavras simples 194582 194582
    Palavras 210673 225766

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 45363 23,31%
    Verbos V.* 30984 15,92%
    Adjectivos ADJ.* 12191 6,27%
    Pronomes pessoais .*PERS.* 5198 2,67%
    Preposições PRP.* 35007 17,99%
    Conjunções K.* 10098 5,19%
    Advérbios ADV.* 13231 6,80%
    Determinantes .*DET.* 38627 19,85%
    Especificadores .*SPEC.* 3841 1,97%
    Numerais NUM.* 4667 2,40%

    Para informação sobre como foram obtidos este valores, consulte esta página

  • [ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


    Última atualização: 08 de Junho de 2014
    Perguntas, comentários e sugestões