Acesso a corpos de português: Projecto AC/DC: corpo Floresta

Floresta : AC/DC : Linguateca
O corpo FLORESTA contém o material anotado criado no âmbito do projecto Floresta Sintá(c)tica , em particular o Bosque, a Floresta Virgem e a Amazónia. Informação detalhada sobre o conteúdo textual encontra-se aqui

Estrutura do corpo

  • Atributos estruturais:
    • ext (delimitador de texto/excerto)
    • s (delimitador de frase)
  • Atributos posicionais:
    • variante (país de origem do texto)
    • id (identificador do texto)

    Versão do corpo

    Corpus Floresta, a partir do material da Floresta de Junho de 2010, anotado semanticamente a 22 de Junho de 2013, v. 2.5

    Excerto do corpo


    <s id=4036-22 texto="Veja o sumário em Segue, abaixo, o editorial da presente edição:">
    Veja [ver] <nosubj> <cjt-head> <fmc> <mv> V PR 1/3S SUBJ VFIN @FS-STA #1->0
    o [o] <artd> DET M S @>N #2->3
    sumário [sumário] <np-def> <sem-r> N M S @<ACC #3->1
    em [em] PRP @<OA #4->1
    Segue [seguir] <nosubj> <cjt> <fmc> <mv> V PR 3S IND VFIN @FS-STA #5->1
    $, #6->0
    abaixo [abaixo] ADV @<ADVL #7->5
    $, #8->0
    o [o] <artd> DET M S @>N #9->10
    editorial [editorial] <np-def> <sem-r> N M S @PRED> #10->0
    de [de] <sam-> <np-close> PRP @N< #11->10
    a [o] <artd> <-sam> DET F S @>N #12->14
    presente [presente] ADJ F S @>N #13->14
    edição [edição] <np-def> <act> N F S @P< #14->11
    $: #15->0

    </s>

    Dados quantitativos

    Corpo FLORESTA Número de formasNúmero de tipos
    Unidades 7252530182669
    Total de palavras 6046536179536
    Palavras em minúscula 452998488948
    Palavras com inicial maiúscula73825558232
    Palavras todas em maiúsculas 279753959
    Números 504011606
    Palavras com números3760935
    Palavras mistas58142248
    Pontuação3213013132

    Número de unidades estruturais

    Atributo Número
    ext 24398
    s 326667
    mwe 103159

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 284084 503417
    Locuções 103159 217445
    Palavras gráficas 6046536 6046536
    Palavras simples 5325674 5325674
    Palavras 5712917 6046536

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1238732 23,26%
    Verbos V.* 846993 15,90%
    Adjectivos ADJ.* 350522 6,58%
    Pronomes pessoais .*PERS.* 117329 2,20%
    Preposições PRP.* 958823 18,00%
    Conjunções K.* 272888 5,12%
    Advérbios ADV.* 325270 6,11%
    Determinantes .*DET.* 1036508 19,46%
    Especificadores .*SPEC.* 106992 2,01%
    Numerais NUM.* 99122 1,86%

    Para informação sobre como foram obtidos este valores, consulte esta página

  • [ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


    Última atualização: 08 de Junho de 2014
    Perguntas, comentários e sugestões