Projeto AC/DC: corpo DHBB

AC/DC : Linguateca
O corpo Dicionário Histórico-Biográfico Brasileiro contém o material do Dicionário Histórico-Biográfico Brasileiro, referência obrigatória sobre a história do Brasil contemporâneo, concebida pelo Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas (CPDOC/FGV), somando cerca de 8 mil verbetes. Para saber mais, consulte a página oficial do Dicionário e a página sobre o DHBB no AC/DC.

Procurar:     

Resultado:
Concordância
Distribuição das formas (word)
Distribuição dos lemas (lema)
Distribuição da categoria gramatical (PoS) (pos)
Distribuição do tempo verbal e/ou do caso pronominal (temcagr)
Distribuição de pessoa e/ou número (pessnum)
Distribuição do género morfológico (gen)
Distribuição da função sintáctica (func)
Distribuição por fonte (fonte)
Distribuição por género de texto (classe)
Distribuição pelos cargos (cargos)
Distribuição pelas entidades (entidades)
Distribuição pelo sexo do entrevistado, do biografado ou do autor (sexo)
Distribuição pelo autor do verbete (autores)
Distribuição por campo semântico (sema)
Distribuição por grupo (de cor, roupa, etc.) (grupo)
Distribuição das dependências (dependencias)
Opções
Resultados por ordem alfabética (só distribuições)
Ignorar maiúsculas/minúsculas (não admite parâmetros)
Amostra aleatória de linhas.

Tipo Enciclopédico
Variante(s) BR
Tamanho (unidades) 11.0 milhões
Tamanho (palavras) 9.6 milhões

Carateres úteis: | { } [ ]
Página principal
Procure noutros corpos:
AmostRA-NILC ANCIB Avante! Corpus Brasileiro CD HAREM CETEMPúblico CHAVE Ciência Viva Colonia CONDIVport CONDIVport2 CoNE C-Oral-Brasil DHBB DiaCLAV Diáspora TL-PT ECI-EBR ECI-EE ENPCPUB (parte em português) Floresta FrasesPB FrasesPP Mariano Gago Marielle, presente! Moçambula Museu da Pessoa Natura/Minho NOBRE OBras P'lo Norte Português Falado - Documentos Autênticos ReLi NILC/São Carlos todos juntos Tycho Brahe Vercial

Estrutura do corpo

O corpus contém as etiquetas texto (documento), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que verbete cada palavra pertence (ver lista dos verbetes), enquanto o atributo posicional entidade indica, para cada nome próprio, qual a sua correspondência real, tomando como "verdade" a mesma lista. Quando ainda não foi identificado, é marcado como "NS". Se se sabe que não está no DHBB por, por exemplo, não ser político, é marcado como "NV" (não verbetado).

O atributo posicional cargos tem a lista dos cargos associados a cada verbetado, com a indicação de cargo, estado pelo qual exerceu o cargo, e período temporal.

O atributo posicional sexo contém m se o biografado for masculino, f se for feminino, e N/A (não aplicável) se o verbete for temático.

Prevemos para breve uma classificação mais fina dos textos, com informação de datas de nascimento, assim como alguma limpeza do material.

Veja um excerto do corpo e informação adicional.

Exemplo de pesquisas

Procurar: Resultado:
a palavra "eleição"[lema="eleição"]Concordância
nomes próprios contendo a palavra "Vargas" [pos="PROP.*" & word="Vargas"]Distribuição dos lemas
a corespondência de nomes próprios contendo a palavra "Vargas" [pos="PROP.*" & word="Vargas"]Distribuição pelas entidades
formas de palavras marcadas como denotando relações de parentesco [sema="parentesco.*"]Distribuição das formas
distribuição dos nomes contendo "Rio" "Rio" Distribuição dos lemas

Dados quantitativos

Para informação sobre como foram obtidos este valores, consulte a página dos Corpos

Agradecimentos

Agradecemos à Fundação Getulio Vargas a autorização para a disponibilização do recurso.

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 24 de Maio de 2018
Perguntas, comentários e sugestões