Projeto AC/DC: corpo DHBB

AC/DC : Linguateca
O corpo Dicionários Históricos Brasileiros contém o material de três obras de referência concebidas pelo Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas (CPDOC/FGV): (1) o Dicionário histórico-biográfico da Primeira República (DHBPR), com dados sobre o período que vai da Proclamação da República, em 1889, até a Revolução de 1930; (2) o Dicionário Histórico-Biográfico Brasileiro (DHBB), sobre o período pós-1930 até os dias atuais; e (3) o Dicionário da política republicana do Rio de Janeiro (DPRRJ), sobre a história do estado e da cidade do Rio de Janeiro desde a Proclamação da República. Para saber mais, consulte a página sobre este corpo no AC/DC.

Procurar:     

Resultado:
Concordância
Distribuição das formas (word)
Distribuição dos lemas (lema)
Distribuição da categoria gramatical (PoS) (pos)
Distribuição do tempo verbal e/ou do caso pronominal (temcagr)
Distribuição de pessoa e/ou número (pessnum)
Distribuição do género morfológico (gen)
Distribuição da função sintáctica (func)
Distribuição por fonte (fonte)
Distribuição por género de texto (classe)
Distribuição pelos cargos (cargos)
Distribuição pelas entidades (entidades)
Distribuição pelo sexo do entrevistado, do biografado ou do autor (sexo)
Distribuição pelo autor do verbete (autores)
Distribuição pelo dicionário (dicionario)
Distribuição por campo semântico (sema)
Distribuição por grupo (de cor, roupa, etc.) (grupo)
Distribuição das dependências (dependencias)
Opções
Resultados por ordem alfabética (só distribuições)
Resultados em formato separado por ponto e vírgula
Ignorar maiúsculas/minúsculas (não admite parâmetros)
Fazer nuvem com limite de
Amostra aleatória de linhas.

Tipo Enciclopédico
Variante(s) BR
Tamanho (unidades) 15.8 milhões
Tamanho (palavras) 13.9 milhões

Carateres úteis: | { } [ ]
Página principal
Procure noutros corpos:
AmostRA-NILC ANCIB Avante! Corpus Brasileiro CD HAREM CETEMPúblico CHAVE Ciência Viva Colonia CONDIVport CONDIVport2 CoNE C-Oral-Brasil DHBB DiaCLAV Diáspora TL-PT ECI-EBR ECI-EE ENPCPUB (parte em português) Floresta FrasesPB FrasesPP Mariano Gago Literateca Marielle, presente! Moçambula Museu da Pessoa Natura/Minho NOBRE OBras PANTERA, lado português P'lo Norte Português Falado - Documentos Autênticos ReLi NILC/São Carlos todos juntos Tycho Brahe Vercial

Estrutura do corpo

O corpus contém as etiquetas texto (documento), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que verbete cada palavra pertence (ver lista dos verbetes), enquanto o atributo posicional entidade indica, para cada nome próprio, qual a sua correspondência real, tomando como "verdade" a mesma lista. Quando ainda não foi identificado, é marcado como "NS". Se se sabe que não está no DHBB por, por exemplo, não ser político, é marcado como "NV" (não verbetado).

O atributo posicional cargos tem a lista dos cargos associados a cada verbetado, com a indicação de cargo, estado pelo qual exerceu o cargo, e período temporal.

O atributo posicional sexo contém m se o biografado for masculino, f se for feminino, e N/A (não aplicável) se o verbete for temático.

Prevemos para breve uma classificação mais fina dos textos, com informação de datas de nascimento, assim como alguma limpeza do material.

Veja um excerto do corpo e informação adicional.

Exemplo de pesquisas

Procurar: Resultado:
a palavra "eleição"[lema="eleição"]Concordância
nomes próprios contendo a palavra "Vargas" [pos="PROP.*" & word="Vargas"]Distribuição dos lemas
a corespondência de nomes próprios contendo a palavra "Vargas" [pos="PROP.*" & word="Vargas"]Distribuição pelas entidades
formas de palavras marcadas como denotando laços de família [sema=".*familia:lacos.*"]Distribuição das formas
distribuição dos nomes contendo "Rio" "Rio" Distribuição dos lemas

Dados quantitativos

Para informação sobre como foram obtidos este valores, consulte a página dos Corpos

Agradecimentos

Agradecemos à Fundação Getulio Vargas a autorização para a disponibilização do recurso.

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 18 de Outubro de 2019
Perguntas, comentários e sugestões