O DHBB como corpo linguístico

Nesta página apresenta-se o DHBB como corpo linguístico, acessível através do AC/DC, após uma breve introdução ao seu conteúdo.

Introdução ao material

Os três dicionários histórico-biográficos foram concebidos em sua origem com o propósito básico de prover aos estudiosos e demais interessados na história do Brasil, informações sistematizadas sobre personagens e temas considerados relevantes do período e contexto ao qual se referem. Cada um deles é constituído por uma seleção de verbetes cuja produção e curadoria é de responsabilidade do Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas.

No plano biográfico encontramos os ocupantes dos mais relevantes cargos políticos e de repercussão política, assim como participantes de episódios marcantes - presidentes da República, vice-presidentes, governadores, ministros de Estado, senadores, deputados, comandantes das forças armadas, embaixadores, presidentes das mais importantes federações, confederações de empregados e empregadores, jornalistas mais destacados, religiosos e presidentes de partidos políticos. No plano temático, encontramos os partidos políticos e as organizações e movimentos políticos, os principais acontecimentos histórico-políticos, as constituintes, constituições, alguns destacados decretos, leis e códigos; correntes e conceitos básicos da história política; as instituições econômicas e administrativas de maior repercussão no cenário nacional; as mais importantes organizações de trabalhadores e empresários; os jornais e revistas de impacto nacional, principais emissoras de rádio e televisão.

Apenas o Dicionário Histórico-Biográfico Brasileiro (DHBB) encontra-se aberto e integralmente disponível para consulta no portal do CPDOC (https://cpdoc.fgv.br/acervo/dhbb. Os demais podem ser obtidos através da editora da FGV (https://editora.fgv.br/)

Incorporada à Linguateca em 2018/2019, o objetivo é que a coleção possa ser interrogada através da linguagem CQP (Corpus Query Processor) e disponibilizada para treino, teste ou validação de sistemas que trabalham com processamento de linguagem natural, nas mais variadas formas. Trata-se portanto de um trabalho em progresso, que esperamos ajude a aprimorar as ferramentas criadas pela comunidade.

Levantamento do recurso

Além de ser acessível através da interface do AC/DC, aqui, também se pode obter o corpo no formato AC/DC, com uma unidade por linha:

Perguntas já respondidas

Aqui pode consultar uma lista de perguntas já respondidas, desenvolvida por Suemi Higuchi, e que poderá ser atualizada com base em futuras perguntas que recebamos: Perguntas já respondidas, versão 1.0.

Quantificação da identificação dos nomes próprios

O processo de identificar qual a pessoa referida por um dado nome próprio, que designamos por "identificação" aqui (e que referimos por "grounding" em inglês) é feito de uma forma iterativa, baseada em regras, que preenchem o atributo entidade.

Na tabela que se segue apresentamos o material já tratado:

Palavras pertencentes a nomes próprios humanosIdentificadosVersão do corpoRegras
404.24589.937 1.0115
404.245147.085 1.1141
404.243166.059 1.2187
478.333239.106 2.0-2.3271
478.334239.148 2.4-2.7271
478.334244.577 2.8312
483.334246.963 2.9312
481.321246.962 2.10312


Última atualização: 3 de março de 2019.