Os três dicionários histórico-biográficos foram concebidos em sua origem com o propósito básico de prover aos estudiosos e demais interessados na história do Brasil, informações sistematizadas sobre personagens e temas considerados relevantes do período e contexto ao qual se referem. Cada um deles é constituído por uma seleção de verbetes cuja produção e curadoria é de responsabilidade do Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas.
No plano biográfico encontramos os ocupantes dos mais relevantes cargos políticos e de repercussão política, assim como participantes de episódios marcantes - presidentes da República, vice-presidentes, governadores, ministros de Estado, senadores, deputados, comandantes das forças armadas, embaixadores, presidentes das mais importantes federações, confederações de empregados e empregadores, jornalistas mais destacados, religiosos e presidentes de partidos políticos. No plano temático, encontramos os partidos políticos e as organizações e movimentos políticos, os principais acontecimentos histórico-políticos, as constituintes, constituições, alguns destacados decretos, leis e códigos; correntes e conceitos básicos da história política; as instituições econômicas e administrativas de maior repercussão no cenário nacional; as mais importantes organizações de trabalhadores e empresários; os jornais e revistas de impacto nacional, principais emissoras de rádio e televisão.
Apenas o Dicionário Histórico-Biográfico Brasileiro (DHBB) encontra-se aberto e integralmente disponível para consulta no portal do CPDOC (https://cpdoc.fgv.br/acervo/dhbb). Os demais podem ser obtidos através da editora da FGV (https://editora.fgv.br/).
Incorporada à Linguateca em 2018/2019, o objetivo é que a coleção possa ser interrogada através da linguagem CQP (Corpus Query Processor) e disponibilizada para treino, teste ou validação de sistemas que trabalham com processamento de linguagem natural, nas mais variadas formas. Trata-se portanto de um trabalho em progresso, que esperamos ajude a aprimorar as ferramentas criadas pela comunidade.
Estrutura do corpoO corpus contém as etiquetas texto (documento), p (parágrafo) e s (frase).O atributo posicional fonte indica a que verbete cada palavra pertence (ver lista dos verbetes), enquanto o atributo posicional entidade indica, para cada nome próprio, qual a sua correspondência real, tomando como "verdade" a mesma lista. Quando ainda não foi identificado, é marcado como "NS". Se se sabe que não está no DHBB por, por exemplo, não ser político, é marcado como "NV" (não verbetado). O atributo posicional cargos tem a lista dos cargos associados a cada verbetado, com a indicação de cargo, estado pelo qual exerceu o cargo, e período temporal. O atributo posicional sexo contém m se o biografado for masculino, f se for feminino, e N/A (não aplicável) se o verbete for temático. Prevemos para breve uma classificação mais fina dos textos, com informação de datas de nascimento, assim como alguma limpeza do material. Distribuição por tipo de textoVersão do corpoCorpo DHBB, criado a 5 de julho de 2024, v. 10.1Excerto do corpo<texto id=1000.raw> <p par=1> <s> "Eduardo Henrique Accioly Campos" nasceu em Recife, no dia 10 de agosto de 1965, filho de Maximiano Accioly Campos e de Ana Lúcia Arraes de Alencar. </s> <s> Seu avô, Miguel Arraes, de quem era considerado sucessor político, foi por três vezes governador de Pernambuco (1963-1964, 1987-1990 e 1995-1998) e deputado federal durante dois mandatos (1983-1987 e 1991-1995) </s> <s> Sua mãe Ana Arraes exerceu mandato como deputada federal (2007-2010) e desde 2011 é ministra do Tribunal de Contas da União (TCU) </s> </p> ... Dados quantitativos
Número de unidades estruturais
Contabilização de multipalavras
Distribuição por categoria gramatical
Para informação sobre como foram obtidos este valores, consulte esta página |
[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]