Os três dicionários histórico-biográficos foram concebidos em sua origem com o propósito básico de prover aos estudiosos e demais interessados na história do Brasil, informações sistematizadas sobre personagens e temas considerados relevantes do período e contexto ao qual se referem. Cada um deles é constituído por uma seleção de verbetes cuja produção e curadoria é de responsabilidade do Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas.
No plano biográfico encontramos os ocupantes dos mais relevantes cargos políticos e de repercussão política, assim como participantes de episódios marcantes - presidentes da República, vice-presidentes, governadores, ministros de Estado, senadores, deputados, comandantes das forças armadas, embaixadores, presidentes das mais importantes federações, confederações de empregados e empregadores, jornalistas mais destacados, religiosos e presidentes de partidos políticos. No plano temático, encontramos os partidos políticos e as organizações e movimentos políticos, os principais acontecimentos histórico-políticos, as constituintes, constituições, alguns destacados decretos, leis e códigos; correntes e conceitos básicos da história política; as instituições econômicas e administrativas de maior repercussão no cenário nacional; as mais importantes organizações de trabalhadores e empresários; os jornais e revistas de impacto nacional, principais emissoras de rádio e televisão.
Apenas o Dicionário Histórico-Biográfico Brasileiro (DHBB) encontra-se aberto e integralmente disponível para consulta no portal do CPDOC (https://cpdoc.fgv.br/acervo/dhbb). Os demais podem ser obtidos através da editora da FGV (https://editora.fgv.br/)
Incorporada à Linguateca em 2018/2019, o objetivo é que a coleção possa ser interrogada através da linguagem CQP (Corpus Query Processor) e disponibilizada para treino, teste ou validação de sistemas que trabalham com processamento de linguagem natural, nas mais variadas formas. Trata-se portanto de um trabalho em progresso, que esperamos ajude a aprimorar as ferramentas criadas pela comunidade.
A segunda tarefa é criar um corpo em formato pseudo-xml, com a identificação de cada texto integrada no atributo estrutural <texto, com o atributo id identificando o número do verbete, e os textos separados em parágrafos e frases.
Depois o corpo é passado pela "linha de montagem" comum do projeto AC/DC, fazendo análise sintáctica e semântica.
O processamento específic do DHBB tem duas partes
Aécio Neves da Cunha -> Aécio=Neves Afonso Augusto Moreira Pena Júnior -> Afonso=Pena=Júnior Lindolfo Leopoldo Boekel Collor -> Collor fonte="Lindolfo Leopoldo Boekel Collor"A partir deste passo, todos os nomes próprios identificados como políticos brasileiros têm o seu identificador na coluna/atributo entidade. "NS" significa desconhecido.
Na tabela que se segue apresentamos o material já tratado
| Palavras pertencentes a nomes próprios humanos | Identificados | Versão do corpo | Regras |
|---|---|---|---|
| 404.245 | 89.937 | 1.0 | 115 |
| 404.245 | 147.085 | 1.1 | 141 |
| 404.243 | 166.059 | 1.2 | 187 |
| 478.333 | 239.106 | 2.0-2.3 | 271 |
| 478.334 | 239.148 | 2.4-2.7 | 271 |
| 478.334 | 244.577 | 2.8 | 312 |
| 483.334 | 246.963 | 2.9 | 312 |
| 481.321 | 246.962 | 2.10 | 312 |
| 735.020 | 297.678 | 5.0 | 312 |
| 735.020 | 324.435 | 5.1 | 312 |
| 735.020 | 368.117 | 5.2 | 312 |
| 743.605 | 317.873 | 5.3 | 312 |
| 744.699 | 318.687 | 6.0 | 312 |
| 747.197 | 321.915 | 6.2 | 312 |
| 748.683 | 319.727 | 7.0 | 312 |
| 748.695 | 319.698 | 7.4 | 312 |
| 758.622 | 289.808 | 8.0 | 312 |
| 758.622 | 346.604 | 8.1 | 858 |
| 758.624 | 346.594 | 8.2 | 858 |
| 743.494 | 351.678 | 9.0 | 858 |
| 892.513 | 340.999 | 10.1 | 858 |
As pesquisas correspondentes às duas primeiras contagens são, respetivamente:
[pos="PROP" & sema="(.*H_.*)|(.*H)"] [pos="PROP" & sema="(.*H_.*)|(.*H)" & entidade="d.*"]