O DHBB como corpo linguístico

Nesta página apresenta-se o DHBB como corpo linguístico, acessível através do AC/DC, após uma breve introdução ao seu conteúdo.

Introdução ao material

Os três dicionários histórico-biográficos foram concebidos em sua origem com o propósito básico de prover aos estudiosos e demais interessados na história do Brasil, informações sistematizadas sobre personagens e temas considerados relevantes do período e contexto ao qual se referem. Cada um deles é constituído por uma seleção de verbetes cuja produção e curadoria é de responsabilidade do Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas.

No plano biográfico encontramos os ocupantes dos mais relevantes cargos políticos e de repercussão política, assim como participantes de episódios marcantes - presidentes da República, vice-presidentes, governadores, ministros de Estado, senadores, deputados, comandantes das forças armadas, embaixadores, presidentes das mais importantes federações, confederações de empregados e empregadores, jornalistas mais destacados, religiosos e presidentes de partidos políticos. No plano temático, encontramos os partidos políticos e as organizações e movimentos políticos, os principais acontecimentos histórico-políticos, as constituintes, constituições, alguns destacados decretos, leis e códigos; correntes e conceitos básicos da história política; as instituições econômicas e administrativas de maior repercussão no cenário nacional; as mais importantes organizações de trabalhadores e empresários; os jornais e revistas de impacto nacional, principais emissoras de rádio e televisão.

Apenas o Dicionário Histórico-Biográfico Brasileiro (DHBB) encontra-se aberto e integralmente disponível para consulta no portal do CPDOC (https://cpdoc.fgv.br/acervo/dhbb). Os demais podem ser obtidos através da editora da FGV (https://editora.fgv.br/)

Incorporada à Linguateca em 2018/2019, o objetivo é que a coleção possa ser interrogada através da linguagem CQP (Corpus Query Processor) e disponibilizada para treino, teste ou validação de sistemas que trabalham com processamento de linguagem natural, nas mais variadas formas. Trata-se portanto de um trabalho em progresso, que esperamos ajude a aprimorar as ferramentas criadas pela comunidade.

Levantamento do recurso

Além de ser acessível através da interface do AC/DC, aqui, também se pode obter o corpo no formato AC/DC, com uma unidade por linha:

Perguntas já respondidas

Aqui pode consultar uma lista de perguntas já respondidas, desenvolvida por Suemi Higuchi, e que poderá ser atualizada com base em futuras perguntas que recebamos: Perguntas já respondidas, versão 3.0.

Processamento aplicado aos dicionários contidos no corpo DHBB

A primeira tarefa é obter um identificador para cada verbete, na forma nome do dicionário seguido do nome do arquivo (que é um número inteiro). Essas listas encontram-se acessíveis para o DHBB, para o DHBPR e para o DPRRJ.

A segunda tarefa é criar um corpo em formato pseudo-xml, com a identificação de cada texto integrada no atributo estrutural <texto, com o atributo id identificando o número do verbete, e os textos separados em parágrafos e frases.

Depois o corpo é passado pela "linha de montagem" comum do projeto AC/DC, fazendo análise sintáctica e semântica.

O processamento específic do DHBB tem duas partes

A marcação dos verbetados também no texto livre, não só aqueles casos em que o nome completo é empregue, mas também a identificação de outras formas de referência. Esste trabalho é feito com base numa lista de correspondências compilada por Suemi Higuchi, na forma "Nome padrão do verbetado -> Lema identificado pelo PALAVRAS, contendo outra designação, por vezes apenas num verbeto específico (depois de fonte=)".
```
Aécio Neves da Cunha -> Aécio=Neves

Afonso Augusto Moreira Pena Júnior -> Afonso=Pena=Júnior

Lindolfo Leopoldo Boekel Collor -> Collor       fonte="Lindolfo Leopoldo Boekel Collor"
```
A partir deste passo, todos os nomes próprios identificados como políticos brasileiros têm o seu identificador na coluna/atributo entidade. "NS" significa desconhecido.
A correção de alguns lemas e/ou classificações, a partir de listas manualmente compiladas por Suemi Higuchi. Esse passo é efetuado logo a seguir à anotação do PALAVRAS, e executa
- modificação da classificação organização para outras categorias (formulação política, documento, evento, local, pessoa)
- remoção de marca de organização simplesmente

Quantificação da identificação dos nomes próprios

O processo de identificar qual a pessoa referida por um dado nome próprio, que designamos por "identificação" aqui (e que referimos por "grounding" em inglês) é feito de uma forma iterativa, baseada em regras, que preenchem o atributo entidade.

Na tabela que se segue apresentamos o material já tratado

Palavras pertencentes a nomes próprios humanos Identificados Versão do corpo Regras

404.245 89.937 1.0 115

404.245 147.085 1.1 141

404.243 166.059 1.2 187

478.333 239.106 2.0-2.3 271

478.334 239.148 2.4-2.7 271

478.334 244.577 2.8 312

483.334 246.963 2.9 312

481.321 246.962 2.10 312

735.020 297.678 5.0 312

735.020 324.435 5.1 312

735.020 368.117 5.2 312

743.605 317.873 5.3 312

744.699 318.687 6.0 312

747.197 321.915 6.2 312

748.683 319.727 7.0 312

748.695 319.698 7.4 312

758.622 289.808 8.0 312

758.622 346.604 8.1 858

758.624 346.594 8.2 858

743.494 351.678 9.0 858

892.513 340.999 10.1 858

Palavras pertencentes a nomes próprios humanos	Identificados	Versão do corpo	Regras
404.245	89.937	1.0	115
404.245	147.085	1.1	141
404.243	166.059	1.2	187
478.333	239.106	2.0-2.3	271
478.334	239.148	2.4-2.7	271
478.334	244.577	2.8	312
483.334	246.963	2.9	312
481.321	246.962	2.10	312
735.020	297.678	5.0	312
735.020	324.435	5.1	312
735.020	368.117	5.2	312
743.605	317.873	5.3	312
744.699	318.687	6.0	312
747.197	321.915	6.2	312
748.683	319.727	7.0	312
748.695	319.698	7.4	312
758.622	289.808	8.0	312
758.622	346.604	8.1	858
758.624	346.594	8.2	858
743.494	351.678	9.0	858
892.513	340.999	10.1	858

As pesquisas correspondentes às duas primeiras contagens são, respetivamente:

[pos="PROP" & sema="(.*H_.*)|(.*H)"]
[pos="PROP" & sema="(.*H_.*)|(.*H)" & entidade="d.*"]

Última atualização: 27 de julho de 2024.