O DHBB como corpo linguístico

Nesta página apresenta-se o DHBB como corpo linguístico, acessível através do AC/DC, após uma breve introdução ao seu conteúdo.

Introdução ao material

Os três dicionários histórico-biográficos foram concebidos em sua origem com o propósito básico de prover aos estudiosos e demais interessados na história do Brasil, informações sistematizadas sobre personagens e temas considerados relevantes do período e contexto ao qual se referem. Cada um deles é constituído por uma seleção de verbetes cuja produção e curadoria é de responsabilidade do Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas.

No plano biográfico encontramos os ocupantes dos mais relevantes cargos políticos e de repercussão política, assim como participantes de episódios marcantes - presidentes da República, vice-presidentes, governadores, ministros de Estado, senadores, deputados, comandantes das forças armadas, embaixadores, presidentes das mais importantes federações, confederações de empregados e empregadores, jornalistas mais destacados, religiosos e presidentes de partidos políticos. No plano temático, encontramos os partidos políticos e as organizações e movimentos políticos, os principais acontecimentos histórico-políticos, as constituintes, constituições, alguns destacados decretos, leis e códigos; correntes e conceitos básicos da história política; as instituições econômicas e administrativas de maior repercussão no cenário nacional; as mais importantes organizações de trabalhadores e empresários; os jornais e revistas de impacto nacional, principais emissoras de rádio e televisão.

Apenas o Dicionário Histórico-Biográfico Brasileiro (DHBB) encontra-se aberto e integralmente disponível para consulta no portal do CPDOC (https://cpdoc.fgv.br/acervo/dhbb). Os demais podem ser obtidos através da editora da FGV (https://editora.fgv.br/)

Incorporada à Linguateca em 2018/2019, o objetivo é que a coleção possa ser interrogada através da linguagem CQP (Corpus Query Processor) e disponibilizada para treino, teste ou validação de sistemas que trabalham com processamento de linguagem natural, nas mais variadas formas. Trata-se portanto de um trabalho em progresso, que esperamos ajude a aprimorar as ferramentas criadas pela comunidade.

Levantamento do recurso

Além de ser acessível através da interface do AC/DC, aqui, também se pode obter o corpo no formato AC/DC, com uma unidade por linha:

Perguntas já respondidas

Aqui pode consultar uma lista de perguntas já respondidas, desenvolvida por Suemi Higuchi, e que poderá ser atualizada com base em futuras perguntas que recebamos: Perguntas já respondidas, versão 3.0.

Processamento aplicado aos dicionários contidos no corpo DHBB

A primeira tarefa é obter um identificador para cada verbete, na forma nome do dicionário seguido do nome do arquivo (que é um número inteiro). Essas listas encontram-se acessíveis para o DHBB, para o DHBPR e para o DPRRJ.

A segunda tarefa é criar um corpo em formato pseudo-xml, com a identificação de cada texto integrada no atributo estrutural <texto, com o atributo id identificando o número do verbete, e os textos separados em parágrafos e frases.

Depois o corpo é passado pela "linha de montagem" comum do projeto AC/DC, fazendo análise sintáctica e semântica.

O processamento específic do DHBB tem duas partes

  1. A marcação dos verbetados também no texto livre, não só aqueles casos em que o nome completo é empregue, mas também a identificação de outras formas de referência. Esste trabalho é feito com base numa lista de correspondências compilada por Suemi Higuchi, na forma "Nome padrão do verbetado -> Lema identificado pelo PALAVRAS, contendo outra designação, por vezes apenas num verbeto específico (depois de fonte=)".
    Aécio Neves da Cunha -> Aécio=Neves
    
    Afonso Augusto Moreira Pena Júnior -> Afonso=Pena=Júnior
    
    Lindolfo Leopoldo Boekel Collor -> Collor       fonte="Lindolfo Leopoldo Boekel Collor"
    
    
    
    A partir deste passo, todos os nomes próprios identificados como políticos brasileiros têm o seu identificador na coluna/atributo entidade. "NS" significa desconhecido.
  2. A correção de alguns lemas e/ou classificações, a partir de listas manualmente compiladas por Suemi Higuchi. Esse passo é efetuado logo a seguir à anotação do PALAVRAS, e executa

Quantificação da identificação dos nomes próprios

O processo de identificar qual a pessoa referida por um dado nome próprio, que designamos por "identificação" aqui (e que referimos por "grounding" em inglês) é feito de uma forma iterativa, baseada em regras, que preenchem o atributo entidade.

Na tabela que se segue apresentamos o material já tratado

Palavras pertencentes a nomes próprios humanosIdentificadosVersão do corpoRegras
404.24589.937 1.0115
404.245147.085 1.1141
404.243166.059 1.2187
478.333239.106 2.0-2.3271
478.334239.148 2.4-2.7271
478.334244.577 2.8312
483.334246.963 2.9312
481.321246.962 2.10312
735.020297.678 5.0312
735.020324.435 5.1312
735.020368.117 5.2312
743.605317.873 5.3312
744.699318.687 6.0312
747.197321.915 6.2312
748.683319.727 7.0312
748.695319.698 7.4312
758.622289.808 8.0312
758.622346.604 8.1858
758.624346.594 8.2858
743.494351.678 9.0858
892.513340.999 10.1858

As pesquisas correspondentes às duas primeiras contagens são, respetivamente:

[pos="PROP" & sema="(.*H_.*)|(.*H)"]
[pos="PROP" & sema="(.*H_.*)|(.*H)" & entidade="d.*"]


Última atualização: 27 de julho de 2024.