Acesso a corpos de português: Projecto AC/DC: corpo DHBB

DHBB : AC/DC : Linguateca
O corpo Dicionários Históricos Brasileiros contém o material de três obras de referência concebidas pelo Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas (CPDOC/FGV): (1) o Dicionário histórico-biográfico da Primeira República (DHBPR), com dados sobre o período que vai da Proclamação da República, em 1889, até a Revolução de 1930; (2) o Dicionário Histórico-Biográfico Brasileiro (DHBB), sobre o período pós-1930 até os dias atuais; e (3) o Dicionário da política republicana do Rio de Janeiro (DPRRJ), sobre a história do estado e da cidade do Rio de Janeiro desde a Proclamação da República. Para saber mais, consulte a página sobre este corpo no AC/DC.

Os três dicionários histórico-biográficos foram concebidos em sua origem com o propósito básico de prover aos estudiosos e demais interessados na história do Brasil, informações sistematizadas sobre personagens e temas considerados relevantes do período e contexto ao qual se referem. Cada um deles é constituído por uma seleção de verbetes cuja produção e curadoria é de responsabilidade do Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas.

No plano biográfico encontramos os ocupantes dos mais relevantes cargos políticos e de repercussão política, assim como participantes de episódios marcantes - presidentes da República, vice-presidentes, governadores, ministros de Estado, senadores, deputados, comandantes das forças armadas, embaixadores, presidentes das mais importantes federações, confederações de empregados e empregadores, jornalistas mais destacados, religiosos e presidentes de partidos políticos. No plano temático, encontramos os partidos políticos e as organizações e movimentos políticos, os principais acontecimentos histórico-políticos, as constituintes, constituições, alguns destacados decretos, leis e códigos; correntes e conceitos básicos da história política; as instituições econômicas e administrativas de maior repercussão no cenário nacional; as mais importantes organizações de trabalhadores e empresários; os jornais e revistas de impacto nacional, principais emissoras de rádio e televisão.

Apenas o Dicionário Histórico-Biográfico Brasileiro (DHBB) encontra-se aberto e integralmente disponível para consulta no portal do CPDOC (https://cpdoc.fgv.br/acervo/dhbb. Os demais podem ser obtidos através da editora da FGV (https://editora.fgv.br/)

Incorporada à Linguateca em 2018/2019, o objetivo é que a coleção possa ser interrogada através da linguagem CQP (Corpus Query Processor) e disponibilizada para treino, teste ou validação de sistemas que trabalham com processamento de linguagem natural, nas mais variadas formas. Trata-se portanto de um trabalho em progresso, que esperamos ajude a aprimorar as ferramentas criadas pela comunidade.

Estrutura do corpo

O corpus contém as etiquetas texto (documento), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que verbete cada palavra pertence (ver lista dos verbetes), enquanto o atributo posicional entidade indica, para cada nome próprio, qual a sua correspondência real, tomando como "verdade" a mesma lista. Quando ainda não foi identificado, é marcado como "NS". Se se sabe que não está no DHBB por, por exemplo, não ser político, é marcado como "NV" (não verbetado).

O atributo posicional cargos tem a lista dos cargos associados a cada verbetado, com a indicação de cargo, estado pelo qual exerceu o cargo, e período temporal.

O atributo posicional sexo contém m se o biografado for masculino, f se for feminino, e N/A (não aplicável) se o verbete for temático.

Prevemos para breve uma classificação mais fina dos textos, com informação de datas de nascimento, assim como alguma limpeza do material.

Distribuição por tipo de texto

Versão do corpo

Corpus DHBB, criado em 9 de julho de 2019, v. 3.0

Excerto do corpo


<texto id=1000.raw>
<p par=1> <s> "Eduardo Henrique Accioly Campos" nasceu em Recife, no dia 10 de agosto de 1965, filho de Maximiano Accioly Campos e de Ana Lúcia Arraes de Alencar. </s>
<s> Seu avô, Miguel Arraes, de quem era considerado sucessor político, foi por três vezes governador de Pernambuco (1963-1964, 1987-1990 e 1995-1998) e deputado federal durante dois mandatos (1983-1987 e 1991-1995) </s>
<s> Sua mãe Ana Arraes exerceu mandato como deputada federal (2007-2010) e desde 2011 é ministra do Tribunal de Contas da União (TCU) </s>
</p>
...

Dados quantitativos

Corpo DHBB Número de formasNúmero de tipos
Unidades 15775385126624
Total de palavras 13874470121460
Palavras em minúscula 929647755216
Palavras com inicial maiúscula241640140011
Palavras todas em maiúsculas 1696314445
Números 3798091202
Palavras com números843411
Palavras mistas11829844
Pontuação6259764977

Número de unidades estruturais

Atributo Número
p 11894
s 458279
texto 11892
t 0
mwe 155229

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 1069803 1620
Locuções 155229 336058
Palavras gráficas 13874470 13874470
Palavras simples 13536792 13536792
Palavras 14761824 13874470

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 2741883 20,26%
Verbos V.* 1373109 10,14%
Adjectivos ADJ.* 712917 5,27%
Pronomes pessoais .*PERS.* 151486 1,12%
Preposições PRP.* 2946176 21,76%
Conjunções K.* 411522 3,04%
Advérbios ADV.* 332954 2,46%
Determinantes .*DET.* 2291560 16,93%
Especificadores .*SPEC.* 146151 1,08%
Numerais NUM.* 475692 3,51%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 12 de Julho de 2019
Perguntas, comentários e sugestões