Acesso a corpos de português: Projecto AC/DC: corpo DHBB

DHBB : AC/DC : Linguateca
O corpo Dicionário Histórico-Biográfico Brasileiro contém o material do Dicionário Histórico-Biográfico Brasileiro, referência obrigatória sobre a história do Brasil contemporâneo, concebida pelo Centro de Pesquisa e Documentação de História Contemporânea do Brasil da Fundação Getulio Vargas (CPDOC/FGV), somando cerca de 8 mil verbetes. Para saber mais, consulte a página oficial do Dicionário e a página sobre o DHBB no AC/DC. O Dicionário Histórico-Biográfico Brasileiro foi lançado em 1984, oferecendo aos interessados e estudiosos informações organizadas e sistematizadas que nenhum outro trabalho, por si só, havia reunido até então.

Constitui uma importante experiência de democratização do conhecimento (quando o acesso à internet ainda não era generalizado), colocando ao alcance da sociedade dados que até então eram monopólio de especialistas. Integram o Dicionário biografias de personalidades que se destacaram no mundo político-administrativo e em episódios marcantes da história nacional do Brasil. Além de biografias, são contemplados verbetes temáticos sobre partidos políticos, movimentos, eventos, organizações e outros temas que dominaram a história brasileira pós-30.

O DHBB é fruto do trabalho de equipes que reuniram numerosos pesquisadores e colaboradores. As suas sucessivas edições apenas comprovam o princípio de que todo dicionário é uma obra provisória, submetida a revisões e atualizações permanentes.

Estrutura do corpo

O corpus contém as etiquetas texto (documento), p (parágrafo) e s (frase).

O atributo posicional fonte indica a que verbete cada palavra pertence (ver lista dos verbetes), enquanto o atributo posicional entidade indica, para cada nome próprio, qual a sua correspondência real, tomando como "verdade" a mesma lista. Quando ainda não foi identificado, é marcado como "NS". Se se sabe que não está no DHBB por, por exemplo, não ser político, é marcado como "NV" (não verbetado).

O atributo posicional cargos tem a lista dos cargos associados a cada verbetado, com a indicação de cargo, estado pelo qual exerceu o cargo, e período temporal.

O atributo posicional sexo contém m se o biografado for masculino, f se for feminino, e N/A (não aplicável) se o verbete for temático.

Prevemos para breve uma classificação mais fina dos textos, com informação de datas de nascimento, assim como alguma limpeza do material.

Distribuição por tipo de texto

Versão do corpo

Corpus DHBB, criado em 3 de março de 2019, v. 2.9

Excerto do corpo


<texto id=1000.raw>
<p par=1> <s> "Eduardo Henrique Accioly Campos" nasceu em Recife, no dia 10 de agosto de 1965, filho de Maximiano Accioly Campos e de Ana Lúcia Arraes de Alencar. </s>
<s> Seu avô, Miguel Arraes, de quem era considerado sucessor político, foi por três vezes governador de Pernambuco (1963-1964, 1987-1990 e 1995-1998) e deputado federal durante dois mandatos (1983-1987 e 1991-1995) </s>
<s> Sua mãe Ana Arraes exerceu mandato como deputada federal (2007-2010) e desde 2011 é ministra do Tribunal de Contas da União (TCU) </s>
</p>
...

Dados quantitativos

Corpo DHBB Número de formasNúmero de tipos
Unidades 10952743114006
Total de palavras 9629828109802
Palavras em minúscula 644813850344
Palavras com inicial maiúscula167284635890
Palavras todas em maiúsculas 1300004061
Números 2628221112
Palavras com números452234
Palavras mistas9269945
Pontuação4497904073

Número de unidades estruturais

Atributo Número
p 7687
s 314158
texto 7685
t 0
mwe 106902

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 755750 1299
Locuções 106902 230685
Palavras gráficas 9629828 9629828
Palavras simples 9397844 9397844
Palavras 10260496 9629828

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1912162 20,35%
Verbos V.* 941057 10,01%
Adjectivos ADJ.* 489553 5,21%
Pronomes pessoais .*PERS.* 104661 1,11%
Preposições PRP.* 2070238 22,03%
Conjunções K.* 281913 3,00%
Advérbios ADV.* 224909 2,39%
Determinantes .*DET.* 1591382 16,93%
Especificadores .*SPEC.* 100600 1,07%
Numerais NUM.* 328917 3,50%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 10 de Março de 2019
Perguntas, comentários e sugestões