Acesso a corpos de português: Projecto AC/DC: corpo DisPR

DisPR : AC/DC : Linguateca
O corpo DisPR é um corpo de discursos de Presidentes da República (portugueses e brasileiros) que contém o corpo PRAbril, o corpo PRPosse, e os discursos inaugurais do BrPoliCorpus. O PRAbril, criado por um grupo de investigadores do Centro de Estudos Humanísticos da Universidade do Minho (CEHUM) e do Centro de Linguística da Universidade do Porto (CLUP), reúne os discursos dos presidentes da República (portuguesa) nas comemorações do 25 de Abril desde 1977 até 2024. O corpo PRPosse, criado pela investigadora do CEHUM Micaela Aguiar, no âmbito da sua dissertação de doutoramento (SFRH/BD/117408/2016), reúne os discursos de tomada de posse dos presidentes nos cem anos da República Portuguesa (1911-2011), e vem sendo atualizado até à data presente. O BrPoliCorpus, criado por Rodrigo Esteves de Lima-Lopes, contém os discursos inaugurais de todos os presidentes brasileiros, de Deodoro da Fonseca em 1889 a Lula em 2023.

A recolha do material do PRABril foi iniciada no âmbito de um projeto intitulado O discurso do Presidente. 100 anos de discursos presidenciais em Portugal, tendo sido depois segmentado e concluído para a publicação do livro Vozes que moldam Abril - Os discursos presidenciais na celebração da revolução , publicado no âmbito dos 50 anos do 25 de Abril.

A equipa de investigação é constituída pelos seguintes elementos:

Mais informação sobre a constituição do PRAbril encontra-se aqui. Também podem ser consultados os metadados do PRAbril.

Quanto ao PRPosse, foi compilado no âmbito da tese de doutoramento Imagens presidenciais nos discursos de tomada de posse nos cem anos da República Portuguesa de Micaela Aguiar (PRPosse 1.0). Em 17 de dezembro de 2024, foi lançado o PRPosse 2.0, incluindo os discursos de tomada de posse de Marcelo Rebelo de Sousa de 2016 e de 2021.

Mais informação sobre a constituição do PRPosse encontra-se aqui. Também podem ser consultados os metadados do PRPosse.

O corpo BrPoliCorpus encontra-se acessível de https://github.com/rll307/BrPoliCorpus, juntamente com um pacote R para o manipular. O manual deve ser citado como

Alguns metadados referentes aos discursos inaugurais contidos no presente corpo, DisPR, encontram-se em metadados dos discursos inaugurais do BrPoliCorpus.

O corpo completo em formato texto, com a anotação estrutural (secções, parágrafos, etc.) pode ser obtido aqui: DisPR3.0.txt.

Estrutura do corpo

O corpus está dividido em discursos, marcados pelo atributo estrutural texto. Cada texto está dividido em parágrafos p e frases s. O atributo posicional corpo indica se o discurso vem do corpo PRAbril ou PRPosse. O atributo autor contém o nome do presidente, e o atributo ano o ano em que o discurso foi proferido (e redigido). Finalmente, o atributo id marca o identificador do discurso, um número inteiro (de 1 a 47 para o PRAbril, de 48 a 76 para o PRPosse, de 77 a 111 para o BrPoliCorpus).

Versão do corpo

Corpus DisPR, criado em 17 de dezembro de 2024, v. 3.0

Excerto do corpo


<texto 24>
<p>
<s> O Sr. Presidente da República (Jorge Sampaio): </s>
<s> - Sr. Presidente da Assembleia da República, Excelências, Srs. Embaixadores, permito-me saudar os Chefes de Estado que VV. Ex.as aqui representam, porque, de algum modo, senão mesmo de forma decisiva, o 25 de Abril foi também o nosso regresso à comunidade internacional. </s>
</p>
<p>
<s> Aplausos gerais. </s>

Dados quantitativos

Corpo DISPR Número de formasNúmero de tipos
Unidades 33004320901
Total de palavras 27559220834
Palavras em minúscula 22589716961
Palavras com inicial maiúscula210152193
Palavras todas em maiúsculas 83794
Números 1122183
Palavras com números497
Palavras mistas3421
Pontuação1284867

Número de unidades estruturais

Atributo Número
p 5797
s 10647
texto 111
mwe 4220

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 5326 10053
Locuções 4220 9087
Palavras gráficas 275592 275592
Palavras simples 256452 256452
Palavras 265998 275592

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 60030 23,41%
Verbos V.* 35844 13,98%
Adjectivos ADJ.* 24224 9,45%
Pronomes pessoais .*PERS.* 5465 2,13%
Preposições PRP.* 48642 18,97%
Conjunções K.* 15740 6,14%
Advérbios ADV.* 13569 5,29%
Determinantes .*DET.* 54548 21,27%
Especificadores .*SPEC.* 6534 2,55%
Numerais NUM.* 1957 0,76%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 18 de Dezembro de 2024
Perguntas, comentários e sugestões