Passos e recursos usados nos artigos do volume do DIP

Artigo principal, Santos et al.
Artigo de avaliação, Willrich & Santos
Artigo Pais e Filhos, Mota & Santos
Artigo genero e profissões, Pires et al.

Artigo principal

Para a distribuição das obras da coleção DIP, Figura 1:

obrasDIPbras<-read.table("colDIPpdfBras.csv", sep="\t", header=TRUE)
obrasDIPport<-read.table("colDIPpdfPort.csv", sep="\t", header=TRUE)
obrasDIPbrast<-read.table("colDIPtextoBras.csv", sep="\t", header=TRUE)
obrasDIPportt<-read.table("colDIPtextoPort.csv", sep="\t", header=TRUE)
obrasDIPbras$variante<-"BR"
obrasDIPbras$tipo<-"pdf"
obrasDIPport$variante<-"PT"
obrasDIPport$tipo<-"pdf"
obrasDIPbrast$variante<-"BR"
obrasDIPbrast$tipo<-"txt"
obrasDIPportt$variante<-"PT"
obrasDIPportt$tipo<-"txt"
obrasDIPbras$cor<-"green"
obrasDIPbrast$cor<-"green"
obrasDIPportt$cor<-"red"
obrasDIPport$cor<-"red"
obrasDIP<-rbind(obrasDIPbras,obrasDIPport,obrasDIPbrast,obrasDIPportt)

decada<-function(x) {
trunc((x-1790)/10)+1}
obrasDIP$decada<-decada(obrasDIP$Ano.publicação)

	  
png("DistObrasDecadaApr.png",width=15, height=5, units='in',res=300)
par(mar=c(8,4,4,2)+0.1)		 
barplot(table(factor(obrasDIP$decada,levels=1:23)), names.arg=c("1790-1799","1800-1809","1810-1819","1820-1829","1830-1839","1840-1849","1850-1859", "1860-1869","1870-1879", "1880-1889","1890-1899", "1900-1909","1910-1919", "1920-1929","1930-1939", "1940-1949", "1950-1959", "1960-1969", "1970-1979", "1980-1989", "1990-1999", "2000-2009", "2010-2019"), las=2, main="Distribuição das obras por década",cex.main=2,cex.names=1.5,cex.axis=2)
dev.off()

Para obter a figura 2 (os dados foram melhorados depois).

metadados<-read.table("metadados.tsv",sep="\t")
colnames(metadados)<-c("texto","cd","autor","titulo","data","tamanho","variante","sexo")
metadadospdf<-read.table("metadadospdf.tsv",sep="\t")
colnames(metadadospdf)<-c("texto","cd","autor","titulo","data","tamanho","variante","sexo")
metadadosCDT<-rbind(metadados,metadadospdf)

metadadosCDT$numpers<-0
metadadosCDT[metadadosCDT$texto==1,]$numpers<-20
metadadosCDT[metadadosCDT$texto==2,]$numpers<-12
metadadosCDT[metadadosCDT$texto==4,]$numpers<-96
metadadosCDT[metadadosCDT$texto==5,]$numpers<-27 # antes, 26
metadadosCDT[metadadosCDT$texto==6,]$numpers<-52
metadadosCDT[metadadosCDT$texto==18,]$numpers<-10
metadadosCDT[metadadosCDT$texto==25,]$numpers<-37
metadadosCDT[metadadosCDT$texto==26,]$numpers<-36 # antes, 31
metadadosCDT[metadadosCDT$texto==30,]$numpers<-48  #antes, 45
metadadosCDT[metadadosCDT$texto==32,]$numpers<-14 # antes, 13
metadadosCDT[metadadosCDT$texto==33,]$numpers<-34
metadadosCDT[metadadosCDT$texto==37,]$numpers<-33
metadadosCDT[metadadosCDT$texto==43,]$numpers<-84
metadadosCDT[metadadosCDT$texto==47,]$numpers<-23
metadadosCDT[metadadosCDT$texto==51,]$numpers<-5
metadadosCDT[metadadosCDT$texto==54,]$numpers<-45 # antes, 46
metadadosCDT[metadadosCDT$texto==55,]$numpers<-13
metadadosCDT[metadadosCDT$texto==64,]$numpers<-57
metadadosCDT[metadadosCDT$texto==72,]$numpers<-46 # antes, 45
metadadosCDT[metadadosCDT$texto==75,]$numpers<-115 # antes, 112
metadadosCDT[metadadosCDT$texto==95,]$numpers<-5
metadadosCDT[metadadosCDT$texto==96,]$numpers<-29 #antes, 28
metadadosCDT[metadadosCDT$texto==99,]$numpers<-66
metadadosCDT[metadadosCDT$texto==103,]$numpers<-53
metadadosCDT[metadadosCDT$texto==107,]$numpers<-39
metadadosCDT[metadadosCDT$texto==109,]$numpers<-37
metadadosCDT[metadadosCDT$texto==110,]$numpers<-109
metadadosCDT[metadadosCDT$texto==111,]$numpers<-72
metadadosCDT[metadadosCDT$texto==113,]$numpers<-20
metadadosCDT[metadadosCDT$texto==116,]$numpers<-27
metadadosCDT[metadadosCDT$texto==121,]$numpers<-51
metadadosCDT[metadadosCDT$texto==126,]$numpers<-35
metadadosCDT[metadadosCDT$texto==129,]$numpers<-43
metadadosCDT[metadadosCDT$texto==130,]$numpers<-18
metadadosCDT[metadadosCDT$texto==149,]$numpers<-133
metadadosCDT[metadadosCDT$texto==151,]$numpers<-70
metadadosCDT[metadadosCDT$texto==157,]$numpers<-51
metadadosCDT[metadadosCDT$texto==159,]$numpers<-27
metadadosCDT[metadadosCDT$texto==177,]$numpers<-56
metadadosCDT[metadadosCDT$texto==180,]$numpers<-30
metadadosCDT[metadadosCDT$texto==197,]$numpers<-12
metadadosCDT[metadadosCDT$texto==201,]$numpers<-48
metadadosCDT[metadadosCDT$texto==193,]$numpers<-45
metadadosCDT[metadadosCDT$texto==203,]$numpers<-55
metadadosCDT[metadadosCDT$texto==204,]$numpers<-34
metadadosCDT[metadadosCDT$variante=="bras",]$variante<-"Brasil"
metadadosCDT[metadadosCDT$variante=="port",]$variante<-"Portugal"
png("Numpers.png")
boxplot(metadadosCDT[metadadosCDT$numpers!=0,]$numpers~metadadosCDT[metadadosCDT$numpers!=0,]$variante,xlab="Origem das obras",ylab="Número de personagens",cex.axis=1.5,cex.lab=1.5)						
dev.off()

Para fazer a relação entre o tamanho em palavras e o número de personagens, Figura 3

socompers<-metadadosCDT[metadadosCDT$numpers!=0 & metadadosCDT$tamanho!=0,] 
png("PersonagenstamanhoCD.png")
plot(socompers$tamanho, socompers$numpers,xlab="Tamanho da obra em número de palavras",ylab="Número de personagens",cex.lab=1.5,cex.axis=1.5)
dev.off()

Para fazer a figura 4

socompers$autor<-socompers$autor[drop=TRUE]
socompers$persrel<-socompers$numpers/socompers$tamanho
socompers[socompers$autor=="António José Coelho Lousada",]$autor<-"A. J. Coelho Lousada"
socompers[socompers$autor=="Antonio Augusto Teixeira de Vasconcellos",]$autor<-"Teixeira de Vasconcelos"
socompers[socompers$autor=="Zeferino Norberto Gonçalves Brandão",]$autor<-"Zeferino Brandão"
png("PersonagenstamanhoCDautor.png")
par(mar=c(14,4,3,1)+0.1)
barplot(socompers$persrel,names=socompers$autor,las=2, main="Personagens por comprimento da obra",cex.main=1.5,cex.names=1.2)
dev.off()

Para fazer a distribuição pelo genero na CDT, figura 5:

persCDT<-read.csv("personagensCDT.csv")
colnames(persCDT)<-c("texto","idpers","nomespers","sexo","profissao")
png("SexoCDT.png", width = 15, height = 5, units = 'in', res = 300)
barplot(table(persCDT$sexo,persCDT$texto),col=c("red","blue"),main="Número de personagens femininas e masculinas por obra na coleção dourada",cex.main=2,cex.axis=2,las=2)
dev.off()

Para fazer a distribuição das relações familiares na CDT

relexpCDT <-read.csv("relacoesCDTexp.csv")
colnames(relexpCDT)<-c("texto","idpers1","rel","idpers2")
table(relexpCDT$rel)
#		     png("relexpCDT.png",height=10,width=20,units="cm", res=600)
png("relexpCDT.png",height=8,width=15,units="in", res=300)
par(mar=c(12,4,3,1)+0.1)
plot(table(relexpCDT$rel),las=2, main="Relações familiares na CD total, depois de expansão",ylab="",cex.main=2,cex.axis=1.5)
dev.off()

Para obter os nomes, executam-se os seguintes programas de Perl

dip_lista_nomes_diferentes.pl < personagensCD.csv > personagensCDaum.csv
dip_lista_nomes_diferentes.pl < personagensCDT.csv > personagensCDTaum.csv
dip_lista_nomes_diferentes.pl < personagensPAL.csv > personagensPALaum.csv

que criam os ficheiros formasCD.csv formasnormCD.csv formasnormPAL.csv formas.csv formasnorm.csv formasPAL.csv nomesbras.csv nomes.csv nomesmasc.csv nomesPAL.csv nomesbrasPAL.csv nomesfem.csv nomesmascPAL.csv nomesport.csv nomesCD.csv nomesfemPAL.csv nomesPALAVRAS.csv nomesportPAL.csv tratamento.csv tratamentoPAL.csv

No R, para a figura 7

persCDaum <- read.csv("personagensCDTaum.csv",sep=",")
colnames(persCDaum)<-c("texto","idpers","nomespers","sexo","profissao","numcru","numnorm")
png("DistCDnorm.png",width = 15, height = 5, units = 'in', res = 300)
boxplot(persCDaum$numnorm~persCDaum$texto,main="Número de formas normalizadas de chamar as personagens na CD",xlab="",ylab="",cex.main=2,cex.axis=1.5,las=2,cex.lab=1.5)
dev.off()

Para a figura 8

numformas<-read.table("formas.csv")
colnames(numformas)<-c("numformas","freq")
novonum<-numformas[order(numformas$freq,decreasing=TRUE),]
numformasnorm<-read.table("formasnorm.csv")
colnames(numformasnorm)<-c("numformas","freqnorm")
nformas<-merge(novonum,numformasnorm,by=c("numformas"))
png("formasCDnorm.png")
barplot(t(cbind(nformas$freqnorm,nformas$freq)),names=nformas$numformas, beside=TRUE, main="Número de formas diferentes de \nchamar uma personagem",cex.main=1.5, las=1)
dev.off()

Para a figura 9

tratamentoCDT<-read.table("tratamentoCDT.csv")
colnames(tratamentoCDT)<-c("forma","freq")
tratamentoCDT[tratamentoCDT$forma=="redsenhor",]$forma<-"sr*"
tratamentoCDT[tratamentoCDT$forma=="sinha",]$forma<-"sinhá"
png("formastratamento.png")
par(mar=c(7,4,3,1)+0.1)
barplot(tratamentoCDT$freq,names=tratamentoCDT$forma, main="Formas de tratamento na coleção dourada",cex.main=1.5,cex.names=1.5,cex.axis=1.5,las=2)
dev.off()

Para a figura 10

cotejo<-read.table("cotejoPALAVRAS.tsv", header=TRUE)
png("cotejo.png")
barplot(cotejo$formas,names=cotejo$obra,las=2,main="Formas corretas propostas pelo PALAVRAS-DIP\nque faltavam na CD inicial",cex.main=1.5)
dev.off()

Para a figura 11, sobre o género calculado pelo PALAVRAS

persPAL <- read.csv("personagensPALAVRAS.csv",sep=",")
colnames(persPAL)<-c("texto","idpers","nomespers","sexo","profissao")
png("SexoPALdist.png", width = 20, height = 5, units = 'in', res = 300)
plot(table(persPAL$texto,persPAL$sexo),col=c("red","blue"),main="",las=2)
dev.off()

Para a figura 12, sobre o género calculado na coleção extra

persPAL <- read.csv("todaspersonagensaum.csv",sep=",")
colnames(persPAL)<-c("texto","idpers","nomespers","sexo","profissao")
png("generoPALMar2023dist.png", width = 50, height = 10, units = 'in', res = 300)
plot(table(persPAL$texto,persPAL$sexo),col=c("red","blue"),main="",las=2)
dev.off()

Para a figura 13, sobre as relações familiares do PALAVRAS

relPAL <-read.csv("relacoesPALAVRAS.csv")
colnames(relPAL)<-c("texto","idpers1","rel","idpers2")
png("relPAL.png", width = 15, height =8, units = 'in', res = 300)
plot(table(relPAL$rel), las=2, main="Relações familiares na coleção DIP segundo o PALAVRAS-DIP",cex.main=2,cex.axis=1.5,ylab="",xlab="")
dev.off()

Para a figura 14, sobre as relações familiares do PALAVRAS na coleção extra

relPAL <-read.csv("todasrelacoes.csv")
colnames(relPAL)<-c("texto","idpers1","rel","idpers2")
png("relPALMar2023.png",width =15, height = 8, units = 'in', res = 300)
plot(table(relPAL[relPAL$rel!="amigo" & relPAL$rel!="amiga",]$rel), las=2, cex.main=2,cex.axis=1.5,ylab="",xlab="",main="Relações familiares na coleção extra segundo o PALAVRAS-DIP")
dev.off()

Para a figura 15

nomesPAL <- read.table("nomesPALAVRAS.csv")
colnames(nomesPAL) <- c("nome","freq")
png("nomesFreqPAL.png",width = 20, height = 5, units = 'in', res = 300)
par(mar=c(9,3,6,1)+0.1)
barplot(nomesPAL[nomesPAL$freq > 8 & nomesPAL$nome!="Victoria" & nomesPAL$nome!="S. João" & nomesPAL$nome!="Rocio" & nomesPAL$nome!="S. Paulo" & nomesPAL$nome!="sra. D." & nomesPAL$nome!="Dias" & nomesPAL$nome!="S. Pedro" & nomesPAL$nome!="Santo Antonio",]$freq,names=nomesPAL[nomesPAL$freq > 8 & nomesPAL$nome!="Victoria" & nomesPAL$nome!="S. João" & nomesPAL$nome!="Rocio" & nomesPAL$nome!="S. Paulo" & nomesPAL$nome!="sra. D."  & nomesPAL$nome!="Dias" & nomesPAL$nome!="S. Pedro" & nomesPAL$nome!="Santo Antonio",]$nome, las=2, main="Nomes mais frequentes na coleção do DIP (>8)\nde acordo com o PALAVRAS-DIP",cex.main=2,cex.names=1.5)
dev.off()

Para a figura 16

nomesPAL <- read.table("nomesPALMAr2023.csv")
colnames(nomesPAL) <- c("nome","freq")
png("nomesFreqPALMar2023.png",width = 20, height = 5, units = 'in', res = 300)
par(mar=c(9,3,6,1)+0.1)
barplot(nomesPAL[nomesPAL$freq > 20 & nomesPAL$nome!="Narrador" & nomesPAL$nome!="S. Paulo" & nomesPAL$nome!="S. Pedro" & nomesPAL$nome!="Deolinda Rodrigues Cabrera" & nomesPAL$nome!="S. João" & nomesPAL$nome!="D.",]$freq,names=nomesPAL[nomesPAL$freq > 20 & nomesPAL$nome!="Narrador" & nomesPAL$nome!="S. Paulo" & nomesPAL$nome!="S. Pedro" & nomesPAL$nome!="Deolinda Rodrigues Cabrera" & nomesPAL$nome!="S. João" & nomesPAL$nome!="D.",]$nome, las=2, main="Nomes mais frequentes na coleção extra (>20)\nde acordo com o PALAVRAS-DIP",cex.main=2,cex.names=1.2)
dev.off()

Para a figura 17

nomesfemPAL <- read.table("nomesfemPAL.csv")
colnames(nomesfemPAL) <- c("nome","freq")
png("nomesFemFreqPAL.png",width = 20, height = 5, units = 'in', res = 300)
barplot(nomesfemPAL[nomesfemPAL$freq > 4 & nomesfemPAL$nome!="sra. D." & nomesfemPAL$nome!="Sra." & nomesfemPAL$nome!="Castella" & nomesfemPAL$nome!="Victoria" & nomesfemPAL$nome!="Santa Maria" & nomesfemPAL$nome!="Eva",]$freq, names=nomesfemPAL[nomesfemPAL$freq > 4 & nomesfemPAL$nome!="sra. D." & nomesfemPAL$nome!="Sra." & nomesfemPAL$nome!="Castella" & nomesfemPAL$nome!="Victoria" & nomesfemPAL$nome!="Santa Maria" & nomesfemPAL$nome!="Eva",]$nome, las=2, main="Nomes femininos mais frequentes na coleção do DIP (>4),\nde acordo com o PALAVRAS",cex.main=2,cex.names=1.1)
dev.off()

Para a figura 18

nomesfemPAL <- read.table("nomesfemPALMAr2023.csv")
colnames(nomesfemPAL) <- c("nome","freq")
png("nomesFemFreqPALMar2023.png",width = 30, height = 10, units = 'cm', res = 300)
barplot(nomesfemPAL[nomesfemPAL$freq > 9 & nomesfemPAL$nome!="sra. D." & nomesfemPAL$nome!="Sra." & nomesfemPAL$nome!="Castella" & nomesfemPAL$nome!="Sr.o D." & nomesfemPAL$nome!="Santa Maria" & nomesfemPAL$nome!="Deolinda Rodrigues Cabrera" & nomesfemPAL$nome!="Eva" & nomesfemPAL$nome!="D." & nomesfemPAL$nome!="Francisco" & nomesfemPAL$nome!="Cruz" & nomesfemPAL$nome!="Faria",]$freq, names=nomesfemPAL[nomesfemPAL$freq > 9 & nomesfemPAL$nome!="sra. D." & nomesfemPAL$nome!="Sra." & nomesfemPAL$nome!="Castella" & nomesfemPAL$nome!="Sr.o D." & nomesfemPAL$nome!="Santa Maria" & nomesfemPAL$nome!="Deolinda Rodrigues Cabrera" & nomesfemPAL$nome!="Eva" & nomesfemPAL$nome!="D." & nomesfemPAL$nome!="Francisco" & nomesfemPAL$nome!="Cruz" & nomesfemPAL$nome!="Faria",]$nome, las=2, main="Nomes femininos mais frequentes (>9) na coleção extra,\nde acordo com o PALAVRAS",cex.main=2,cex.names=1.1)
dev.off()

Para a figura 19

tratamentoPAL<-read.table("tratamentoPAL.csv")
colnames(tratamentoPAL)<-c("forma","freq")
tratamentoPAL[tratamentoPAL$forma=="redsenhor",]$forma<-"sr*"
tratamentoPAL[tratamentoPAL$forma=="sinha",]$forma<-"sinhá"
png("formastratamentoPAL.png")
par(mar=c(7,4,3,1)+0.1)
barplot(tratamentoPAL$freq,names=tratamentoPAL$forma, main="Formas de tratamento na coleção do DIP",cex.main=1.5,cex.names=1.5,cex.axis=1.5,las=2)
dev.off()

Artigo Avaliação

Para as figuras 2 a 6

aval<-read.table("resultadosPAL.csv",sep=",")
colnames(aval)<-c("obra","AI","ACI","AG","APOES","AR")
png("avalAI.png",width = 15, height = 5, units = 'in', res = 300)
barplot(aval$AI,names=aval$obra,main="Avaliação da identificaçõo (AI)", las=2,cex.main=2,cex.axis=1.5,cex.names=1.5,ylim=c(0,1))
dev.off()
png("avalACI.png",width = 15, height = 5, units = 'in', res = 300)
barplot(aval$ACI,names=aval$obra,main="Avaliação de co-identificação (ACI)",las=2,cex.main=2,cex.axis=1.5,cex.names=1.5,ylim=c(0,1))
dev.off()
png("avalAG.png",width = 15, height = 5, units = 'in', res = 300)
barplot(aval$AG,names=aval$obra,main="Avaliação de género (AG)",las=2,cex.main=2,cex.axis=1.5,cex.names=1.5,ylim=c(0,1))
dev.off()
png("avalAPOES.png",width = 15, height = 5, units = 'in', res = 300)
barplot(aval$APOES,names=aval$obra,main="Avaliaçaotilde;o de profissão/ocupação/estatuto social (APOES)",las=2,cex.main=2,cex.axis=1.5,cex.names=1.5,ylim=c(0,1))
dev.off()
png("avalAR.png",width = 15, height = 5, units = 'in', res = 300)
barplot(aval[aval$obra!="55",]$AR,names=aval[aval$obra!="55",]$obra,main="Avaliação de extração de relações (AR)",las=2,cex.main=2,cex.axis=1.5,cex.names=1.5,ylim=c(0,1))
dev.off()

Para a criação da figura 7

aval$total<-(aval$AI+aval$ACI+aval$AG+aval$APOES+aval$AR)/5
aval$cor<-"blue"
aval[aval$obra=="2"|aval$obra=="5"|aval$obra=="32"|aval$obra=="51",]$cor<-"red"
png("avalTotal.png",width = 15, height = 5, units = 'in', res = 300)
barplot(aval$total,names=aval$obra,main="Avaliação total",col=aval$cor,legend=c("escritas por homens","escritas por mulheres"),las=2,cex.main=2,cex.axis=1.5,cex.names=1.5,ylim=c(0,1))
dev.off()

Para a criação da figura 8

aval$sexo<-"M"
aval[aval$cor=="red",]$sexo<-"F"
png("resultsexoautor.png")
boxplot(aval$total~aval$sexo,ylab="",xlab="",las=1,main="Avaliação de acordo com\no género do autor",cex.main=1.5,cex.axis=1.5,cex.values=1.5, ylim=c(0,1))
dev.off()

Artigo Pais e filhos

Para criar as figuras 1 a 4

relCD <-read.csv("relacoesCDT.csv")
colnames(relCD)<-c("texto","idpers1","rel","idpers2")
png("relCD.png",height=8,width=15,units="in", res=300)
par(mar=c(12,4,3,1)+0.1)
plot(table(relCD$rel),las=2, main="Relações familiares na CD",ylab="",cex.main=2,cex.axis=1.5)
dev.off()
relexpCD <-read.csv("relacoesCDTexp.csv")
png("relexpCD.png",height=8,width=15,units="in", res=300)
par(mar=c(12,4,3,1)+0.1)
colnames(relexpCD)<-c("texto","idpers1","rel","idpers2")
plot(table(relCD$rel),las=2, main="Relações familiares na CD, depois da expansão",ylab="",cex.main=2,cex.axis=1.5)
dev.off()
relPAL <-read.csv("relacoesPALAVRASexp.csv")
colnames(relPAL)<-c("texto","idpers1","rel","idpers2")
png("relPALexp.png", height=8,width=15,units="in", res=300)
par(mar=c(8,4,3,1)+0.1)
plot(table(relPAL$rel), las=2, main="Relações familiares na coleção DIP segundo o PALAVRAS-DIP", ylab="",cex.main=2,cex.axis=1.5)
dev.off()
relPAL <-read.csv("relPALMar2023exp.csv")
colnames(relPAL)<-c("texto","idpers1","rel","idpers2")
png("relPALMar2023exp.png",width = 15, height = 8, units = 'in', res = 300)
par(mar=c(8,4,3,1)+0.1)
plot(table(relPAL[relPAL$rel!="amigo" & relPAL$rel!="amiga",]$rel), las=2, main="Relações familiares na coleção extra segundo o PALAVRAS-DIP", ylab="",cex.main=2,cex.axis=1.5)
dev.off()

Programa que identifica a(s) personagens principais invocando o AC/DC.

cat cd[02]* | grep "^[02]" | dip_identifica_pers_principais.pl > pers_freq.R

E cria o ficheiro pers_principal.R

Programa que conta o número de relações por personagem:

dip_conta_relacoes_genero.pl > num_relacoes_pers.R

Comandos para obter os dados, no R:

relspers<-read.table("num_relacoes_pers.R")
names(relspers)<-c("person","gen","tam")
table(relspers[relspers$gen=="F",]$tam) # tabela 1
dim(relspers[relspers$gen=="F",])
relspers[relspers$gen=="F" & relspers$tam==5,]
	 
table(relspers[relspers$gen=="M",]$tam) # tabela2
dim(relspers[relspers$gen=="M",])
relspers[relspers$gen=="M" & relspers$tam==5,]

Médias do número de relações de personagens femininas e masculinas

sum(relspers[relspers$gen=="M",]$tam)/823
sum(relspers[relspers$gen=="F",]$tam)/252

Para o caso das personagens principais

prin<-read.table("pers_principal.R")
colnames(prin)<-c("person")
prin_completo<-merge(prin,relspers,by=c("person"))

prin_completo[prin_completo$gen=="F",]
sum(prin_completo[prin_completo$gen=="F",]$nrels)/5

sum(prin_completo[prin_completo$gen=="M",]$nrels)/23

Artigo genero

Para a figura 2

persPAL<- read.table("personagensPALaum.csv",sep=",")
colnames(persPAL)<-c("texto","idpers","nomespers","sexo","profissao","numpers","numnorm")

metadados<-read.table("metadados.tsv",sep="\t")
colnames(metadados)<-c("texto","cd","autor","titulo","data","tamanho","variante","sexo")
personagens<-merge(persPAL, metadados, by=c("texto"))
png("SexoPALAVRAStempo.png",width=15, height=5, units='in',res=300)
barplot(table(personagens$sexo.x, personagens$data), col=c("red","blue"), main="Distribuição dos gêneros ao longo do tempo, na resposta do PALAVRAS-DIP",las=2,cex.main=2,cex.names=1.5,cex.axis=2)	    
dev.off()

Para as figuras das profissões

profsfem<-read.table("profissoesfem.csv")
colnames(profsfem)<-c("profissao","freq")
png("profissoesfem.png",width = 10, height = 5, units = 'in', res = 300)
par(mar=c(7,4,3,1)+0.1)
barplot(profsfem[profsfem$freq>4,]$freq,names=profsfem[profsfem$freq>4,]$profissao,las=2, main="Profissões femininas, com mais de 4 ocorrências,\nidentificadas pelo PALAVRAS-DIP",cex.main=2,cex.names=1.5,cex.axis=2)
dev.off()

profs<-read.table("profissoes.csv")
colnames(profs)<-c("profissao","freq")
png("profissoes.png",width = 10, height = 5, units = 'in', res = 300)
par(mar=c(9,5,4,1)+0.1)
barplot(profs[profs$freq>18,]$freq,names=profs[profs$freq>18,]$profissao,las=2, main="Profissões com mais de 18 ocorrências,\nidentificadas pelo PALAVRAS-DIP",cex.main=2,cex.names=1.3,cex.axis=1.8)
dev.off()

Em Profissoesrebeca estão classificadas as profissões pela Rebeca.

profissoesRebeca<-read.table("Profissoesrebeca.csv",sep=",")
colnames(profissoesRebeca)<-c("profissao","grupo","subgrupo")
profs<-read.table("profissoes.csv", sep="\t")
colnames(profs)<-c("profissao","freq")
profissoes<-merge(profs,profissoesRebeca,by=c("profissao"))
sum(profissoes[profissoes$grupo=="P",]$freq)
sum(profissoes[profissoes$grupo=="O",]$freq)
sum(profissoes[profissoes$grupo=="ES",]$freq)
sum(profissoes[profissoes$grupo=="NP",]$freq)
    
png("ProfissoesPorGrupoPALAVRAS.png")
barplot(profgrupo$freq, names=profgrupo$grupo, main="Número de POES por grupo\nna resposta do PALAVRAS-DIP", legend.text=c("P - profissões","O - ocupações","ES - estatuto social","NP - erro"),cex.main=1.5)
dev.off()

sum(profissoes[profissoes$grupo=="P" & profissoes$subgrupo=="PM",]$freq)
sum(profissoes[profissoes$grupo=="P" & profissoes$subgrupo=="PS",]$freq)
sum(profissoes[profissoes$grupo=="P" & profissoes$subgrupo=="PL",]$freq)
sum(profissoes[profissoes$grupo=="P" & profissoes$subgrupo=="PR",]$freq)

profsubgrupo<-data.frame(1,1:4)
profsubgrupo$subgrupo<-c("PM","PS","PL","PR")
profsubgrupo$freq<-c(478,84,708,345)

png("ProfissoesPPorSubGrupoPALAVRAS.png")
barplot(profsubgrupo$freq, names=profsubgrupo$subgrupo, main="Número de profissões P por subgrupo\nna resposta do PALAVRAS-DIP", legend.text=c("PM - militares","PS - serviçais","PL - liberais","PR - religiosas"),cex.main=1.5)
dev.off()

profnova<-data.frame(1,1:7)
profnova$grupo<-c("PM","PS","PL","PR","O","ES","NP")
profnova$freq <- c(209,81,373,160,44,199,85)

png("ProfissoesSugestaoPALAVRAS.png")
barplot(profnova$freq, names=profnova$grupo, main="Número de POES na análise do PALAVRAS-DIP", legend.text=c("PM - militares","PS - serviçais","PL - liberais","PR - religiosas","O - ocupações", "N - nobreza", "OU - outro estatuto","NP - erro" ),cex.main=1.5)
dev.off()

profsCDT<-read.table("profissoesCDT.csv", sep="\t")
colnames(profsCDT)<-c("profissao","freq")
profissoesCDT<-merge(profsCDT,profissoesRebeca,by=c("profissao"))

sum(profissoesCDT[profissoesCDT$grupo=="P",]$freq)
sum(profissoesCDT[profissoesCDT$grupo=="O",]$freq)
sum(profissoesCDT[profissoesCDT$grupo=="ES",]$freq)
sum(profissoesCDT[profissoesCDT$grupo=="NP",]$freq)

profgrupoCDT<-data.frame(1,1:4)
profgrupoCDT$grupo<-c("P","O","ES","NP")
profgrupoCDT$freq<-c(826,44,199,85)

png("ProfissoesPorGrupoCDT.png")
barplot(profgrupoCDT$freq, names=profgrupoCDT$grupo, main="Número de POES por grupo na CD total", legend.text=c("P - profissões","O - ocupações","ES - estatuto social","NP - erro"),cex.main=1.5)
dev.off()

sum(profissoesCDT[profissoesCDT$grupo=="P" & profissoesCDT$subgrupo=="PM",]$freq)
sum(profissoesCDT[profissoesCDT$grupo=="P" & profissoesCDT$subgrupo=="PS",]$freq)
sum(profissoesCDT[profissoesCDT$grupo=="P" & profissoesCDT$subgrupo=="PL",]$freq)
sum(profissoesCDT[profissoesCDT$grupo=="P" & profissoesCDT$subgrupo=="PR",]$freq)

profsubgrupoCDT<-data.frame(1,1:4)
profsubgrupoCDT$subgrupo<-c("PM","PS","PL","PR")
profsubgrupoCDT$freq<-c(209,81,373,160)
png("ProfissoesPPorSubGrupoCDT.png")
barplot(profsubgrupoCDT$freq, names=profsubgrupoCDT$subgrupo, main="Número de profissões P por subgrupo na CD total", legend.text=c("PM - militares","PS - serviçais","PL - liberais","PR - religiosas"),cex.main=1.5)
dev.off()

Para as profissões femininas


profsfem<-read.table("profissoesfem.csv", sep="\t")
colnames(profsfem)<-c("profissao","freq")
profissoesfem<-merge(profsfem,profissoesRebeca,by=c("profissao"))
sum(profissoesfem[profissoesfem$grupo=="P",]$freq)
sum(profissoesfem[profissoesfem$grupo=="O",]$freq)
sum(profissoesfem[profissoesfem$grupo=="ES",]$freq)
sum(profissoesfem[profissoesfem$grupo=="NP",]$freq)

profgrupofem<-data.frame(1,1:4)
profgrupofem$grupo<-c("P","O","ES","NP")
profgrupofem$freq<-c(138,16,85,20)

png("ProfissoesPorGrupoFemPALAVRAS.png")
barplot(profgrupofem$freq, names=profgrupofem$grupo, main="Número de POES femininas por grupo\n na análise do PALAVRAS-DIP",legend.text=c("P - profissões","O - ocupações","ES - estatuto social","NP - erro"),cex.main=1.5)
dev.off()

sum(profissoesfem[profissoesfem$grupo=="P" & profissoesfem$subgrupo=="PM",]$freq)
sum(profissoesfem[profissoesfem$grupo=="P" & profissoesfem$subgrupo=="PS",]$freq)
sum(profissoesfem[profissoesfem$grupo=="P" & profissoesfem$subgrupo=="PL",]$freq)
sum(profissoesfem[profissoesfem$grupo=="P" & profissoesfem$subgrupo=="PR",]$freq)

profsubgrupofem<-data.frame(1,1:4)
profsubgrupofem$subgrupo<-c("PM","PS","PL","PR")
profsubgrupofem$freq<-c(26,40,39,31)

png("ProfissoesPPorSubGrupoFemPALAVRAS.png")
barplot(profsubgrupofem$freq, names=profsubgrupofem$subgrupo, main="Número de profissões P femininas por subgrupo\nna análise do PALAVRAS-DIP", legend.text=c("PM - militares","PS - serviçais","PL - liberais","PR - religiosas"),cex.main=1.5)
dev.off()

sum(profissoesfem[profissoesfem$grupo=="ES" & profissoesfem$subgrupo=="N",]$freq)
sum(profissoesfem[profissoesfem$grupo=="ES" & profissoesfem$subgrupo=="OU",]$freq)

profsubgrupoesfem<-data.frame(1,1:2)
profsubgrupoesfem$subgrupo<-c("N","OU")
profsubgrupoesfem$freq<-c(33,10)

png("EstatutoPorSubGrupoFemPALAVRAS.png")
barplot(profsubgrupoesfem$freq, names=profsubgrupoesfem$subgrupo, main="Estatuto social feminino por subgrupo\nna análise do PALAVRAS")
dev.off()

profnovafem<-data.frame(1,1:8)
profnovafem$grupo<-c("PM","PS","PL","PR","O","N","OU","NP")
profnovafem$freq <- c(26,40,39,31,16,33,10,20)

png("ProfissoesSugestaoFemPALAVRAS.png")
barplot(profnovafem$freq, names=profnovafem$grupo, main="Número de POES femininos\nna análise do PALAVRAS-DIP",  legend.text=c("PM - militares","PS - serviçais","PL - liberais","PR - religiosas","O - ocupações","N - nobreza", "OU - outro estatuto","NP - erro" ),cex.main=1.5)
dev.off()

Para as profissões masculinas propostas pelo PALAVRAS-DIP

	      
profsmasc<-read.table("profissoesmasc.csv", sep="\t")
colnames(profsmasc)<-c("profissao","freq")
profissoesmasc<-merge(profsmasc,profissoesRebeca,by=c("profissao"))
sum(profissoesmasc[profissoesmasc$grupo=="P",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="O",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="ES",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="NP",]$freq)

profgrupomasc<-data.frame(1,1:4)
profgrupomasc$grupo<-c("P","O","ES","NP")
profgrupomasc$freq<-c(1492,135,331,128)

png("ProfissoesPorGrupoMascPALAVRAS.png")
barplot(profgrupomasc$freq, names=profgrupomasc$grupo, main="Número de POES masculinas por grupo\n na análise do PALAVRAS-DIP",legend.text=c("P - profissões","O - ocupações","ES - estatuto social","NP - erro"),cex.main=1.5)
dev.off()

sum(profissoesmasc[profissoesmasc$grupo=="P" & profissoesmasc$subgrupo=="PM",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="P" & profissoesmasc$subgrupo=="PS",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="P" & profissoesmasc$subgrupo=="PL",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="P" & profissoesmasc$subgrupo=="PR",]$freq)

profsubgrupomasc<-data.frame(1,1:4)
profsubgrupomasc$subgrupo<-c("PM","PS","PL","PR")
profsubgrupomasc$freq<-c(452,44,669,314)

png("ProfissoesPPorSubGrupoMascPALAVRAS.png")
barplot(profsubgrupomasc$freq, names=profsubgrupomasc$subgrupo, main="Número de profissões P masculinas por subgrupo\nna análise do PALAVRAS-DIP", legend.text=c("PM - militares","PS - serviçais","PL - liberais","PR - religiosas"),cex.main=1.5)
dev.off()

sum(profissoesmasc[profissoesmasc$grupo=="ES" & profissoesmasc$subgrupo=="N",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="ES" & profissoesmasc$subgrupo=="OU",]$freq)

profsubgrupoesmasc<-data.frame(1,1:2)
profsubgrupoesmasc$subgrupo<-c("N","OU")
profsubgrupoesmasc$freq<-c(156,18)

profnovamasc<-data.frame(1,1:8)
profnovamasc$grupo<-c("PM","PS","PL","PR","O","N","OU","NP")
profnovamasc$freq <- c(452,44,669,314,135,156,18,128)

png("ProfissoesSugestaoMascPALAVRAS.png")
barplot(profnovamasc$freq, names=profnovamasc$grupo, main="Número de POES masculinos\nna análise do PALAVRAS-DIP",  legend.text=c("PM - militares","PS - serviçais","PL - liberais","PR - religiosas","O - ocupações","N - nobreza", "OU - outro estatuto","NP - erro" ),cex.main=1.5)
dev.off()

Para as profissões femininas na CDT


profsfem<-read.table("profissoesfemCDT.csv", sep="\t")
colnames(profsfem)<-c("profissao","freq")
profissoesfem<-merge(profsfem,profissoesRebeca,by=c("profissao"))
sum(profissoesfem[profissoesfem$grupo=="P",]$freq)
sum(profissoesfem[profissoesfem$grupo=="O",]$freq)
sum(profissoesfem[profissoesfem$grupo=="ES",]$freq)
sum(profissoesfem[profissoesfem$grupo=="NP",]$freq)

profgrupofem<-data.frame(1,1:4)
profgrupofem$grupo<-c("P","O","ES","NP")
profgrupofem$freq<-c(82,2,51,10)

png("ProfissoesPorGrupoFemCDT.png")
barplot(profgrupofem$freq, names=profgrupofem$grupo, main="Número de \"profissões\" femininas por grupo\n na CD total")
dev.off()

sum(profissoesfem[profissoesfem$grupo=="P" & profissoesfem$subgrupo=="PM",]$freq)
sum(profissoesfem[profissoesfem$grupo=="P" & profissoesfem$subgrupo=="PS",]$freq)
sum(profissoesfem[profissoesfem$grupo=="P" & profissoesfem$subgrupo=="PL",]$freq)
sum(profissoesfem[profissoesfem$grupo=="P" & profissoesfem$subgrupo=="PR",]$freq)

profsubgrupofem<-data.frame(1,1:4)
profsubgrupofem$subgrupo<-c("PM","PS","PL","PR")
profsubgrupofem$freq<-c(3,37,30,9)

png("ProfissoesPPorSubGrupoFemCDT.png")
barplot(profsubgrupofem$freq, names=profsubgrupofem$subgrupo, main="Número de profissões P femininas por subgrupo na CD total")
dev.off()


profnovafem<-data.frame(1,1:8)
profnovafem$grupo<-c("PM","PS","PL","PR","O","N","OU","NP")
profnovafem$freq <- c(3,37,30,9,2,20,17,20)

png("ProfissoesSugestaoFemCDT.png")
barplot(profnovafem$freq, names=profnovafem$grupo, main="Número de POES femininos na CD total",legend.text=c("PM - militares","PS - serviçais","PL - liberais","PR - religiosas","O - ocupações", "N - nobreza", "OU - outro estatuto","NP - erro" ),cex.main=1.5)
dev.off()

Para as profissões masculinas na CDT

profsmasc<-read.table("profissoesmascCDT.csv", sep="\t")
colnames(profsmasc)<-c("profissao","freq")
profissoesmasc<-merge(profsmasc,profissoesRebeca,by=c("profissao"))
sum(profissoesmasc[profissoesmasc$grupo=="P",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="O",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="ES",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="NP",]$freq)

profgrupomasc<-data.frame(1,1:4)
profgrupomasc$grupo<-c("P","O","ES","NP")
profgrupomasc$freq<-c(744,42,143,75)

png("ProfissoesPorGrupoMascCDT.png")
barplot(profgrupomasc$freq, names=profgrupomasc$grupo, main="Número de POES masculinos por grupo\n na CD total",legend.text=c("P - profissões","O - ocupações","ES - estatuto social","NP - erro"),cex.main=1.5)
dev.off()

sum(profissoesmasc[profissoesmasc$grupo=="P" & profissoesmasc$subgrupo=="PM",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="P" & profissoesmasc$subgrupo=="PS",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="P" & profissoesmasc$subgrupo=="PL",]$freq)
sum(profissoesmasc[profissoesmasc$grupo=="P" & profissoesmasc$subgrupo=="PR",]$freq)

profsubgrupomasc<-data.frame(1,1:4)
profsubgrupomasc$subgrupo<-c("PM","PS","PL","PR")
profsubgrupomasc$freq<-c(206,44,343,151)

png("ProfissoesPPorSubGrupoMascCDT.png")
barplot(profsubgrupomasc$freq, names=profsubgrupomasc$subgrupo, main="Número de profissões P masculinas por subgrupo\nna CD total", legend.text=c("PM - militares","PS - serviçais","PL - liberais","PR - religiosas"),cex.main=1.5)
dev.off()

profnovamasc<-data.frame(1,1:8)
profnovamasc$grupo<-c("PM","PS","PL","PR","O","N","OU","NP")
profnovamasc$freq <- c(206,44,343,151,42,75,36,75)


png("ProfissoesSugestaoMascCDT.png")
barplot(profnovamasc$freq, names=profnovamasc$grupo, main="Número de POES masculinos na CD total", legend.text=c("PM - militares","PS - serviçais","PL - liberais","PR - religiosas","O - ocupações","N - nobreza", "OU - outro estatuto","NP - erro" ),cex.main=1.5)
dev.off()

Para comparar as duas literaturas

pers<-read.table("personagensCDTaum.csv",sep=",")
colnames(pers)<-c("texto","id","nomes","sexo","prof","num","numnorm")

metadados<-read.table("metadados.tsv",sep="\t")
colnames(metadados)<-c("texto","cd","autor","titulo","data","tamanho","variante","sexo")
metadadospdf<-read.table("metadadospdf.tsv",sep="\t")
colnames(metadadospdf)<-c("texto","cd","autor","titulo","data","tamanho","variante","sexo")
metadadosCDT<-rbind(metadados,metadadospdf)

persmet<-merge(pers,metadadosCDT,by=c("texto"))
persmet$texto<-factor(persmet$texto)
ola<-t(table(persmet$sexo.x,persmet$texto))
ola2<-cbind(ola,row.names(ola))
colnames(ola2)<-c("F","M","texto")
ola3<-data.frame(ola2)
ola4<-merge(ola3,metadadosCDT)

png("numperfemvariante.png")
boxplot(as.integer(ola4$F)~ola4$variante, main="Número de personagens femininas\nnas obras da CDT",xlab="Literatura",ylab="Número de personagens femininas",cex.main=1.5,cex.lab=1.3 )
dev.off()

Última atualização desta página: 24 de junho de 2023.

Perguntas, comentários e sugestões