Acesso a corpos de português: Projecto AC/DC: corpo ENPCPUB (parte em português)

ENPCPUB (parte em português) : AC/DC : Linguateca
O corpus ENPCPUB é um corpus de traduções para português de textos literários em inglês (Johansson et al., 1996, 1999; Oksefjell 1999). Apenas recebemos autorização para dar acesso a uma pequena parte do corpus ENPC, nomeadamente extractos dos textos (identificação do ENPC):
CódigoAutorObraEditoraAnoTradutor(a)Título original
JB1PPJulian BarnesAmor & C.aQuetzal Editores, Lisboa1994Helena CardosoTalking It Over.
BC1Bruce ChatwinUtzQuetzal Editores, Lisboa1991José Luís LunaUtz.
AH1Arthur HaileyRemédio AmargoDistribuidora Record, Rio de Janeiros/dA.B.P. de Lemos. Strong Medicine.
JH1Joseph HellerImaginem queDifusão Cultural, Lisboa1991Cristina Rodriguez. Picture This.
NG1Nadine GordimerA história do meu filhoEditora Siciliano, São Paulo1992Geraldo Galvão FerrazMy Son's Story.

O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).

Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).
Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".

Estrutura do corpo

Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.
Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".
O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).

Versão do corpo

Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado a 6 de julho de 2024, v. 10.1

Excerto do corpo


<texto Ah1tp-4.txt>
<parte 1>
Prólogo : 1985
<p par=1>
<s frase=1>
No 747 , na primeira classe e meia hora depois da partida de Londres, o Dr. Andrew Jordan pegou a mão da mulher.
</s>
</p>
<p par=2>
<s frase=2>
-- Não se preocupe -- recomendeu ele .
</s>

Dados quantitativos

Corpo ENPCPUB Número de formasNúmero de tipos
Unidades 9041112909
Total de palavras 7283712894
Palavras em minúscula 5765410248
Palavras com inicial maiúscula70341673
Palavras todas em maiúsculas 7450
Números 13478
Palavras com números292
Palavras mistas2016
Pontuação495215

Número de unidades estruturais

Atributo Número
p 1682
s 4369
texto 5
parte 8
capitulo 25
mwe 239

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 2541 2920
Locuções 239 522
Palavras gráficas 72837 72837
Palavras simples 69395 69395
Palavras 72175 72837

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 13343 19,23%
Verbos V.* 12844 18,51%
Adjectivos ADJ.* 3924 5,65%
Pronomes pessoais .*PERS.* 3089 4,45%
Preposições PRP.* 11293 16,27%
Conjunções K.* 3809 5,49%
Advérbios ADV.* 4957 7,14%
Determinantes .*DET.* 12236 17,63%
Especificadores .*SPEC.* 1812 2,61%
Numerais NUM.* 770 1,11%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última atualização: 13 de Julho de 2024
Perguntas, comentários e sugestões