O nosso objetivo com o AC/DC, e portanto com o OBras, é tornar mais texto em português procurável, quer para estudos linguísticos quer para estudos culturais. (Mas não para estudos de edição de texto, por exemplo...)
Por isso, e porque usamos vários programas automáticos para lidar com o texto, o mais importante e complexo dos quais é o PALAVRAS, em geral devemos
Como estamos a tratar de textos de literatura, equações e fórmulas matemáticas não são frequentes, nem tabelas, e por isso não temos sequer regras para elas. Mas poder-se-ia considerar <div "equação"> ou outros. De qualquer maneira, é o texto em si que nos interessa, não a sua análise literária. Por isso as marcações de <poesia> ou de uma obra como teatro não são para ser consideradas numa perspetiva literária, mas tão só uma indicação de que o texto dentro de <poesia> </poesia> segue ou pode seguir normas sintáticas e morfológicas diferentes, e que um texto categorizado como teatro tem um tipo de linguagem, e um tipo de indicações (falas de cada personagem) que não se encontram em prosa. É também por isso que todos os casos em que a língua não é o português devem ser demarcados para não confundir os programas e não contar para as contabilizações sobre o português.
id=codigo do autor(iniciais)_titulo_do_livro_sem_carateres_com_diacriticos (reparem que NÃO pode haver espaços) tit=título do livro (agora sim, com a ortografia correta) aut=autor da obra tip=tipo de obra (Prosa, Poesia ou Teatro) gen=gênero da obra (romance, conto, crônica, novela, ensaio, etc. -- pode ser marcado simplesmente prosa se for difícil de classificar) dat=ano de publicação (da primeira vez que foi publicado) esc=escola literária fonte="todos os detalhes que permitem identificar a criação do objeto digital utilizado, como por exemplo: digitalização efetuada por uma parceria entre Portal Domínio Público e Fundação Biblioteca Nacional, obtida de URL em DATA, revista por NOME"Quando houver mais de uma data (publicação como folhetim ou como livro, por exemplo), a data indicada no campo dat será sempre a mais antiga (a de quando foi publicado como folhetim), assumindo que o principal interesse é refletir o melhor possível a data de criação da obra.
Nesses casos, deve-se adicionar um campo "notas", onde as informações adicionais estarão indicadas
notas=data do folhetim, publicado pela primeira vez como obra completa em 1868Já com os metadados organizados, passamos à etapa de processamento do texto:
"... correndo os taipais das montras1 à mais leve sombra de perigo."Depois, em outra parte do texto, está a nota de rodapé
1 Vitrine.O texto deverá ficar assim:
... correndo os taipais das montras <marca num="1"> à mais leve sombra de perigo. <nota num="1"> Vitrine. </nota>As notas de rodapé não precisam de ser números, podem ser um asterisco, por exemplo:
<marca num="*"> <nota num="*"> aqui estará o texto da nota </nota>.Idealmente, as notas deveriam ser colocadas no fim do texto, mas isso implica, no caso de a edição não usar numeração corrida, adicionar o número da página em que a nota aparece:
... correndo os taipais das montras <marca num="1"> à mais leve sombra de perigo. <nota num="1" pag="34"> Vitrine. </nota>
<numpag 17>mas é muito importante perceber que esta informação deve ser incluída no meio de uma frase/sentença se esse for o caso:
e então a <numpag 17> menina viu queEm geral deve-se evitar mudanças de linha sem significado, ou seja, ter frases completas e não divisões arbitrárias.
<div "o nome da parte"> </div>em que o valor de div será preenchido com o nome da seção, por exemplo
<div "dedicatória"> xxxx xxxxx </div> <div "apresentação"> xxx xxxxx </div>
<div "CAPÍTULO II"> <t> O título do capítulo, quando existe </t> O capítulo todo </div>Note-se que nem sempre as indicações de capítulos têm a palavra "capítulo", por vezes têm apenas um número:
<div "3"> <t> O título do capítulo, quando existir </t> O capítulo todo </div>O mesmo deve ser feito para as PARTES, se as houver.
<t> O gaúcho </t>
<estrang lingua=diga_o_idioma> XXXXXX </estrang>Supondo que haja, no meio do texto, um trecho em inglês:
<estrang lingua=ingles> the book is on the table </estrang>Já agora, os códigos de língua não devem conter acentos. Até agora os nomes que temos são, por ordem alfabética
alemao arabe catalao desconhecida dinamarques espanhol frances grego hebraico holandes ingles ioruba italiano japones latim linguageral romeno russo sanscrito sueco turco
----------devem ser simplesmente eliminadas.
<poesia> batatinha quando nasce espalha a rama pelo chão. menininha quando dorme põe a mão no coração. </poesia>
<estrang lingua=espanhol> <poesia> Qui no a visto a Sevilla No a visto a maravilha </poesia> </estrang>
<citacao> <poesia> Sete anos de pastor Jacob servia Labão, pai de Raquel, serrana bela; Mas não servia ao pai, servia a ela, E a ela só por prémio pretendia. Os dias, na esperança de um só dia, Passava, contentando-se com vê-la; Porém o pai, usando de cautela, Em lugar de Raquel lhe dava Lia. Vendo o triste pastor que com enganos Lhe fora assim negada a sua pastora, Como se a não tivera merecida, Começa de servir outros sete anos, Dizendo: -- Mais servira, se não fora Para tão longo amor tão curta a vida! </poesia> </citacao>
<div "índice"> ... </div>Se for um ÍNDICE vulgar, apenas com as páginas e a repetição dos títulos ou dos capítulos, simplesmente remover.
convic- ção des- prezo voltou- -sedevem ser convertidas para as palavras sem translineação:
convicção desprezo voltou-seNo caso, muito pouco provável, de uma palavra dividida coincidir com uma mudança de página numa obra com páginas numeradas, deve colocar-se o número de página antes da palavra sem translineação.
Pode ser necessário tratar especialmente a secção das notas -- colocando-as associadas à obra a que dizem respeito -- e os prefácios e posfácios, de forma a não os repetir em todas as obras: Nesse caso ficam respetivamente associados à primeira obra do livro, e à última.
<t> Despedida </t>em vez de
<t>Despedida</t>