Mãos às OBras

OBras, corpo de Obras Brasileiras, Linguateca

Produto final

O que se pretende no tratamento da obra para o OBras não é preservar toda e qualquer informação sobre o texto original, como formatação (itálicos, negritos, espaços em branco) ou todo o tipo de informação não-textual como valores numéricos, equações, tabelas, etc., como é por exemplo feito em projetos que usam o TEI.

O nosso objetivo com o AC/DC, e portanto com o OBras, é tornar mais texto em português procurável, quer para estudos linguísticos quer para estudos culturais. (Mas não para estudos de edição de texto, por exemplo...)

Por isso, e porque usamos vários programas automáticos para lidar com o texto, o mais importante e complexo dos quais é o PALAVRAS, em geral devemos

Ambas estas regras genéricas são exatamente para não atrapalhar as nossas ferramentas.

Como estamos a tratar de textos de literatura, equações e fórmulas matemáticas não são frequentes, nem tabelas, e por isso não temos sequer regras para elas. Mas poder-se-ia considerar <div "equação"> ou outros. De qualquer maneira, é o texto em si que nos interessa, não a sua análise literária. Por isso as marcações de <poesia> ou de uma obra como teatro não são para ser consideradas numa perspetiva literária, mas tão só uma indicação de que o texto dentro de <poesia> </poesia> segue ou pode seguir normas sintáticas e morfológicas diferentes, e que um texto categorizado como teatro tem um tipo de linguagem, e um tipo de indicações (falas de cada personagem) que não se encontram em prosa. É também por isso que todos os casos em que a língua não é o português devem ser demarcados para não confundir os programas e não contar para as contabilizações sobre o português.

Instruções

Para cada livro selecionado (a questão de como efetuar a seleção será descrita noutra página), no arquivo lista_de_obras.txt, indicar os metadados, incluindo:
id=codigo do autor(iniciais)_titulo_do_livro_sem_carateres_com_diacriticos (reparem que NÃO pode haver espaços)
tit=título do livro (agora sim, com a ortografia correta)
aut=autor da obra
tip=tipo de obra (Prosa, Poesia ou Teatro)
gen=gênero da obra (romance, conto, crônica, novela, ensaio, etc. -- pode ser marcado simplesmente prosa se for difícil de classificar)
dat=ano de publicação (da primeira vez que foi publicado)
esc=escola literária
fonte="todos os detalhes que permitem identificar a criação do objeto digital utilizado, como por exemplo: digitalização efetuada por uma parceria entre Portal Domínio Público e Fundação Biblioteca Nacional, obtida de URL em DATA, revista por NOME"
Quando houver mais de uma data (publicação como folhetim ou como livro, por exemplo), a data indicada no campo dat será sempre a mais antiga (a de quando foi publicado como folhetim), assumindo que o principal interesse é refletir o melhor possível a data de criação da obra.

Nesses casos, deve-se adicionar um campo "notas", onde as informações adicionais estarão indicadas

notas=data do folhetim, publicado pela primeira vez como obra completa em 1868
Já com os metadados organizados, passamos à etapa de processamento do texto: Em geral, todas as marcações entre < > devem estar separadas por espaços daquilo de que marcam, ou seja, por exemplo:
<t> Despedida </t>
em vez de
<t>Despedida</t>

Regras "negativas"

Para precisar alguns pontos, eis algumas coisas que não se devem fazer:
Autores: Cláudia Freitas e Diana Santos. Contribuições de: Maria Clara Castro.
Última atualização: 20 de dezembro de 2025.
Perguntas, comentários e sugestões.