WPT 05

From XLDB

This page is also available in English.

Conteúdo

Sobre a Coleção

A WPT 05 é uma coleção com mais de 10 milhões de documentos da web portuguesa recolhida pelos batedores (crawlers) do motor de pesquisa Tumba! e produzida pelo Pólo XLDB da Linguateca. Engloba conteúdos recolhidos em 2005 seleccionados de acordo com os seguintes critérios:

  • alojados sob um domínio .pt
  • escritos em portuguêse alojados sob um domínio .com, .org, .net ou .tv, desde que tenham sido referenciados por um link de, pelo menos, uma página alojada sob um domínioo .pt.


A WPT 05 e dados relacionados estão disponíveis em várias versõs e formatos:

Meta-dados da WPT 05
contém os atributos de cada um dos conteúdos recolhidos (incluindo o texto extração automaticamente e a língua identificada) no formato RDF/XML
Conteúdo da WPT05
contém os documentos recolhidos no seu formato original, tal como foram arquivados no formato ARC do Internet Archive
N-gramas da parte em português da WPT 05
inclui os n-gramas gerados a partir do texto dos documentos recolhidos cuja língua foi identificada como o português

A WPT 05 sucede à coleção WPT 03.

meta-dados da WPT 05

A coleção de meta-dados da WPT-05 é distribuída em RDF/XML. Tira partido da tecnologia RDF e da especificação OAI-ORE para a representação de duplicados e hierarquias entre páginas, apresentando os meta-dados de recolha e o texto extração de cada URL.

As características da versão RDF/XML s?

  • Não tem textos duplicados. Os textos dos documentos marcados como duplicados não são incluídos, indicando-se apenas referência para o URL recolhido com esse texto.
  • Preservação dos domínios. A relação de associação das páginas ao domínio de onde foram recolhidas é ndicada nos meta-dados.
  • Documentos ricos em texto. Os documentos incluídos são apenas os que têm um dos seguintes tipos MIME: application/pdf, application/postscript, application/vnd.ms-office, text/html, text/plain, text/rtf.
  • Codificado em UTF-8. Todos os ficheiros da coleção estão codificados em UTF-8.
  • RDF/XML. Cada ficheiro da coleção é um ficheiro XML válido, possibilitando o seu manuseamento pelas ferramentas de software de tratamento de documentos em RDF e XML.
  • Língua identificada. Analisámos todos os textos com o programa ngramj e registámos na etiqueta <dc:language> a língua detectada.

Organização dos meta-dados da WPT 05

Abaixo é apresentado um excerto de um documento representado segundo a especificação OAI-ORE:

 <rdf:Description rdf:about="http://www.di.fc.ul.pt/entrada.html">
   <ore:isAggregatedBy rdf:resource="http://www.di.fc.ul.pt"/>

   <wpt:ipAddr rdf:datatype="http://www.w3.org/2001/XMLSchema#string">194.117.22.87</wpt:ipAddr>
   <wpt:server rdf:datatype="http://www.w3.org/2001/XMLSchema#string">apache</wpt:server>
   <wpt:statusCode rdf:datatype="http://www.w3.org/2001/XMLSchema#int">200</wpt:statusCode>

   <dcterm:modified rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2005-10-13T23:00:00Z</dcterm:modified>
   <wpt:fetched rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2005-11-23T12:32:44Z</wpt:fetched>
   <dc:format rdf:resource="text/html"/>

   <wpt:arcName rdf:resource="WPT-9-20080823090030-00857"/>
   <wpt:filteredText>Departamento de Informática - FCUL
&gt;
Logótipo DI DI DI Bem-vindo Somos o Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa.
...
   </wpt:filteredText>
   <dc:language>pt</dc:language>
</rdf:Description>

No caso de uma página ser duplicada de outra, a representação será:

<rdf:Description rdf:about="http://www.di.fc.ul.pt/">
   <ore:isAggregatedBy rdf:resource="http://www.di.fc.ul.pt"/>
   <wpt:ipAddr rdf:datatype="http://www.w3.org/2001/XMLSchema#string">194.117.22.87</wpt:ipAddr>

   <wpt:server rdf:datatype="http://www.w3.org/2001/XMLSchema#string">apache</wpt:server>
   <wpt:statusCode rdf:datatype="http://www.w3.org/2001/XMLSchema#int">200</wpt:statusCode>
   <dcterm:modified rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2005-10-13T23:00:00Z</dcterm:modified>

   <wpt:fetched rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2005-11-23T12:29:40Z</wpt:fetched>
   <dc:format rdf:resource="text/html"/>
   <wpt:arcName rdf:resource="WPT-9-20080819155514-00002"/>
   <wpt:duplicateOf>http://www.di.fc.ul.pt/entrada.html</wpt:duplicateOf>

 </rdf:Description>

Para mais informação sobre a especificação OAI-ORE, consulte o OAI-ORE Primer ou o Guia RDF/XML para OAI-ORE.


Conteúdo da WPT 05

A coleção de conteúdos da WPT 05 contém os documentos como foram recolhidos, sem aplicação de qualquer pós-rocessamento ou filtragem dos documentos incluídos por tipo, duplicados, nem aplicação de qualquer uniformização da codificação.

Para representar os dados na sua forma mais genuí possível, recorreu-se ao formato ARC do Internet Archive, um formato criado especialmente para o arquivamento de recolhas de páginas web. Para mais informação relativamente à sintaxe e às especificidades desse formato, consulte a especificação do formato ARC.


N-gramas da parte em português da WPT 05

Contámos n-gramas gerados a partir dos textos da WPT05 classificados como escritos em português(7 milhões de documentos ou 26 Gigabytes de texto).

Gerámos até 5-grams utilizando os programas do pacote Ngram Statistics Package.

Aplicámos as expressões regulares abaixo enumeradas para atomizar o texto:

 \w+                                                     # "word" character
 [\.,;:\?!]                                              # punctation
 \w+\'\w+                                                # "word" connected by '
 \bn\.o                                                  # number
 [\w_.-]+ \@ [\w_.-]+\w                                  # emails
 \w+\.?[ºª]\.?                                          # ordinals
 \d+(?:\/\d+)+                                           # dates or similar: 12/21/1
 \d+(?:[.,]\d+)+%?                                       # numbers
 \d+(?:\.[oa])+                                          # ordinals numbers: 12.o
 \d+\:\d+(\:\d+)?                                        # the time: 12:12:2
 ((https?|ftp|gopher)://|www)[\w_./~:-]+\w               # urls
 \w+\.(?:com|org|net|pt)                                 # simplified urls
 \w+(-\w+)+                                              # dá-lo-á
 \\\\unicode\{\d+\}                                      # unicode
 \w+\.(?:exe|html?|zip|jpg|gif|wav|mp3|png|t?gz|pl|xml)  # filenames


Estas expressões regulares fazem parte da Perl extension for NLP of the portuguese, que inclui um atomizador para portuguêsdesenvolvido pela Linguateca.

Organização dos N-gramas

Os n-gramas são disponibilizados como ficheiros codificados em UTF-8, contendo cada linha um n-grama e a sua frequência, como ilustrado abaixo:

Exemplo de dados de trigramas:

   à Associação Montfort 4
   à Associação motivo 7
   à Associação Movimento 1
   à Associação Música 3
   à Associação Mulheres 2
   à Associação Mundial 4
   à Associação Municipal 3
   à Associação Municípios 1
   à Associação Museológica 1
   à Associação Musical 3

Exemplo de dados de tetragramas:

   A detenção de Carlos 3
   A detenção de certas 1
   A detenção de Cães 1
   A detenção de cidadão 1
   A detenção de cidadãos 2
   A detenção de cinco 2
   A detenção de clérigos 1
   A detenção de Davoudi 4
   A detenção de equipamentos 1

Estatísticas da coleção n-gramas da parte em português da WPT05

A contagem de n-gramas de cada tipo é:

  • Unigramas: 9 058 689
  • Bigramas: 129 248 724
  • Trigramas: 501 610 788
  • Tetragramas: 985 212 499
  • Pentagramas: 1 323 408 463

O conjunto dos n-gramas perfaz um total de 72 Gigabytes de texto (17 Gigabytes quando comprimidos com bzip2).

Condições de utilização

A WPT 05 é disponibilizada exclusivamente para fins de investigação. Está vedada a utilização para fins comerciais.

A Linguateca e o pólo XLDB deverão ser sempre referidos como fonte do material utilizado em todas as apresentações públicas de trabalhos que tenham recorrido a este recurso, incluindo, designadamente: artigos, teses e comunicações em conferências.

Uma vez que o pólo XLDB da Linguateca é responsável pela criação do recurso e a Linguateca pela sua disponibilização, a referência à WPT 05 deverá ser feita numa das seguintes formas:

A WPT 05 é um recurso criado pela Equipa de Investigação XLDB do LASIGE (http://xldb.di.fc.ul.pt/) em conjunto com a Linguateca.
The WPT 05 is a resource built by the XLDB Research Team of LASIGE (http://xldb.di.fc.ul.pt/) with Linguateca.

Como obter a WPT 05


Terá de preencher e enviar o formulário de pedido para:

Fernando Ribeiro - Linguateca - FCCN
Apartado 50435

1708-001
Portugal


O documento terá de estar assinado pela pessoa responsável pela organização que solicita o uso da coleção. O formulário poderá inda ser enviado para o n.º de fax +351 21 847 21 67. Após a receção da documentação necessária, será facultado o endereço web, e respectiva palavra-passe, para poder aceder e transferir o recurso (disponível com compressão em gzip ou bzip2). Em alternativa, poderá pedir o envio da coleção em suporte físico (consistirá em dois DVDs; ficheiros com compressão em gzip).

Actualizações e apoio à utilização da WPT 05

Dado que pretendemos manter uma colaboração próxima com os utilizadores da WPT 05. Qualquer esclarecimento sobre as características da WPT 05, pode ser obtido enviando uma mensagem para a Linguateca


Coleções semelhantes

A Linguateca tem um catálogo de Coleções para recuperação de informação em português

Publicações

Para publicações relacionadas com estas colecções, execute a seguinte procura no catálogo de publicações da Linguateca, que contém publicações relacionadas com o processamento computacional da língua portuguesa.


Página no XLDB

O XLDB mantém uma página gémea que pode ser consultada aqui.