WPT 03


Até à criação da WPT05, a WPT 03 (coleção da Web portuguesa de 2003) era a coleção mais completa da Web portuguesa disponível até ao momento (aproximadamente 12 GB), e foi recolhida com os batedores (crawlers) do motor de pesquisa Tumba!. Esta coleção foi utilizada como repositório web para a indexação e classificação dos resultados das pesquisas realizadas neste motor.

A WPT 03 compreende:

  • todos os ficheiros de tipo HTML, PDF, PS e DOC alojados sob um subdomínio que pertence ao domínio .pt
  • todos os ficheiros escritos em português e de tipo HTML, PDF, PS e DOC alojados sob um domínio .com, .org, .net ou .tv, desde que tenham sido referenciados por um link de uma página alojada sob o domínio .pt.
  • um diário (log) com registos das pesquisas no servidor web do tumba!, com mais de 1.150.000 registos correspondentes a interrogações a esta recolha de documentos ao longo de 6 meses.

O Tumba! É um motor de pesquisa da Web portuguesa, criado pelo Grupo XLDB, da Faculdade de Ciências da Universidade de Lisboa. O XLDB foi o criador desta coleção. A Linguateca - Centro de Recursos Distribuído para a Língua Portuguesa, é a entidade responsável pela disponibilização desta coleção, através do seu pólo no XLDB.

Conteúdo

[hide]

Como é constituída a recolha da Web portuguesa da WPT 03?


A WPT 03 conta com 3.775.611 documentos, dos quais 68,6% (2.590.641 documentos) estão escritos em português (Daniel Gomes e Mário J. Silva fazem uma breve análise das línguas que estão contidas no WPT 03, no artigo "A Characterization of the Portuguese Web").

Os documentos encontram-se em texto plano, sem etiquetas HTML. Para documentos de tipos PDF ,PS, DOC, etc, o texto foi extr? por conversores próprios. Os documentos contêm metadados associados às páginas recolhidas. Pode ver aqui um exemplo de documentos da WPT 03 (ZIP, 1,5KB)

A WPT 03 está detalhadamente analisada num artigo de Bruno Martins e Mário J. Silva, "A Statistical Study of the WPT 03 Corpus". Neste estudo pode-se verificar que a WPT 03 contém 1.652.645.998 termos (1.208.036.873 termos, para documentos em português, contabilizando cerca de 7.880.609 termos distintos (4.066.300 termos distintos, para documentos em português.

Através do projecto AC/DC, pode consultar uma lista de frequênias das palavras ou unidades constantes da WPT 03.

A WPT 03 contém um filtro escrito em Perl para manipular a coleção e obter várias versões da WPT 03. Esta ferramenta vem incluída no DVD, juntamente com a documentação.

Nuno Seco processou a WPT 03, com o objectivo de sondar, detetar e de eliminar os documentos duplicados desta coleção, que representam mais de 50% da coleção. No final, obteve cerca de 1.5 milhões de documentos únicos, num total de 6 GB.

Luís Sarmento processou a WPT 03 e introduziu-a numa base de dados MySQL, para poder fazer análises de correlações de palavras, para extração de definições e de entidades mencionadas.

Estes dois últimos formatos da WPT 03 (sem duplicados, e em formato SQL) não estão disponíveis no DVD da WPT 03, mas também disponibilizamos a WPT 03 nesses formatos. Para tal, envie uma mensagem para o Pólo XLDB da Linguateca, referindo que pretende receber a WPT 03 e indique o formato pretendido.

Como é constituído o registo das pesquisas no servidor web do tumba! ?


O registo das pesquisas não se encontra disponível de momento, devido a questões de privacidade. Estamos actualmente a trabalhar em novas formas de anonimização mais fortes dos registos das pesquisas, para que possamos disponibilizá-las brevemente, sem comprometer o anonimato dos utilizadores do tumba!.

Como posso obter a WPT 03 e quais as condi?s de utiliza??


A WPT 03, bem como as suas futuras versões, está disponibilizado exclusivamente para fins de investigação e desenvolvimento tecnológico, sendo vedada a sua comercialização e/ou utilização para fins comerciais.

A Linguateca e o pólo XLDB deverão ser sempre referidos como fonte do material utilizado em todas as apresentações públicas de trabalhos que tenham recorrido a esta ferramenta incluindo, designadamente, artigos, teses, comunicações e conferênias.

Uma vez que o XLDB é responsável pela criação do recurso e a Linguateca pela sua disponibilização, a referência à WPT 03 deverá ser feita da seguinte forma:

A WPT 03 é um recurso criado pela Equipa de Investigação XLDB do LASIGE (http://xldb.di.fc.ul.pt/) em conjunto com a Linguateca.
The WPT 03 is a resource built by the XLDB Research Team of LASIGE (http://xldb.di.fc.ul.pt/) with Linguateca.

Como obter a WPT 03


Nome:
Instituição:
Email:
Recurso:
Descrição do âmbito de interesse no recurso:
As palavras est?incorrectas. Tente novamente
Insira as 2 palavras: Insira os números que ouve:


Há alguma actualização ou suporte à WPT 03?


Sim, há a nova recolha, a WPT 05, lançada em Dezembro de 2008. Pode sempre contactar-nos para mais informação e esclarecimentos sobre as recolhas.

Existem outras coleções RI semelhantes?


Sim. Pode consultar outras coleções para RI disponibilizadas pela Linguateca, em http://www.linguateca.pt > Catálogo de Recursos > Coleções de R.I..

Publicações


Para publicações relacionadas com estas colecções, execute a seguinte procura no catálogo de publicações da Linguateca, que contém publicações relacionadas com o processamento computacional da língua portuguesa.


Página no XLDB

O XLDB mantém uma página gémea que pode ser consultada aqui.