WPT 03
Até à criação da WPT05, a WPT 03 (coleção da Web portuguesa de 2003) era a coleção mais completa
da Web portuguesa disponível até ao momento (aproximadamente 12 GB), e
foi recolhida com os batedores (crawlers) do motor de pesquisa Tumba!.
Esta coleção foi utilizada como repositório web para a indexação e
classificação dos resultados das pesquisas realizadas neste motor.
A WPT 03 compreende:
- todos os ficheiros de tipo HTML, PDF, PS e DOC alojados sob um subdomínio que pertence ao domínio .pt
- todos os ficheiros escritos em português e de tipo HTML, PDF, PS e DOC alojados sob um domínio .com, .org, .net ou .tv, desde que tenham sido referenciados por um link de uma página alojada sob o domínio .pt.
- um diário (log) com registos das pesquisas no servidor web do tumba!, com mais de 1.150.000 registos correspondentes a interrogações a esta recolha de documentos ao longo de 6 meses.
O Tumba! É um motor de pesquisa da Web portuguesa, criado pelo Grupo XLDB, da Faculdade de Ciências da Universidade de Lisboa. O XLDB foi o criador desta coleção. A Linguateca - Centro de Recursos Distribuído para a Língua Portuguesa, é a entidade responsável pela disponibilização desta coleção, através do seu pólo no XLDB.
Conteúdo[hide] |
Como é constituída a recolha da Web portuguesa da WPT 03?
A WPT 03 conta com 3.775.611 documentos, dos quais 68,6% (2.590.641 documentos) estão escritos em português (Daniel Gomes e Mário J. Silva fazem uma breve análise das línguas que estão contidas no WPT 03, no artigo "A Characterization of the Portuguese Web").
Os documentos encontram-se em texto plano, sem etiquetas HTML. Para documentos de tipos PDF ,PS, DOC, etc, o texto foi extr? por conversores próprios. Os documentos contêm metadados associados às páginas recolhidas. Pode ver aqui um exemplo de documentos da WPT 03 (ZIP, 1,5KB)
A WPT 03 está detalhadamente analisada num artigo de Bruno Martins e Mário J. Silva, "A Statistical Study of the WPT 03 Corpus". Neste estudo pode-se verificar que a WPT 03 contém 1.652.645.998 termos (1.208.036.873 termos, para documentos em português, contabilizando cerca de 7.880.609 termos distintos (4.066.300 termos distintos, para documentos em português.
Através do projecto AC/DC, pode consultar uma lista de frequênias das palavras ou unidades constantes da WPT 03.
A WPT 03 contém um filtro escrito em Perl para manipular a coleção e obter várias versões da WPT 03. Esta ferramenta vem incluída no DVD, juntamente com a documentação.
Nuno Seco processou a WPT 03, com o objectivo de sondar, detetar e de eliminar os documentos duplicados desta coleção, que representam mais de 50% da coleção. No final, obteve cerca de 1.5 milhões de documentos únicos, num total de 6 GB.
Luís Sarmento processou a WPT 03 e introduziu-a numa base de dados MySQL, para poder fazer análises de correlações de palavras, para extração de definições e de entidades mencionadas.
Estes dois últimos formatos da WPT 03 (sem duplicados, e em formato SQL) não estão disponíveis no DVD da WPT 03, mas também disponibilizamos a WPT 03 nesses formatos. Para tal, envie uma mensagem para o Pólo XLDB da Linguateca, referindo que pretende receber a WPT 03 e indique o formato pretendido.
Como é constituído o registo das pesquisas no servidor web do tumba! ?
O registo das pesquisas não se encontra disponível de momento, devido a questões de privacidade. Estamos actualmente a trabalhar em novas formas de anonimização mais fortes dos registos das pesquisas, para que possamos disponibilizá-las brevemente, sem comprometer o anonimato dos utilizadores do tumba!.
Como posso obter a WPT 03 e quais as condi?s de utiliza??
A WPT 03, bem como as suas futuras versões, está disponibilizado exclusivamente para fins de investigação e desenvolvimento tecnológico, sendo vedada a sua comercialização e/ou utilização para fins comerciais.
A Linguateca e o pólo XLDB deverão ser sempre referidos como fonte do material utilizado em todas as apresentações públicas de trabalhos que tenham recorrido a esta ferramenta incluindo, designadamente, artigos, teses, comunicações e conferênias.
Uma vez que o XLDB é responsável pela criação do recurso e a Linguateca pela sua disponibilização, a referência à WPT 03 deverá ser feita da seguinte forma:
Como obter a WPT 03
Há alguma actualização ou suporte à WPT 03?
Sim, há a nova recolha, a WPT 05, lançada em Dezembro de 2008. Pode sempre contactar-nos para mais informação e esclarecimentos sobre as recolhas.
Existem outras coleções RI semelhantes?
Sim. Pode consultar outras coleções para RI disponibilizadas pela Linguateca, em http://www.linguateca.pt > Catálogo de Recursos > Coleções de R.I..
Publicações
Para publicações relacionadas com estas colecções, execute a seguinte procura no catálogo de publicações da Linguateca, que contém publicações relacionadas com o processamento computacional da língua portuguesa.
Página no XLDB
O XLDB mantém uma página gémea que pode ser consultada aqui.