Quatrocantos.com
Pesquisa personalizada
em Quatrocantos.com

Sistemas de busca da web: diretórios e mecanismos de busca

Gevilacio Aguiar Coêlho de Moura

 

Mecanismos de busca e diretórios: características e diferenças

Já que os sistemas de busca foram devidamente apresentados nos capítulos anteriores, agora você vai ver alguns aspectos que distinguem os diretórios dos mecanismos de busca.

Os mecanismos de busca e os diretórios diferem entre si em vários aspectos:

mecanismos de busca 1 tamanho,

mecanismos de busca 2 modo de cadastramento e de atualização,

mecanismos de busca 3 atualidade.


Tamanho

Os mecanismos de busca são, de uma maneira geral, enormes...

Veja alguns números em julho de 2001:

Mecanismos de busca

Número de páginas (em milhões)

Google
1.347
Fast Search All the Web
575
Webtop.com
500
Inktomi
500
AltaVista
550
Northern Light
350
Excite
250

Fonte: http://searchenginewatch.internet.com/ reports/sizes.html

Sobre números e estatísticas sobre a Internet vale a pena consultar a página intitulada Irresponsible Internet Statistics Generator em http://www.anamorph.com/docs/ stats/stats.html .

Tamanhos de alguns diretórios

Diretórios
Número de sites indexados
Data da estimativa
Yahoo! USA
1,5 a 1,8 milhão
ago.00
Open Directory
2.714.693
jul.01 (01)
Looksmart
2.000.000
ago.00
Snap
1.500.000
dez.00

Fonte: http://searchenginewatch.internet.com/ reports/directories.html

(1) Fonte: Open Directory http://dmoz.org/

No Brasil, o RadarUol, um mecanismo de busca, "...realiza a procura no texto integral de mais de 110 milhões de documentos em seu banco de dados...." (V. o texto Introdução ao uso do Radar UOL em http://www.uol.com.br/radaruol/ ajuda_introducao.htm ). Dados de março de 2000 e ainda constantes dessa página em 11.jul.2001.

O Yahoo! do Brasil, um diretório, possuía cerca de 13 mil páginas indexadas ao iniciar os serviços em 1999.


O Radix informava possuir mais de 5 milhões de páginas catalogadas em março de 2000.

Em 01 de janeiro de 2001, o Cadê possuia mais de 300 mil endereços cadastrados.


Os diretórios geralmente têm uma base de dados de menor tamanho que os mecanismos de busca. Mas isso não significa que eles produzam, necessariamente, resultados inferiores. Muito pelo contrário. Devido ao modo de criação de sua base de dados, geralmente eles têm um índice de relevância bem maior.

Modos de cadastramento e de atualização

Nos mecanismos de busca, há duas possibilidades de sua página ser cadastrada:

mecanismos de busca 1 1. um programa de computador se encarrega de encontrar sua página. (Isto é apenas uma probabilidade teórica);

mecanismos de busca 2 2. você informa ao mecanismo de busca o URL (endereço) de sua página. Aí os robôs vão chegar por lá mais cedo do que se deixados por conta própria.

Quer que sua página apareça num diretório? Só tem um jeito: é ir até a página de cadastramento (submissão ou inscrição) e apresentá-la. Você vai ter de informar, além do URL (o endereço do site), a categoria a que o seu site pertence e mais um resumo do conteúdo dele, além do seu e-mail.

Cada diretório possui o seu próprio sistema de classificação ou de definição de categorias. Segundo Search Engine Watch, o Open Directory tem 361 mil categorias, o LookSmart 200 mil e o Snap tem 80 mil.

Veja um exemplo de classificação. Ao procurar no Yahoo! Brasil por Chico Science, saudoso criador do movimento Mangue Beat no Recife, você vai achá-lo em:

Entretenimento > Música > Artistas > Por Gênero > Rock e Pop Nacional > Mangue Beat > Nação Zumbi

(Curiosidade: um dos sites mencionados, o Chico Science & Nação Zumbi, encontra-se hospedado no Reino de Tonga: http://welcome.to/csnz :)

Mais um aspecto a considerar: enquanto um mecanismo de busca pode cadastrar todas as páginas de um site uma a uma, um diretório cadastra todo um site. (Lembre-se de que um site pode conter várias páginas.) Não é raro encontrar-se, nos resultados de uma pesquisa num mecanismo de busca, várias páginas de um mesmo site abordando um mesmo assunto. Isto não ocorre num diretório.

Exemplo bem interessante (?!) dessa diferença - cadastramento de site e de páginas - entre os diretórios e mecanismos de busca, você encontra ao pesquisar "carnaval" e "olinda" no Cadê e no RadarUol. O Cadê apresenta 18 ocorrências. Todas relevantes. O RadarUol mostra 394 resultados. Dos 50 primeiros resultados, 34 são sobre um tal de webcast que não se pode dizer que tenham qualquer relevância... (Pesquisa realizada em julho de 2001).


Atualidade

As bases de dados dos mecanismos de busca são (ou deveriam ser...), de uma maneira geral, mais atualizadas do que as bases de dados dos diretórios. A razão dessa maior atualidade dos mecanismos de busca é muito simples. Os seus robôs não dependem dos humanos para a atividade de catalogação da web. Já os diretórios, eles dependem totalmente dos humanos para essa catalogação.

O tempo de espera, desde a apresentação de um site (ou URL) a um mecanismo de busca, até que ele venha a surgir nas pesquisas pode ser de um dia a três semanas. Nos diretórios, esse tempo de espera geralmente é muito maior.


No que se refere ao modo de pesquisa, os diretórios permitem as duas formas de pesquisa: através de palavras chave e através de diretório ou índice hierárquico. Dos mecanismos de busca mais conhecidos, apenas o All the Web e o Google.com não dispõe de índice hierárquico disponível em sua página de abertura. O AltaVista tem a opção de busca através de índice hierárquico, mas esse índice pertence ao LookSmart. Fica difícil, portanto, estabelecer uma diferença entre os sistemas de busca baseada exclusivamente no modo de pesquisa.

Enfim, as distinções

As distinções entre os dois sistemas de busca se resumem aos seguintes aspectos:

mecanismos de busca 1 1. a existência dos robôs nos mecanismos de busca. Nos diretórios, eles inexistem;

mecanismos de busca 2 2. a exigência de apresentação de um site ao diretório, pois, sem sua apresentação o diretório jamais vai tomar conhecimento dele. Num mecanismo de busca, um site pode ser descoberto devido a um link existente em outra página, muito embora isso seja apenas um probabilidade remota;

mecanismos de busca 3 3. o número de sites catalogados. Os mecanismos de busca são bem maiores;

mecanismos de busca 4 4. atualidade dos mecanismos de busca. Devido à velocidade com que os robôs varrem a rede, os mecanismos de busca conseguem catalogar mais rapidamente uma nova página.
O próximo capítulo trata dos modos de pesquisa nos sistemas de busca.

 


MOURA, Gevilacio Aguiar Coêlho de. Sistemas de busca da web: diretórios e mecanismos de busca. [online] Disponível na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. Última atualização em 01 de janeiro de 2001.

Sumário

Considerações gerais acerca da web

Introdução aos sistemas de busca

Mecanismos de busca

Diretórios

Mecanismos de busca e diretórios: características e diferenças

Utilizando os sistemas de busca: modos de pesquisa

Operadores booleanos

Pesquisa em um diretório


Todos os Direitos Reservados. © Copyright 1999 - 2012. Gevilacio Aguiar Coêlho de Moura. É vedado o uso comercial deste artigo e sua reprodução, no todo ou em parte, só é permitida mediante autorização expressa do autor. Não são permitidas a reprodução nem a manutenção deste artigo em sites, páginas da web e assemelhados.

Veja também Citações e Referências a Documentos Eletrônicos