![]() |
![]() Pesquisa personalizada em Quatrocantos.com | Sistemas de busca da web: diretórios e mecanismos de buscaGevilacio Aguiar Coêlho de Moura |
|
Mecanismos de busca | Número de páginas (em milhões) |
Google | 1.347 |
Fast Search All the Web | 575 |
Webtop.com | 500 |
Inktomi | 500 |
AltaVista | 550 |
Northern Light | 350 |
Excite | 250 |
Fonte: http://searchenginewatch.internet.com/ reports/sizes.html
Sobre números e estatísticas sobre a Internet vale a pena consultar a página intitulada Irresponsible Internet Statistics Generator em http://www.anamorph.com/docs/ stats/stats.html .
Tamanhos de alguns diretórios
Diretórios | Número de sites indexados | Data da estimativa |
| Yahoo! USA | 1,5 a 1,8 milhão | ago.00 |
| Open Directory | 2.714.693 | jul.01 (01) |
| Looksmart | 2.000.000 | ago.00 |
| Snap | 1.500.000 | dez.00 |
Fonte: http://searchenginewatch.internet.com/ reports/directories.html
(1) Fonte: Open Directory http://dmoz.org/
No Brasil, o RadarUol, um mecanismo de busca, "...realiza a procura no texto integral de mais de 110 milhões de documentos em seu banco de dados...." (V. o texto Introdução ao uso do Radar UOL em http://www.uol.com.br/radaruol/ ajuda_introducao.htm ). Dados de março de 2000 e ainda constantes dessa página em 11.jul.2001.O Yahoo! do Brasil, um diretório, possuía cerca de 13 mil páginas indexadas ao iniciar os serviços em 1999.
O Radix informava possuir mais de 5 milhões de páginas catalogadas em março de 2000.Em 01 de janeiro de 2001, o Cadê possuia mais de 300 mil endereços cadastrados.
Os diretórios geralmente têm uma base de dados de menor tamanho que os mecanismos de busca. Mas isso não significa que eles produzam, necessariamente, resultados inferiores. Muito pelo contrário. Devido ao modo de criação de sua base de dados, geralmente eles têm um índice de relevância bem maior.Modos de cadastramento e de atualização
Nos mecanismos de busca, há duas possibilidades de sua página ser cadastrada:
1. um programa de computador se encarrega de encontrar sua página. (Isto é apenas uma probabilidade teórica);
2. você informa ao mecanismo de busca o URL (endereço) de sua página. Aí os robôs vão chegar por lá mais cedo do que se deixados por conta própria.
Quer que sua página apareça num diretório? Só tem um jeito: é ir até a página de cadastramento (submissão ou inscrição) e apresentá-la. Você vai ter de informar, além do URL (o endereço do site), a categoria a que o seu site pertence e mais um resumo do conteúdo dele, além do seu e-mail.
Cada diretório possui o seu próprio sistema de classificação ou de definição de categorias. Segundo Search Engine Watch, o Open Directory tem 361 mil categorias, o LookSmart 200 mil e o Snap tem 80 mil.
Veja um exemplo de classificação. Ao procurar no Yahoo! Brasil por Chico Science, saudoso criador do movimento Mangue Beat no Recife, você vai achá-lo em:
Entretenimento > Música > Artistas > Por Gênero > Rock e Pop Nacional > Mangue Beat > Nação Zumbi(Curiosidade: um dos sites mencionados, o Chico Science & Nação Zumbi, encontra-se hospedado no Reino de Tonga: http://welcome.to/csnz :)
Mais um aspecto a considerar: enquanto um mecanismo de busca pode cadastrar todas as páginas de um site uma a uma, um diretório cadastra todo um site. (Lembre-se de que um site pode conter várias páginas.) Não é raro encontrar-se, nos resultados de uma pesquisa num mecanismo de busca, várias páginas de um mesmo site abordando um mesmo assunto. Isto não ocorre num diretório.Exemplo bem interessante (?!) dessa diferença - cadastramento de site e de páginas - entre os diretórios e mecanismos de busca, você encontra ao pesquisar "carnaval" e "olinda" no Cadê e no RadarUol. O Cadê apresenta 18 ocorrências. Todas relevantes. O RadarUol mostra 394 resultados. Dos 50 primeiros resultados, 34 são sobre um tal de webcast que não se pode dizer que tenham qualquer relevância... (Pesquisa realizada em julho de 2001).Atualidade
As bases de dados dos mecanismos de busca são (ou deveriam ser...), de uma maneira geral, mais atualizadas do que as bases de dados dos diretórios. A razão dessa maior atualidade dos mecanismos de busca é muito simples. Os seus robôs não dependem dos humanos para a atividade de catalogação da web. Já os diretórios, eles dependem totalmente dos humanos para essa catalogação.O tempo de espera, desde a apresentação de um site (ou URL) a um mecanismo de busca, até que ele venha a surgir nas pesquisas pode ser de um dia a três semanas. Nos diretórios, esse tempo de espera geralmente é muito maior.
No que se refere ao modo de pesquisa, os diretórios permitem as duas formas de pesquisa: através de palavras chave e através de diretório ou índice hierárquico. Dos mecanismos de busca mais conhecidos, apenas o All the Web e o Google.com não dispõe de índice hierárquico disponível em sua página de abertura. O AltaVista tem a opção de busca através de índice hierárquico, mas esse índice pertence ao LookSmart. Fica difícil, portanto, estabelecer uma diferença entre os sistemas de busca baseada exclusivamente no modo de pesquisa.Enfim, as distinções
As distinções entre os dois sistemas de busca se resumem aos seguintes aspectos:
1. a existência dos robôs nos mecanismos de busca. Nos diretórios, eles inexistem;
2. a exigência de apresentação de um site ao diretório, pois, sem sua apresentação o diretório jamais vai tomar conhecimento dele. Num mecanismo de busca, um site pode ser descoberto devido a um link existente em outra página, muito embora isso seja apenas um probabilidade remota;
3. o número de sites catalogados. Os mecanismos de busca são bem maiores;
4. atualidade dos mecanismos de busca. Devido à velocidade com que os robôs varrem a rede, os mecanismos de busca conseguem catalogar mais rapidamente uma nova página.
O próximo capítulo trata dos modos de pesquisa nos sistemas de busca.
MOURA, Gevilacio Aguiar Coêlho de. Sistemas de busca da web: diretórios e mecanismos de busca. [online] Disponível na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. Última atualização em 01 de janeiro de 2001.
Sumário
Considerações gerais acerca da web
Introdução aos sistemas de busca
Mecanismos de busca
Diretórios
Mecanismos de busca e diretórios: características e diferenças
Utilizando os sistemas de busca: modos de pesquisa
Operadores booleanos
Pesquisa em um diretório
|
Antispam Arquitetura on-line Barcos à venda Bandeiras dos estados brasileiros Brasões dos estados do Brasil Campo Formoso Gem Show Campo Formoso, terra de esmeraldas Carnaval de Olinda Jóias em prata Imagens do Brasil Lendas e folclore da Internet, as pulhas virtuais Minerais Pedras preciosas Vídeos Sisal Home |