Quatrocantos.com
Pesquisa personalizada
em Quatrocantos.com

Sistemas de busca da web: diretórios e mecanismos de busca

Gevilacio Aguiar Coêlho de Moura

 

Considerações gerais acerca da web

A primeira vez que uma pessoa faz, ou tenta fazer, uma pesquisa na web é, quase sempre, uma experiência frustrante. O neófito já ouviu falar por aí que na Internet existe de tudo, inclusive informações valiosas sobre o tema que lhe desperta a vontade de navegar pela rede. Aí o nosso neófito se prepara em frente ao monitor, faz a conexão, vê o Netscape ou o Internet Explorer ali na telinha do computador e... E agora? Como começar? E o nosso amigo nem sai do lugar, não acha nada. Na verdade, nem sabe como procurar.

E a razão dessa frustração é muito simples. A web é a entidade mais desorganizada e caótica do planeta. (Todo mundo está cansado de saber que vai uma boa dose de exagero nessa afirmação. Tem muita repartição por aí que ganha de lambuja. Mas isso é outra história.)

As normas e leis que vigem na web se resumem a padrões de linguagem, de protocolos de comunicação, de registro de domínios. Coisas meramente técnicas.

Aos mais desavisados, a web parece uma imensa livraria completamente desorganizada. Mas é muito pior.

Apesar disso, é possível achar as informações que se procuram, desde que, evidentemente, elas estejam por lá... (Um pouco de sorte também ajuda.)

Uma ressalva

Pode-se encontrar, mas é necessário que além de a página que aborda o assunto estar lá, que essa página também tenha sido catalogada por uma entidade chamada sistema de busca. Ou então que o autor da página tenha tido uma consideração toda especial com você e tenha lhe passado o endereço da página, o URL - Uniform Resource Locator.

Quer dizer: alguém pode ter elaborado uma página maravilhosa sobre... sobre... vamos ver... selos. Isso aí: selos. Esse alguém criou a página com belas reproduções de selos raros, histórias curiosas, catálogos de preços. Mas o autor da página nem se lembrou de avisar aos filatelistas nem tampouco avisou aos sistemas de busca para catalogarem sua obra prima: A Página. Resultado: ninguém vai tomar conhecimento dela.

Seria a web uma imensa livraria?

Agora, imagine você o que é procurar alguma coisa numa imensa livraria totalmente desorganizada, caótica e sem vendedores a quem pedir alguma informação.

Uma livraria normal, quer dizer, razoavelmente organizada, por maior que ela seja, ela tem seus livros, revistas e publicações em geral dispostos segundo algumas normas ou critérios. Podem estar dispostos segundo a editora, o assunto ou o gênero literário, segundo a ordem alfabética dos autores. Existe um padrão de organização. Qualquer pessoa, conhecendo essa forma de organização, é capaz de achar qualquer livro ou publicação.

Na web, não é bem assim. A web é uma imensa base de dados, uma formidável coleção de textos, livros, artigos, revistas, jornais, e-zines, catálogos de produtos e de serviços, músicas, sons, imagens, fotografias, programas de computador, vídeos, filmes, peças publicitárias. Tudo isso encontra-se por lá. E está ao seu alcance, desde que você saiba como encontrar o que lhe interessa utilizando os sistemas de busca. (É bom lembrar que na web também existe muito lixo e coisas sem qualquer utilidade. Pra quem gosta do gênero "coisas inúteis" sugiro uma visita a http://www.go2net.com/internet/useless/ )

Esta série de artigos sobre os sistemas de busca é baseada na premissa de que você, usuário recém chegado ao mundo da Internet e ainda em início de carreira, está interessado em usar a web para realizar pesquisas e obter informações a respeito de determinado assunto. Qual o assunto? Qualquer um.

O tamanho da web

Qualquer assunto que você imaginar você encontra na web, pois nessa imensa e caótica livraria, ou biblioteca, como preferir, tem de tudo. O que pode acontecer é que a página que contém o tal assunto não esteja em português, mas em outro idioma, provavelmente em inglês. Segundo a empresa Inktomi (http://www.inktomi.com/webmap/) 86.55 % das páginas da web estão em inglês. Considerando que o número de habitantes dos países de língua inglesa corresponde a uns 6,8 % da população mundial constata-se a predominância desse idioma na web.

Em fevereiro de 1999, o número de documentos (ou páginas) existentes na web era estimado em cerca de 800 milhões (LAWRENCE e GILES) e, segundo cálculos, esse número deveria dobrar aí pelo começo do ano 2000.

Duas empresaas americanas, a NEC e a Inktomi estimaram que havia, no início de fevereiro deste ano de 2000, cerca de 1 bilhão de páginas indexáveis na web (Veja http://www.inktomi. com/webmap/ .

Levando em conta que aí por volta do carnaval do ano 2000 a população mundial era um pouco mais de 6 bilhões de pessoas e dividindo essa população pelo número de páginas existentes na web, cerca de 1 bilhão de páginas, tem-se que para cada seis habitantes do planeta existiria uma página.

Mas essa média, como qualquer outra média, pouco expressa em termos de realidade, pois o grau de pobreza da maior parte dos habitantes da terra impede essa grande maioria de ter acesso à Internet. Na verdade impede essa grande maioria de ter acesso até mesmo aos itens mais básicos de cidadania: comida, educação, trabalho, saúde e moradia, por exemplo. Em Pindorama também é assim.

A web no Brasil

Para uma população de cerca de 160 milhões de pessoas, existem, no Brasil, de 3 a 8 milhões de usuários da Internet, dependendo de quem faz a estimativa. Os critérios ou metodologias de cálculo são os mais diversos.

Se existem vários números diferentes para quantitificar o número de usuários, é bem mais fácil saber quantos domínios registrados existem no Brasil. Segundo a Fapesp, havia, em 31 de dezembro de 2000, 359.630 domínios registrados. Além dos domínios registrados no Brasil, há, ainda, um número não contabilizado, e difícil de se determinar, de domínios que estão sob a responsabilidade de brasileiros residentes no Brasil mas que são registrados noutros países, principalmente nos Estados Unidos.

As razões dessa migração virtual são diversas, mas a principal é, certamente, o menor custo de manutenção de um site nos Estados Unidos. Lá, as empresas de hospedagem de sites cobram a partir de dez centavos de dólar por um megabyte de espaço em disco. Aqui no Brasil, as empresas cobram muito mais. Além disso, lá existem, há vários anos, as empresas de hospedagem gratuita de sites. Aqui no Brasil, agora é que começam a surgir empresas desse tipo.

Quanto à taxa de registro de um domínio nos Estados Unidos, a Network Solutions e empresas credenciadas cobram U$ 70 para o registro e a manutenção de um domínio durante o período de dois anos. Nos anos subseqüentes, a taxa é de 35 dólares por ano. Aqui no Brasil, para o mesmo registro, a Fapesp cobra R$ 50 de inscrição mais R$ 50 por ano.


Mas já está na hora de começar a falar sobre os sistemas de busca: o que é um sistema de busca?

Clique aqui para ver a segunda parte: Introdução aos sistemas de busca.


LAWRENCE, Steve e GILES, C. Lee. Accessibility of information on the web. Nature, vol. 400. July 1999. Pag. 107 - 109. (Reprint desse artigo pode ser solicitado através da página http://www.neci.nj.nec.com/ ~giles/html/ new.stuff.html)

 


MOURA, Gevilacio Aguiar Coêlho de. Sistemas de busca da web: diretórios e mecanismos de busca. [online] Disponível na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. Última atualização em 01 de janeiro de 2001.

Sumário

Considerações gerais acerca da web

Introdução aos sistemas de busca

Mecanismos de busca

Diretórios

Mecanismos de busca e diretórios: características e diferenças

Utilizando os sistemas de busca: modos de pesquisa

Operadores booleanos

Pesquisa em um diretório


Todos os Direitos Reservados. © Copyright 1999 - 2012. Gevilacio Aguiar Coêlho de Moura. É vedado o uso comercial deste artigo e sua reprodução, no todo ou em parte, só é permitida mediante autorização expressa do autor. Não são permitidas a reprodução nem a manutenção deste artigo em sites, páginas da web e assemelhados.

Veja também Citações e Referências a Documentos Eletrônicos