Utilizando os sistemas de busca: modos de pesquisa Conforme já foi dito noutro artigo, o número estimado de páginas da web no início de 2000 era de cerca de 1 bilhão de páginas. Para alguém localizar, nesse universo, uma página que contenha um determinado assunto é necessário que se usem alguns recursos dos sistemas de busca. Não basta, simplesmente, indicar a palavra e esperar o resultado. Há quem use um lugar comum ao falar das dificuldades de pesquisa na web: é o mesmo achar uma agulha num palheiro, dizem. (A propósito: jamais encontrei essa palavra palheiro que não fosse associada a uma agulha que se pretende encontrar. Acho, mesmo, que jamais alguém conseguiu encontrar tal objeto em tal local...:) Suponho que você se interesse por futebol. (Eu não me interesso nem um pouco, diga-se de passagem.) Por acaso, acabei de pesquisar a palavra futebol e obtive os seguintes resultados (julho de 2001):
(1) 68 categorias e 641 sites para futebol.
E agora? Por onde começar a seleção das páginas? Tem mais: qual delas contém o aspecto que interessa? Dificilmente alguém realiza uma pesquisa assim, sem mais nem menos, indicando uma só palavra. A pessoa interessada na pesquisa sempre delimita de alguma maneira o campo de busca, seja indicando o idioma (restrição permitida no AltaVista, Google, Hot Bot e Excite) seja indicando um intervalo no calendário, ou informando mais de uma palavra. Sempre se deve usar algum recurso de modo que haja uma redução do universo ou do alcance da busca. Quer dizer, o pesquisador sempre tem em mente alguma coisa mais ou menos específica. Talvez ele queira saber algo acerca de um time de futebol como, por exemplo, o Íbis Sport Clube, conhecido como o pior time de futebol do mundo. O que o nosso pesquisador deve fazer? Ele vai até a página de pesquisa do Radix e escreve ibis . Resultado: 2.447 links. íbis pior futebol mundo com a opção "Todas as palavras acima". E a resposta vem logo, logo. O URL do glorioso Íbis Sport Clube (http://members.nbci.com/IbisSC/), o Pior Time do Mundo, título que ele ostenta com muito orgulho, aparece logo na primeira página de resultados junto a notícias sobre o glorioso time
| Um pequeno parêntese: na página do Íbis você encontra a seguinte informação: "O nome Íbis foi tirado de uma ave negra, pernalta, que voa pelos céus da Europa e África. Reza a lenda que essa ave, que enfeita o escudo do pior time do mundo, transmite azar." Eu acrescento: não acreditem no azar supostamente trazido por essa ave ao time pernambucano. O que falta ao Íbis é apenas uma oportunidade de mostrar o seu futebol. E mais onze jogadores. De futebol, é claro... |
Se você tentou fazer essa pesquisa percebeu que não é nada disso, pois esse exemplo não funciona mais. Quem escrever a palavra íbis na janela de busca do Radix vai receber 2.752 resultados e o primeiro deles é o sítio do Íbis. Portanto, vamos a um exemplo Como realizar uma pesquisa?
Existem duas maneiras de realizar pesquisas na web: através de palavras-chave e
através do diretório.
A maior parte dos sistemas de busca possibilita essas duas modalidades de pesquisa.
Usando palavras-chave para pesquisar na web Para realizar uma pesquisa através de palavra-chave, o usuário escreve a palavra no quadro de busca (ou de pesquisa) e clica no ícone ou botão de busca que fica ao lado do quadro. Esse ícone ou botão recebe variadas denominações conforme o sistema de busca. Veja alguns: Sistemas de busca | Ícone ou botão | | Busca | | Buscar | | Procurar | | Ache | | Pesquisar | | Buscar | | Haz clic aqui | | Search | | Search | | Find | | Go get it! | | Find it! | | Search | | Voila! |
Então, o pesquisador digita a palavra no quadro de pesquisa, clica no botão, o programa de busca é acionado e vai pesquisar sua base de dados. Após a pesquisa, o programa indica os endereços das páginas que contêm a palavra, termos ou expressões digitadas. Se nada for localizado, surge mensagem com essa informação.
Ao realizar uma busca, é preciso estar atento a alguns problemas que podem surgir. Esses problemas, na maioria das vezes, podem ser resolvidos selecionando melhor a palavra chave a ser pesquisada, utilizando mais de uma palavra ou utilizando uma frase. Quando você informa um conjunto de palavras no quadro de pesquisa do AltaVista, a primeira coisa que ele faz é verificar se as palavras digitadas formam uma frase. É que esse mecanismo de busca tem um enorme dicionário das frases mais comuns. Pena que o AltaVista só entenda inglês...(a versão em português ainda não está disponível).
| Uma pequena interrupção para uma pérola do Altavista. Segundo a sua página de ajuda, podem ser apresentadas perguntas em linguagem natural. Se você não tiver nada melhor a fazer, faça a pergunta que ele apresenta como exemplo: "Where can I find a schedule for women's basketball?" Ao fazer a pesquisa, surgem 9 resultados. Oito deles para a própria página de Help do Altavista. O nono resultado indica uma págima inexistente. Brilhante! |
Cuidado com o que escreve!Alguns problemas surgem quando se usam palavras homógrafas, aquelas que têm a mesma grafia e significados diferentes conforme o contexto em que se apresentam. Veja o caso da palavra perua. Procurei no Radix a palavra perua e forma encontrados 4689 documentos. Várias páginas sobre o veículo, especialmente sobre transporte escolar. Uma sobre comportamento na empresa: um artigo comentando o comportamento de uma jovem que assumiu o lado "perua". Mais uma página falando sobre a virada da perua. Não é um acidente de trânsito. Essa perua aí não é um veículo. É uma personagem de novela. Certa vez procurei a palavra besta, no RadarUol. Eu esperava receber como resultados apenas lojas ou fabricantes de carros, alguma referência ao quadrúpede ruminante e, quem sabe, a algum sujeito meio pedante e metido a própria. Mas me apareceu também uma página sobre o 666, o número da besta do Apocalipse.
| Fui até lá conferir essa página e, pasmem: os autores falam dos anos fatídicos de 666 e mais os seus múltiplos: 1332 (2 x 666 = 1332) e 1998 (3 x 666 = 1998). Dos anos de 666 e 1332 não me lembro de quais desastres se abateram sobre a terra, mas de 1998 me recordo pelo menos de um deles que se abateu sobre o Brasil: uma certa reeleição... Mas, esquece. Deixa pra lá que o assunto aqui é outro. |
Ao realizar essa mesma pesquisa em março de 2000 no RadarUol surgiram 394 resultados. Vieram muitas páginas sobre essa besta aí, a do Apocalipse. Um dos sites é bestial: ele apresenta fotos do próprio Apocalipse. Outro site comenta as profecias de Nostradamus. (Profecias do passado, sobre o passado, para o passado :-) Sobre a espalhafatosa madame nada apareceu ;-( Quase que me esqueço: veio uma página sobre uma besta medieval do sec. xvi, uma arma italiana muito bem feita, por sinal. Agora, uma pesquisa mais amena. Pesquisando a palavra coração no RadarUol obtive várias páginas sobre cardiologia, Instituto do Coração, o poema Sossega Coração de Fernando Pessoa, referência à música Chora Coração de Tom Jobim, a uma casa funerária e a uma churrascaria, dentre outras coisas. A propósito: a pesquisa à palavra coração, com cedilha e til, trouxe 6.815 páginas. Já a palavra coracao, sem o cedilha e o til, trouxe 249 páginas. A solução para reduzir o número de respostas sem maior interesse e, por via de conseqüência (como diria uma ilustre deputada do PT), aumentar o índice de relevância é usar duas ou mais palavras, uma frase ou usar os operadores booleanos, quando o sistema de busca o permitir. (Clique aqui para ver o artigo sobre operadores booleanos.) Com isso, aumenta-se a compreensão do conceito pesquisado, trazendo, por conseguinte, uma redução da extensão do universo a que o conceito se aplica. É a velha dualidade entre a extensão e a compreensão dos conceitos. Voltando ao coração. Devido à sua ambigüidade, o pesquisador deve adicionar uma ou mais palavras a fim de obter maior precisão nos resultados. Buscar por dores do coração talvez não seja uma boa idéia para um interessado em coisas da medicina, pois os poetas costumam usar essa expressão, embora profissionais da medicina também possam passar por momentos de dores e sofrimentos nesse órgão não exatamente por razões fisiológicas... Por outro lado, nenhum poeta que eu conheça escreveu um poema falando de cardiologia e cardiopatias. (Epa! Acabo de me lembrar do poeta paraibano Augusto dos Anjos. Um de seus sonetos intitula-se "Coração frio", mas tal poema não pertence ao conjunto de suas obras plenas de "cientificismos e exotismos estapafúrdios".)
RelevânciaVeja agora a busca às palavras guimarães e rosa. no RadarUol: opção frase exata: 374 ocorrências; opção Qualquer uma das palavras: 12.238 ocorrências;
Uma pesquisa com a opção "qualquer das palavras" vai trazer páginas sobre flores, Chapada dos Guimarães, e outras amenidades. Pesquisando essas palavras no AltaVista obtive 2.410 páginas na opção todos os idiomas. Na opção em Português, foram obtidas 1.811 páginas. Das 20 primeiras, 14 foram consideradas relevantes. Logo aí em cima falei que algumas páginas apresentadas eram relevantes. Essa avaliação de relevância foi feita apenas nas 10 ou 20 primeiras páginas apresentadas.
Atenção: não confundir página com tela, pois são duas coisas bem diferentes. Uma página corresponde a uma "web page", uma página da web, um endereço, um URL encontrado e mostrado, enquanto uma tela com resultados de uma pesquisa pode mostrar vários endereços.
|
A razão de avaliar apenas as 10 ou 20 primeiras páginas é a seguinte: ninguém perde tempo visitando todas as 100 ou duzentas e tantas páginas mostradas. Geralmente são visitadas as primeiras 10 ou 20 páginas ou URL apresentados. Eventualmente se vai um pouco além. E por que não visitar todas as páginas apresentadas? Primeiramente, porque em alguns casos isso pode tomar muito tempo, mas nada lhe impede visitar todas elas. Em segundo lugar: os sistemas de busca usam alguns critérios para ordenar os URL selecionados. Se, numa pesquisa, você apresentar três palavras, há sistemas de busca que ordenam os URL de tal modo que aqueles correspondentes às páginas que contêm todas as três palavras apareçam nos primeiros lugares. Existem várias formas de os sistemas de busca ordenar os URL encontrados e cada sistema de busca usa um algoritmo próprio. Veja alguns critérios adotados por sistemas de busca para ordenar as aparições dos URL. Número de páginas que contêm links para uma dada página. Quanto mais links uma página receber, maior é a importância atribuída a ela.
Número de vezes em que as palavras-chave usadas na pesquisa surgem ao longo da página. Quanto mais vezes aparecerem, maior relevância é atribuida à página. (Até certo limite, pois alguns sistemas de busca penalizam as páginas em que há uma excessiva repetição de uma mesma palavra. Eles chama isso de spamming.)
Proximidade entre as palavras pesquisadas. Quanto mais próximas as palavras estiverem entre si, maior relevância é atribuida à página.
Número de vezes em que as palavras-chave aparecem nos títulos, subtítulos e nas primeiras linhas da página. Quanto mais vezes aparecerem nesses lugares, maior relevância é atribuida a ela.
Há sistemas de busca que mantém esses critérios como um segredo e não os revela a ninguém. A razão desse sigilo é fácil de entender. Uma empresa que descobrir o segredo dos grandes sistemas de busca vai conseguir que seus produtos sejam sempre mostrados na primeira tela, nos primeiros lugares. Por consequência, um dos esperados atributos dos sistemas de busca vai por água abaixo: o da imparcialidade na apresentação dos resultados. Mas, por que os primeiros 10 ou 20 URL são os mais importantes? Me diga uma coisa: ao receber 1.811 páginas como resposta à uma consulta, você perderia o seu tempo visitando todas as páginas? Considere que este é um resultado até modesto, pois a pesquisa coração (assim, com cedilha e til) no AltaVista produziu 74.905 páginas Uma pesquisa feita dessa forma, com um termo genérico, pode facilmente ultrapassar um milhão de resultados. A palavra weather, pesquisada no Altavista, me trouxe 8.212.900 documentos. Ninguém, acredito, jamais visitaria todas eles.
Pra quem gosta de cálculos inúteis e números ociosos: alguém que se dispusesse a visitar todas essas páginas e levasse um minuto olhando cada uma delas levaria 5.703 dias se permanecesse acordado, sem comer nem nada e todo esse tempo conectado à Internet. Um recorde totalmente inútil e desnecessário. Como muitos outros.
|
O sistema de busca ideal é o que apresenta ao pesquisador apenas as páginas que contêm exatamente aquilo que o pesquisador espera receber. Mas esse sistema não existe. Então, para melhorar a vida do pesquisador usam-se alguns recursos, às vezes chamados de avançados e que correspondem aos operadores booleanos. E o que são operadores booleanos? Esse é o assunto do artigo Operadores booleanos.
MOURA, Gevilacio Aguiar Coêlho de. Sistemas de busca da web: diretórios e mecanismos de busca. [online] Disponível na Internet via WWW. URL: http://www.quatrocantos.com/ tec_web/sist_busca/index.htm. Última atualização em 01 de janeiro de 2001.
| Sumário
Considerações gerais acerca da web
Introdução aos sistemas de busca
Mecanismos de busca
Diretórios
Mecanismos de busca e diretórios: características e diferenças
Utilizando os sistemas de busca: modos de pesquisa
Operadores booleanos
Pesquisa em um diretório
|