Un motore di ricerca è un software di sistema che fornisce collegamenti ipertestuali a pagine Web e altre informazioni rilevanti sul Web in risposta alladomanda di un utente.
L’utente inserire una query in un navigatore Web o in un’app mobile e i risultati della ricerca sono spesso un elenco di collegamenti ipertestuali, accompagnati da riepiloghi testuali e immagini.
Gli utenti hanno anche la possibilità di limitare la ricerca a un tipo specifico di risultati, come immagini, video o notizie.
Per un provider di ricerca, il suo motore è parte di un sistema informatico distribuito che può comprendere molti Banca dati in tutto il mondo.
La velocità e l’accuratezza della risposta di un motore a una query si basa su un complesso sistema di indicizzazione che viene continuamente aggiornato da rete cingolata automatizzati.
Ciò può includere il data mining di file e Banca dati archiviati su server Web, ma alcuni contenuti non sono accessibili ai crawler.
Ci sono stati molti motori di ricerca fin dagli albori del Web negli anni ’90, ma Ricerca Google è diventato quello dominante negli anni 2000 ed è rimasto tale.
Attualmente detiene una quota di mercato globale del 91%. L’attività dei sitiweb che migliorano la loro visibilità nei risultati di ricerca, nota come marketing e ottimizzazione, si è quindi in gran parte concentrata su Google.
Storia
Prima degli anni ’90
Nel 1945, Vannevar Bush descrisse un sistema di recupero delle informazioni che avrebbe consentito a un utente di accedere a una grande quantità di informazioni, il tutto da un’unica scrivania. Lo chiamò memex.
Ha descritto il sistema in un articolo intitolato ” Come possiamo pensare ” che è stato pubblicato su Il mensile atlantico.
Il memex aveva lo scopo di dare all’utente la capacità di superare la difficoltà sempre crescente di localizzare le informazioni in indici centralizzati di lavoro scientifico sempre crescenti.
Vannevar Bush ha immaginato biblioteche di ricerca con annotazioni collegate, simili ai moderni collegamenti ipertestuali.
L’analisi dei collegamenti alla fine divenne una componente cruciale dei motori di ricerca attraverso algoritmi come Iper ricerca e PageRank.
Anni ’90: nascita dei motori di ricerca
I primi motori di ricerca su Internet sono antecedenti al debutto del Web nel dicembre 1990: la ricerca degli utenti CHI È risale al 1982,
e la ricerca degli utenti multi-rete di Knowbot Servizio Informazioni è stata implementata per la prima volta nel 1989.
La prima ricerca ben documentata Il motore che effettuava la ricerca dei file di contenuto, vale a dire i file FTP, era Archie , che ha debuttato il 10 settembre 1990.
Prima del settembre 1993, il World Wide Web veniva indicizzato interamente a mano.
C’era un elenco di server web curato da Tim Berners-Lee e ospitato sul server web del CERN.
Resta un’istantanea dell’elenco del 1992, ma man mano che sempre più server web andavano online, l’elenco centrale non riusciva più a tenere il passo. Sul sito NCSA sono stati annunciati nuovi server con il titolo “Novità!”.
Il primo strumento utilizzato per la ricerca di contenuti (al contrario degli utenti) su Internet è stato Archie. Il nome sta per “archivio” senza la “v”.
È stato creato da Alan Emtag , studente di informatica allaUniversità McGill di Montreal, Quebec, Canada.
Il programma scaricava gli elenchi delle directory di tutti i file situati su siti FTP ( File Transfer Protocol) pubblici anonimi, creando unBanca dati ricercabile di nomi di file; tuttavia,
Motore di ricerca di Archie non ha indicizzato il contenuto di questi siti poiché la quantità di dati era così limitata da poter essere facilmente cercata manualmente.
L’ascesa di Gopher (creato nel 1991 da Mark McCahill presso l’Università del Minnesota) ha portato a due nuovi programmi di ricerca, Veronica e Jughead. Come Archie, hanno cercato i nomi e i titoli dei file archiviati nei sistemi di indice Gopher.
Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) ha fornito una ricerca per parole chiave della maggior parte dei titoli dei menu Gopher nell’intero elenco Gopher.
Jughead (Jonzy’s Universal Gopher Hierarchy Excavation And Display) era uno strumento per ottenere informazioni sui menu da specifici server Gopher.
Sebbene il nome del motore di ricerca ” Motore di ricerca di Archie ” non fosse un riferimento alla serie di fumetti di Archie, “Veronica ” e ” Jughead ” sono personaggi della serie, facendo quindi riferimento al loro predecessore.
Nell’estate del 1993 non esisteva alcun motore di ricerca per il web, anche se numerosi cataloghi specializzati venivano gestiti manualmente.
Oscar Nierstrasz dell’Università di Ginevra ha scritto una serie di script Perl che periodicamente rispecchiavano queste pagine e le riscrivevano in un formato standard.
Ciò costituì la base per Catalogo W3, il primo motore di ricerca primitivo del web, rilasciato il 2 settembre 1993.
Nel giugno 1993, Matthew Gray, allora al MIT, produsse quello che probabilmente fu il primo rete robotica, il World Wide Web Wanderer basato su Perl , e lo usò per generare un indice chiamato “Wandex”.
Lo scopo del Wanderer era misurare le dimensioni del World Wide Web, cosa che fece fino alla fine del 1995.
Il secondo motore di ricerca del web, Aliweb, apparve nel novembre 1993.
Aliweb non utilizzava un robot web , ma dipendeva invece dalla notifica tramite il sito web. amministratori dell’esistenza in ciascun sito di un file indice in un formato particolare.
JumpStation (creato nel dicembre 1993 da Jonathon Fletcher ) utilizzava un rete robotica per trovare pagine web e costruire il proprio indice, e utilizzava un modulo web come interfaccia per il suo programma di query.
È stato quindi il primo strumento di scoperta delle risorse WWW a combinare le tre caratteristiche essenziali di un motore di ricerca web (scansione, indicizzazione e ricerca) come descritto di seguito.
A causa delle risorse limitate disponibili sulla piattaforma su cui veniva eseguito, l’indicizzazione e quindi la ricerca erano limitate ai titoli e alle intestazioni presenti nelle pagine Web incontrate dal crawler.
Uno dei primi motori di ricerca basati su crawler “tutto testo” è stato WebCrawler, uscito nel 1994.
A differenza dei suoi predecessori, consentiva agli utenti di cercare qualsiasi parola in qualsiasi pagina web, che da allora è diventato lo standard per tutti i principali motori di ricerca.
Era anche il motore di ricerca più conosciuto dal pubblico. Inoltre, nel 1994, fu lanciato Lycos (che iniziò alla Università Carnegie Mellon ) e divenne un’importante impresa commerciale.
Il primo motore di ricerca popolare sul Web è stato Yahoo! Ricerca. Il primo prodotto di Yahoo!, fondata da Jerry Yang e Davide Filo nel gennaio 1994, era una rubrica Web chiamata Yahoo! Direttore Nel 1995 è stata aggiunta una funzione di ricerca, che consente agli utenti di cercare su Yahoo! Direttorio.
È diventato uno dei modi più popolari per le persone per trovare pagine web di interesse, ma la sua funzione di ricerca operava sulla sua directory web, piuttosto che sulle copie full-text delle pagine web.
Subito dopo apparvero numerosi motori di ricerca che gareggiarono per la popolarità. Questi includevano Magellano, Eccitare, Ricerca di informazioni, Inktomi, Luce del Nord e AltaVista.
Chi cerca informazioni può anche sfogliare la directory invece di effettuare una ricerca basata su parole chiave.
Nel 1996, Robin Li ha sviluppato l’ algoritmo di punteggio del sito RankDex per il posizionamento delle pagine dei risultati dei motori di ricerca e ha ricevuto un brevetto statunitense per la tecnologia.
È stato il primo motore di ricerca a utilizzare collegamenti ipertestuali per misurare la qualità dei siti web che stava indicizzando, anticipando il brevetto di un algoritmo molto simile depositato da Google due anni dopo nel 1998.
Larry Page ha fatto riferimento al lavoro di Li in alcuni dei suoi brevetti statunitensi per PageRank.
Li ha successivamente utilizzato la sua tecnologia Rankdex per il motore di ricerca Baidu, da lui fondato in Cina e lanciato nel 2000.
Nel 1996, Netscape stava cercando di dare a un singolo motore di ricerca un accordo esclusivo come motore di ricerca in primo piano nel browser web di Netscape.
C’era così tanto interesse che invece Netscape strinse accordi con cinque dei principali motori di ricerca: per 5 milioni di dollari all’anno, ogni motore di ricerca sarebbe stato a rotazione sulla pagina del motore di ricerca di Netscape.
I cinque motori erano Yahoo!, Magellan, Lycos, Infoseek ed Excite.
Google ha adottato l’idea di vendere termini di ricerca nel 1998 da una piccola società di motori di ricerca denominata vai a.com.
Questa mossa ha avuto un effetto significativo sul business dei motori di ricerca, che è passato dall’essere in difficoltà a uno dei business più redditizi di Internet.
I motori di ricerca erano anche conosciuti come alcune delle stelle più brillanti nella frenesia degli investimenti in Internet avvenuta alla fine degli anni ’90.
Diverse società sono entrate nel mercato in modo spettacolare, ottenendo guadagni record durante le loro offerte pubbliche iniziali.
Alcuni hanno rimosso il loro motore di ricerca pubblico e stanno commercializzando edizioni riservate alle aziende, come Northern Light.
Molte società di motori di ricerca sono state coinvolte nella bolla delle dot-com , un boom di mercato guidato dalla speculazione che ha raggiunto il picco nel marzo 2000.
Anni 2000-presente: bolla post-dot-com
Intorno al 2000, il motore di ricerca di Google è diventato famoso. L’azienda ha ottenuto risultati migliori per molte ricerche con un algoritmo chiamato PageRank, come spiegato nel documento Anatomy of a Search Engine scritto da Sergej Brin e Larry Pagina, i successivi fondatori di Google.
Questo algoritmo iterativo classifica le pagine web in base al numero e al PageRank di altri siti web e pagine che vi si collegano, sulla premessa che le pagine buone o desiderabili sono collegate a più di altre.
Il brevetto di Larry Page per PageRank cita il precedente brevetto RankDex di Robin Li come un’influenza. Google ha inoltre mantenuto un’interfaccia minimalista per il suo motore di ricerca.
Molti dei suoi concorrenti, invece, hanno incorporato un motore di ricerca in un portale web . In effetti, il motore di ricerca Google è diventato così popolare che sono emersi motori di spoofing come Mystery Seeker.
Nel 2000, Yahoo! forniva servizi di ricerca basati sul motore di ricerca di Inktomi. Yahoo! ha acquisito Inktomi nel 2002 e Ouverture (che possedeva TuttoilWeb e AltaVista) nel 2003.
Yahoo! è passata al motore di ricerca di Google fino al 2004, quando ha lanciato il proprio motore di ricerca basato sulla combinazione delle tecnologie delle sue acquisizioni.
Microsoft ha lanciato per la prima volta MSN Search nell’autunno del 1998 utilizzando i risultati di ricerca di Inktomi.
All’inizio del 1999, il sito iniziò a visualizzare elenchi di Sembra intelligente, combinati con risultati di Inktomi.
Per un breve periodo nel 1999, MSN Search ha utilizzato invece i risultati di AltaVista. Nel 2004, Microsoft ha iniziato la transizione verso una propria tecnologia di ricerca, alimentata dal proprio crawler web (chiamato msnbot).
Il motore di ricerca rinominato di Microsoft, Bing , è stato lanciato il 1 giugno 2009. Il 29 luglio 2009, Yahoo! e Microsoft hanno concluso un accordo in cui Yahoo! La ricerca sarebbe alimentata dalla tecnologia Microsoft Bing.
A partire dal 2019, i crawler attivi dei motori di ricerca includono quelli di Google, Sogou , Baidu, Bing, Gigablast , Mojeek , DuckDuckGo e Yandex.
Approccio
Un motore di ricerca mantiene i seguenti processi quasi in tempo reale:
- Scansione del Web
- Indicazione
- Ricerca
I motori di ricerca Web ottengono le loro informazioni eseguendo la scansione del Web da un sito all’altro.
Lo “spider” cerca il nome file standard robots.txt, ad esso indirizzato. Il file robots.txt contiene direttive per gli spider di ricerca, che indicano quali pagine scansionare e quali pagine non scansionare.
Dopo aver controllato robots.txt e averlo trovato o meno, lo spider invia alcune informazioni affinché vengano indicizzate in base a molti fattori, come titoli,
contenuto della pagina, JavaScript, fogli di stile a cascata (CSS), intestazioni o metadati in Metatag HTML .
Dopo un certo numero di pagine scansionate, una quantità di dati indicizzati o un certo tempo trascorso sul sito web, lo spider smette di scansionare e va avanti. “[N]o web crawler può effettivamente scansionare l’intero web raggiungibile.
A causa di infiniti siti web, trappole per ragni, spam e altre esigenze del web reale, i crawler applicano invece una politica di scansione per determinare quando dovrebbe essere considerata la scansione di un sito sufficiente.
Alcuni siti web vengono sottoposti a scansione in modo esaustivo, mentre altri vengono sottoposti a scansione solo parzialmente”.
Indicizzare significa associare parole e altri token definibili trovati sulle pagine web ai loro nomi di dominio e ai campi basati suHTML.
Le associazioni vengono create in un database pubblico, reso disponibile per query di ricerca sul web. Una query di un utente può essere una singola parola, più parole o una frase.
L’indice aiuta a trovare le informazioni relative alla query il più rapidamente possibile. Alcune delle tecniche di indicizzazione e memorizzazione nella cache sono segreti commerciali,
mentre la scansione del web è un processo semplice di visita di tutti i siti su base sistematica.
Tra una visita e l’altra dello spider, la versione cache della pagina (parte o tutto il contenuto necessario per visualizzarla) archiviata nella memoria di lavoro del motore di ricerca viene rapidamente inviata a un richiedente.
Se una visita è in ritardo, il motore di ricerca può invece fungere semplicemente da web proxy. In questo caso la pagina potrebbe differire dai termini di ricerca indicizzati.
La pagina memorizzata nella cache mantiene l’aspetto della versione le cui parole sono state precedentemente indicizzate, quindi una versione di una pagina memorizzata
nella cache può essere utile al sito Web quando la pagina effettiva è andata persa, ma questo problema è anche considerato una forma lieve di linkrot.
In genere, quando un utente inserisce una domanda in un motore di ricerca, si tratta di poche parola chiave . [ 37 Nell’indice sono già presenti i nomi dei siti contenenti le parole chiave, che vengono immediatamente ottenuti dall’indice.
Il vero carico di elaborazione sta nel generare le pagine web che costituiscono l’elenco dei risultati di ricerca: ogni pagina dell’intero elenco deve essere ponderata in base alle informazioni contenute negli indici.
Quindi l’elemento in alto nei risultati di ricerca richiede la ricerca, la ricostruzione e il markup degli snippet che mostrano il contesto delle parole chiave corrispondenti.
Queste sono solo una parte dell’elaborazione richiesta da ciascuna pagina Web dei risultati di ricerca e le pagine successive (accanto alla parte superiore) richiedono una maggiore post-elaborazione.
Oltre alla semplice ricerca di parole chiave, i motori di ricerca offrono la propria GUI o operatori guidati da comandi e parametri di ricerca per perfezionare i risultati della ricerca.
Questi forniscono i controlli necessari per l’utente coinvolto nel ciclo di feedback che gli utenti creano filtrando e ponderando mentre perfezionano i risultati della ricerca, date le pagine iniziali dei primi risultati di ricerca.
Ad esempio, dal 2007 il motore di ricerca Google.com consente di filtrare per data facendo clic su “Mostra strumenti di ricerca” nella colonna più a sinistra della pagina iniziale dei risultati di ricerca e quindi selezionando l’intervallo di date desiderato.
È anche possibile ponderare per data perché ogni pagina ha un orario di modifica.
La maggior parte dei motori di ricerca supporta l’uso degli operatori booleani AND, OR e NOT per aiutare gli utenti finali a perfezionare la interrogazione di ricerca.
Gli operatori booleani servono per ricerche letterali che consentono all’utente di perfezionare ed estendere i termini della ricerca.
Il motore cerca le parole o le frasi esattamente come inserite. Alcuni motori di ricerca forniscono una funzionalità avanzata chiamata ricerca di prossimità , che consente agli utenti di definire la distanza tra le parole chiave.
Esiste anche la ricerca basata su concetti in cui la ricerca prevede l’utilizzo di analisi statistiche su pagine contenenti le parole o le frasi cercate.
L’utilità di un motore di ricerca dipende dalla rilevanza dell’insieme di risultati che restituisce.
Sebbene possano esserci milioni di pagine web che includono una particolare parola o frase, alcune pagine potrebbero essere più pertinenti, popolari o autorevoli di altre.
La maggior parte dei motori di ricerca utilizza metodi per classificare i risultati in modo da fornire prima i risultati “migliori”.
Il modo in cui un motore di ricerca decide quali pagine sono le migliori corrispondenze e in quale ordine devono essere visualizzati i risultati varia ampiamente da un motore all’altro.
Anche i metodi cambiano nel tempo man mano che cambia l’utilizzo di Internet e si evolvono nuove tecniche.
Esistono due tipi principali di motori di ricerca che si sono evoluti: uno è un sistema di parole chiave predefinite e ordinate gerarchicamente che gli esseri umani hanno ampiamente programmato.
L’altro è un sistema che genera un ” indice invertito ” analizzando i testi che individua. Questa prima forma fa molto più affidamento sul computer stesso per svolgere la maggior parte del lavoro.
La maggior parte dei motori di ricerca Web sono iniziative commerciali sostenute da entrate pubblicitarie e quindi alcuni di essi consentono agli inserzionisti di posizionare i propri annunci più in alto nei risultati di ricerca a pagamento.
I motori di ricerca che non accettano denaro per i loro risultati di ricerca guadagnano pubblicando annunci correlati alla ricerca accanto ai normali risultati dei motori di ricerca.
I motori di ricerca guadagnano ogni volta che qualcuno fa clic su uno di questi annunci.
Ricerca locale
La ricerca locale è il processo che ottimizza gli sforzi delle imprese locali. Si concentrano sul cambiamento per assicurarsi che tutte le ricerche siano coerenti.
È importante perché molte persone determinano dove intendono andare e cosa acquistare in base alle loro ricerche.
Russia e Asia orientale
In Russia, Yandex ha una quota di mercato del 62,6%, rispetto al 28,3% di Google. E Yandex è il secondo motore di ricerca più utilizzato sugli smartphone in Asia ed Europa. In Cina, Baidu è il motore di ricerca più popolare.
Il portale di ricerca interno della Corea del Sud, Naver, viene utilizzato per il 62,8% delle ricerche online nel paese. Yahoo! Giappone e Yahoo! Taiwan è la via più popolare per le ricerche su Internet rispettivamente in Giappone e Taiwan.
La Cina è uno dei pochi paesi in cui Google non è tra i primi tre motori di ricerca web per quota di mercato.
Google era in precedenza uno dei principali motori di ricerca in Cina, ma si è ritirato dopo un disaccordo con il governo sulla censura e un attacco informatico.
Ma Bing è tra i primi tre motori di ricerca web con una quota di mercato del 14,95%. Baidu è in testa con una quota di mercato del 49,1%.
Europa
I mercati della maggior parte dei paesi dell’Unione Europea sono dominati da Google, ad eccezione della Repubblica Ceca, dove Seznam è un forte concorrente.
Il motore di ricerca Qvoglio ha sede a Parigi, in Francia, da dove attira la maggior parte dei suoi 50 milioni di utenti registrati mensilmente.
Pregiudizio dei motori di ricerca
Sebbene i motori di ricerca siano programmati per classificare i siti web in base a una combinazione della loro popolarità e rilevanza, gli studi empirici indicano vari pregiudizi politici,
economici e sociali nelle informazioni che forniscono e nelle ipotesi sottostanti sulla tecnologia.
Questi pregiudizi possono essere il risultato diretto di processi economici e commerciali (ad esempio, le aziende che fanno pubblicità con un motore di ricerca possono
diventare anche più popolari nei suoi risultati di ricerca organica ) e di processi politici (ad esempio, la rimozione dei risultati di ricerca per conformarsi con le leggi locali).
Ad esempio, Google non pubblicherà alcuni siti web neonazisti in Francia e Germania, dove la negazione dell’Olocausto è illegale.
I pregiudizi possono anche essere il risultato di processi sociali, poiché gli algoritmi dei motori di ricerca sono spesso progettati per escludere punti di vista non normativi a favore di risultati più “popolari”.
Gli algoritmi di indicizzazione dei principali motori di ricerca si orientano verso la copertura di siti con sede negli Stati Uniti, piuttosto che di siti web di paesi non statunitensi.
Bombardamento di Google è un esempio di tentativo di manipolare i risultati di ricerca per ragioni politiche, sociali o commerciali.
Diversi studiosi hanno studiato i cambiamenti culturali innescati dai motori di ricerca, e la rappresentazione di alcuni argomenti controversi nei loro risultati, come il terrorismo in Irlanda, la negazione del cambiamento climatico, e le teorie del complotto .
Risultati personalizzati e bolle filtro
È stata sollevata la preoccupazione che motori di ricerca come Google e Bing forniscano risultati personalizzati basati sulla cronologia delle attività dell’utente,
portando a quelle che sono state definite camere dell’eco o bolle di filtro da Eli Pariser nel 2011 le piattaforme di social media
utilizzano algoritmi per indovinare selettivamente quali informazioni un utente vorrebbe vedere, in base alle informazioni sull’utente (come posizione, comportamento dei clic passati e cronologia delle ricerche).
Di conseguenza, i siti web tendono a mostrare solo le informazioni che concordano con il punto di vista passato dell’utente. Secondo Eli Pariser gli utenti sono meno esposti a punti di vista contrastanti e sono isolati intellettualmente nella propria bolla informativa.
Da quando questo problema è stato identificato, sono emersi motori di ricerca concorrenti che cercano di evitare questo problema non tracciando o “raggruppando” gli utenti, come DuckDuckGo.
Tuttavia molti studiosi hanno messo in dubbio il punto di vista di Pariser, ritenendo che ci siano poche prove a sostegno della bolla di filtraggio.
Al contrario, una serie di studi che hanno cercato di verificare l’esistenza di filter bubble hanno riscontrato solo livelli minori di personalizzazione nella ricerca,
che la maggior parte delle persone incontra una vasta gamma di visualizzazioni durante la navigazione online, e che Google News tende a promuovere i principali organi di informazione consolidati.
Motori di ricerca religiosi
La crescita globale di Internet e dei media elettronici nel mondo arabo e musulmano durante l’ultimo decennio ha incoraggiato gli aderenti islamici nel Medio Oriente e
nel subcontinente asiatico a tentare i propri motori di ricerca, i propri portali di ricerca filtrata che consentirebbero agli utenti di eseguire ricerche sicure .
Più dei soliti filtri di ricerca sicuri, questi portali web islamici classificano i siti web in ” halal ” o ” haram “, in base all’interpretazione della “Legge dell’Islam”.
ImHalal è arrivato online nel settembre 2011. Halalgoogling è arrivato online nel luglio 2013. Questi utilizzano filtri haram sulle raccolte di Google e Bing (e altri).
Mentre la mancanza di investimenti e la lentezza delle tecnologie nel mondo musulmano hanno ostacolato il progresso e vanificato il successo di un motore di ricerca islamico, che prende di mira come principali consumatori gli aderenti islamici,
progetti come Muxlim, un sito sullo stile di vita musulmano, hanno ricevuto milioni di dollari da investitori come Rite Internet Ventures, e anch’esso vacillò.
Altri motori di ricerca orientati alla religione sono Jewogle, la versione ebraica di Google, e SeekFind.org, che è cristiano. SeekFind filtra i siti che attaccano o degradano la loro fede.
Invio al motore di ricerca
L’invio ai motori di ricerca Web è un processo in cui un webmaster invia un sito Web direttamente a un motore di ricerca.
Sebbene l’invio ai motori di ricerca venga talvolta presentato come un modo per promuovere un sito Web, generalmente non è necessario poiché i principali
motori di ricerca utilizzano web crawler che alla fine troveranno la maggior parte dei siti Web su Internet senza assistenza.
Possono inviare una pagina Web alla volta oppure l’intero sito utilizzando una mappa del sito, ma normalmente è necessario inviare solo la pagina iniziale di
un sito Web poiché i motori di ricerca sono in grado di eseguire la scansione di un sito Web ben progettato.
Ci sono due ragioni rimanenti per inviare un sito web o una pagina web a un motore di ricerca: aggiungere un sito web completamente nuovo senza aspettare
che un motore di ricerca lo scopra e avere il record di un sito web aggiornato dopo una riprogettazione sostanziale.
Alcuni software di invio ai motori di ricerca non solo inviano siti Web a più motori di ricerca, ma aggiungono anche collegamenti a siti Web dalle proprie pagine.
Ciò potrebbe sembrare utile per aumentare il posizionamento di un sito web, poiché i collegamenti esterni sono uno dei fattori più importanti che determinano il posizionamento di un sito web.
Tuttavia, John Mueller di Google ha affermato che questo “può portare a un numero enorme di collegamenti innaturali per il tuo sito” con un impatto negativo sul posizionamento del sito.
In confronto ai motori di ricerca, un sistema di social bookmarking presenta numerosi vantaggi rispetto ai tradizionali software di localizzazione e classificazione automatizzata delle risorse,
come gli spider dei motori di ricerca.
Tutta la classificazione basata su tag delle risorse Internet (come i siti Web) viene eseguita da esseri umani, che comprendono il contenuto della risorsa,
al contrario del software, che tenta algoritmicamente di determinare il significato e la qualità di una risorsa.
Inoltre, le persone possono trovare e aggiungere ai segnalibri pagine Web che non sono state ancora notate o indicizzate dagli spider web.
Inoltre, un sistema di social bookmarking può classificare una risorsa in base a quante volte è stata aggiunta ai segnalibri dagli utenti,
il che può essere una metrica più utile per gli utenti finali rispetto ai sistemi che classificano le risorse in base al numero di collegamenti esterni che puntano a Esso.
Tuttavia, entrambi i tipi di classifica sono vulnerabili alle frodi (vedi Gaming the system ), ed entrambi necessitano di contromisure tecniche per cercare di affrontare questo problema.
Tecnologia
Archie
Il primo motore di ricerca web è stato Archie , creato nel 1990 da Alan Emtag , uno studente della Università McGill di Montreal.
L’autore originariamente voleva chiamare il programma “archivi”, ma ha dovuto abbreviarlo per conformarsi allo standard mondiale Unix di assegnare a programmi e file nomi brevi e criptici come grep, cat, troff, sed, awk, perl e così via.
Il metodo principale per archiviare e recuperare i file era tramite il File Transfer Protocol (FTP).
Questo era (ed è tuttora) un sistema che specificava un modo comune per i computer di scambiare file su Internet.
Funziona così: un amministratore decide di voler rendere disponibili i file dal suo computer.
Configura un programma sul suo computer, chiamato server FTP. Quando qualcuno su Internet desidera recuperare un file da questo computer, si connette ad esso tramite un altro programma chiamato client FTP.
Qualsiasi programma client FTP può connettersi con qualsiasi programma server FTP purché entrambi i programmi client e server rispettino completamente le specifiche stabilite nel protocollo FTP.
Inizialmente, chiunque volesse condividere un file doveva configurare un server FTP per rendere il file disponibile ad altri. Successivamente, i siti FTP “anonimi” divennero archivi di file, consentendo a tutti gli utenti di pubblicarli e recuperarli.
Anche con i siti di archivio, molti file importanti erano ancora sparsi su piccoli server FTP.
Questi file potrebbero essere individuati solo tramite l’equivalente Internet del passaparola: qualcuno pubblicherebbe un’e-mail in una lista di messaggi o in un forum di discussione annunciando la disponibilità di un file.
Archie ha cambiato tutto questo. Combinava un raccoglitore di dati basato su script, che recuperava elenchi di siti di file FTP anonimi, con un matcher di espressioni regolari per recuperare nomi di file che corrispondevano a una query dell’utente.
(4) In altre parole, il raccoglitore di Archie ha esplorato i siti FTP su Internet e ha indicizzato tutti i file trovati. Il suo matcher di espressioni regolari forniva agli utenti l’accesso al suo database.
Veronica
Nel 1993, il gruppo System Computing Services dell’Università del Nevada ha sviluppato Veronica.
È stato creato come un tipo di dispositivo di ricerca simile ad Archie ma per i file Gopher.
Un altro servizio di ricerca Gopher, chiamato Jughead, è apparso poco dopo, probabilmente con l’unico scopo di completare il triumvirato dei fumetti.
Jughead è l’acronimo di Jonzy’s Universal Gopher Hierarchy Excavation and Display, anche se, come Veronica, è probabilmente lecito ritenere che il creatore abbia sostenuto l’acronimo.
La funzionalità di Jughead era praticamente identica a quella di Veronica, anche se sembra un po’ più approssimativa.
Il vagabondo solitario
Il Vagabondo del World Wide Web, sviluppato da Matthew Gray nel 1993 è stato il primo robot sul Web ed è stato progettato per monitorare la crescita del Web.
Inizialmente, Wanderer contava solo server Web, ma poco dopo la sua introduzione ha iniziato a catturare URL man mano che procedeva. Il database degli URL catturati è diventato Wandex, il primo database web.
Wanderer di Matthew Gray creò una certa controversia all’epoca, in parte perché le prime versioni del software dilagavano in rete e causavano un notevole degrado delle prestazioni a livello di rete.
Questo degrado si è verificato perché il Vagabondo accedeva alla stessa pagina centinaia di volte al giorno.
Il Vagabondo cambiò presto i suoi modi, ma rimase la controversia sul fatto se i robot fossero buoni o cattivi per Internet.
In risposta al Wanderer, Martijn Koster creò Archie-Like Indexing of the Web, o ALIWEB, nell’ottobre 1993. Come suggerisce il nome, ALIWEB era l’equivalente HTTP di Archie e, per questo motivo, è ancora unico in molti modi.
ALIWEB non dispone di un robot per la ricerca sul web. Invece, i webmaster dei siti partecipanti pubblicano le proprie informazioni sull’indice per ogni pagina che desiderano elencare.
Il vantaggio di questo metodo è che gli utenti possono descrivere il proprio sito e un robot non corre a consumare la larghezza di banda della rete. Gli svantaggi di ALIWEB sono oggi più un problema.
Lo svantaggio principale è che è necessario inviare un file di indicizzazione speciale.
La maggior parte degli utenti non capisce come creare un file di questo tipo e quindi non invia le proprie pagine.
Ciò porta a un database relativamente piccolo, il che significa che gli utenti hanno meno probabilità di effettuare ricerche su ALIWEB rispetto a uno dei grandi siti basati su bot.
Questo Catch-22 è stato in qualche modo compensato incorporando altri database nella ricerca ALIWEB, ma non ha ancora il fascino di massa dei motori di ricerca come Yahoo! o Lycos.
Eccitare
Eccitare , inizialmente chiamato Architext, è stato fondato da sei studenti universitari di Stanford nel febbraio 1993.
La loro idea era quella di utilizzare l’analisi statistica delle relazioni tra le parole per fornire ricerche più efficienti attraverso la grande quantità di informazioni su Internet.
Il loro progetto è stato completamente finanziato entro la metà del 1993.
Una volta ottenuto il finanziamento hanno rilasciato una versione del loro software di ricerca affinché i webmaster possano utilizzarla sui propri siti web.
All’epoca il software si chiamava Architext, oggi si chiama Excite for Web Servers.
Excite è stato il primo motore di ricerca commerciale serio lanciato nel 1995. È stato sviluppato a Stanford ed è stato acquistato per 6,5 miliardi di dollari da @Home.
Nel 2001 Excite e @Home fallirono e InfoSpace acquistò Excite per 10 milioni di dollari.
Alcune delle prime analisi della ricerca sul web sono state condotte sui registri di ricerca di Excite
Yahoo!
Nell’aprile 1994, due Ph.D. della Stanford University. i candidati, Davide Filo e Jerry Yang , crearono alcune pagine che divennero piuttosto popolari.
Hanno chiamato la raccolta di pagine Yahoo! La loro spiegazione ufficiale per la scelta del nome era che si consideravano una coppia di yahoo.
Man mano che il numero di collegamenti cresceva e le loro pagine cominciavano a ricevere migliaia di visite al giorno, il team ha creato modi per organizzare meglio i dati.
Per facilitare il recupero dei dati, Yahoo! (www.yahoo.com) è diventato una directory ricercabile.
La funzione di ricerca era un semplice motore di ricerca di database. Perché Yahoo! le voci sono state inserite e classificate manualmente, Yahoo! non era realmente classificato come motore di ricerca.
Invece, era generalmente considerata una directory ricercabile.
Yahoo! da allora ha automatizzato alcuni aspetti del processo di raccolta e classificazione, offuscando la distinzione tra motore e directory.
The Wanderer ha catturato solo URL, il che ha reso difficile trovare cose che non fossero esplicitamente descritte dal loro URL. Poiché gli URL sono piuttosto criptici fin dall’inizio, ciò non ha aiutato l’utente medio.
Ricerca su Yahoo! oppure Galaxy erano molto più efficaci perché contenevano ulteriori informazioni descrittive sui siti indicizzati.
Lycos
Alla Carnegie Mellon University nel luglio 1994, Michael Mauldin, in congedo dalla CMU, sviluppò il motore di ricerca Lycos.
Tipi di motori di ricerca web
I motori di ricerca sul Web sono siti arricchiti con funzionalità per effettuare ricerche nei contenuti archiviati su altri siti.
C’è differenza nel modo in cui funzionano i vari motori di ricerca, ma tutti svolgono tre attività fondamentali.
- Trovare e selezionare contenuti completi o parziali in base alle parole chiave fornite.
- Mantenimento dell’indice dei contenuti e riferimento alla posizione trovata
- Consentire agli utenti di cercare parole o combinazioni di parole trovate in quell’indice.
Il processo inizia quando un utente inserisce un’istruzione di query nel sistema tramite l’interfaccia fornita.
Tipo | Esempio | Descrizione |
---|---|---|
Convenzionale | catalogodellabiblioteca | Ricerca per parola chiave, titolo, autore, ecc. |
Basato su testo | Google, Bing, Yahoo! | Cerca per parole chiave. Ricerca limitata utilizzando query in linguaggio naturale. |
Basato sulla voce | Google, Bing, Yahoo! | Cerca per parole chiave. Ricerca limitata utilizzando query in linguaggio naturale. |
Ricerca multimediale | QBIC, WebSeek, SaFe | Ricerca per aspetto visivo (forme, colori,..) |
Domande/risposte | Scambio di stack , NSIR | Cerca nel linguaggio naturale (limitato). |
Sistemi di clustering | Vivisimo, Clusty | |
Sistemi di ricerca | Lemure, noce |
Esistono fondamentalmente tre tipi di motori di ricerca: quelli alimentati da robot (chiamati cingolato , formiche o ragni) e quelli alimentati da contributi umani; e quelli che sono un ibrido dei due.
I motori di ricerca basati su crawler sono quelli che utilizzano agenti software automatizzati (chiamati crawler) che visitano un sito Web, leggono le informazioni sul sito reale,
leggono i meta tag del sito e seguono anche i collegamenti che il sito si collega per eseguire l’indicizzazione su tutti i link collegati.
Anche i siti web. Il crawler restituisce tutte le informazioni a un depositario centrale, dove i dati vengono indicizzati.
Il crawler tornerà periodicamente sui siti per verificare eventuali informazioni che sono cambiate.
La frequenza con cui ciò accade è determinata dagli amministratori del motore di ricerca.
I motori di ricerca alimentati dall’uomo si affidano agli esseri umani per inviare informazioni che vengono successivamente indicizzate e catalogate.
Solo le informazioni inviate vengono inserite nell’indice.
In entrambi i casi, quando interroghi un motore di ricerca per individuare informazioni, stai effettivamente effettuando una ricerca nell’indice creato dal motore di ricerca,
non stai effettivamente effettuando una ricerca sul Web.
Questi indici sono enormi database di informazioni che vengono raccolte, archiviate e successivamente ricercate.
Questo spiega perché a volte una ricerca su un motore di ricerca commerciale, come Yahoo! o Google, restituiranno risultati che sono, di fatto, collegamenti morti.
Poiché i risultati della ricerca sono basati sull’indice, se l’indice non è stato aggiornato da quando una pagina Web è diventata non valida,
il motore di ricerca tratta la pagina come un collegamento ancora attivo anche se non lo è più. Rimarrà così finché l’indice non verrà aggiornato.
Allora perché la stessa ricerca su diversi motori di ricerca produrrà risultati diversi? Parte della risposta a questa domanda è perché non tutti gli indici saranno esattamente gli stessi.
Dipende da cosa trovano i ragni o da cosa hanno presentato gli umani.
Ma, cosa ancora più importante, non tutti i motori di ricerca utilizzano lo stesso algoritmo per effettuare ricerche negli indici.
L’algoritmo è ciò che i motori di ricerca utilizzano per determinare la pertinenza delle informazioni nell’indice rispetto a ciò che l’utente sta cercando.
Uno degli elementi analizzati dall’algoritmo di un motore di ricerca è la frequenza e la posizione delle parole chiave su una pagina Web.
Quelli con una frequenza più elevata sono generalmente considerati più rilevanti.
Ma la tecnologia dei motori di ricerca sta diventando sofisticata nel tentativo di scoraggiare ciò che è noto come “keyword stuffing” o “spamdexing”.
Un altro elemento comune analizzato dagli algoritmi è il modo in cui le pagine si collegano ad altre pagine del Web.
Analizzando il modo in cui le pagine si collegano tra loro, un motore può sia determinare di cosa tratta una pagina (se le parole chiave delle pagine collegate sono simili alle parole chiave della pagina originale) sia se quella pagina è considerata “importante” e meritevole di un commento. spinta in classifica.
Proprio come la tecnologia sta diventando sempre più sofisticata per ignorare il riempimento di parole chiave, stanno anche diventando più esperti i webmaster che creano collegamenti artificiali nei loro siti per costruire un ranking artificiale.
I moderni motori di ricerca web sono sistemi software altamente complessi che utilizzano una tecnologia che si è evoluta nel corso degli anni.
Esistono numerose sottocategorie di software per motori di ricerca applicabili separatamente a specifiche esigenze di “navigazione”. Questi includono motori di ricerca web (ad esempio Google), motori di ricerca di database o dati strutturati (ad esempio Punto Diesel) e motori di ricerca misti o di ricerca aziendale.
I motori di ricerca più diffusi, come Google e Yahoo! , utilizzano centinaia di migliaia di computer per elaborare trilioni di pagine web al fine di restituire risultati abbastanza mirati. A causa di questo elevato volume di query ed elaborazione di testi, il software deve funzionare in un ambiente altamente dispersivo con un elevato grado di superfluità.
Un’altra categoria di motori di ricerca sono i motori di ricerca scientifici. Si tratta di motori di ricerca che ricercano la letteratura scientifica.
L’esempio più noto è Google Scholar. I ricercatori stanno lavorando per migliorare la tecnologia dei motori di ricerca facendo loro comprendere l’elemento di contenuto degli articoli, come l’estrazione di costrutti teorici o risultati chiave della ricerca.