Webarchive e l’analisi storica dell’architettura di un sito Web

Webarchive e l’analisi storica dell’architettura di un sito Web

Analizzare lo storico di un sito Web utilizzando l’archivio storico disponibile online

Tra gli strumenti di analisi di un sito Web, internet Webarchive rappresenta una risorsa molto utile per la supervisione dello storico perché in grado di restituirci con precisione tutti gli elementi di una pagina Web mostrandoci nel dettaglio:

  • Markup
  • Codici dinamici
  • Piattaforme
  • Grafica e contenuti

di qualsiasi sito Web visitato dal suo Crawler negli anni.

Webarchive

ci regala un vero e proprio escursus storico di qualsiasi sito Web inserito in archivio ed è, come citato all’interno del sito, in grado di dimostrarci i cambiamenti come se fosse una sorta di fotografia istantanea ed interattiva degli “artefatti digitali della nostra cultura”.

La storia di WebArchive nasce molti anni fa nel 1996 a San Francisco. L’associazione, fondata con l’obiettivo di costruire la più grande libreria di Internet esistente con la finalità di offrire un accesso libero e permanente a ricercatori, studiosi o semplici user vive ancora oggi grazie alle innumerevoli donazioni di aziende e organizzazioni internazionali che supportano il progetto, promuovendo questa sorta di Biblioteca del Web.

Grazie a questo strumento ideato proprio per proteggere il passato di tutto il Web, possiamo analizzare lo storico e l’evoluzione di qualsiasi indirizzo che abbia almeno uno storico di qualche anno. Dalla costruzione dell’architettura informativa, sino all’ottimizzazione lato SEO, i siti salvati in archivio ci vengono mostrati praticamente funzionanti come se fossero pagine disponibili al giorno d’oggi.

Sotto l’aspetto pratico, è molto interessante seguire l’evoluzione ad esempio delle implementazioni lato Social che le pagine hanno subito negli ultimi anni: l’impostazione grafica, l’evoluzione dell’ottimizzazione lato SEO, dagli albori delle tecniche per motori di ricerca come Altavista sino agli sviluppi apportati per far fronte ai recenti aggiornamenti subiti dagli algoritmi di Google.

Come accade per i motori di ricerca, anche WebArchive possiede un vero e proprio Crawler in grado di analizzare ed indicizzare i contenuti delle pagine visitate: Heritrix, derivante da un progetto totalmente Open-source progettato appositamente per l’archiviazione del Web. Attualmente gli sviluppi del Crawler continuano incessantemente nella direttiva di creare uno strumento in grado di analizzare i contenuti Web al meglio rispettando tutte le direttive di esclusione all’interno del robots.txt o le informazioni contenute dei META Tag.