HTTrach: scaricare interi siti in locale

Categoria:

Quando ho deciso di mettere in piedi il sito https://www.sopravvivere.org, trasformato poi in https://www.sopravvivere.org/ non ho pensato esattamente ad un sito vero e proprio. il mio intento è quello di creare un insieme di pagine che possono, in qualche modo dare vita ad un manuale di sopravvivenza. Un manuale che esce per alcuni versi dagli standard di settore, ma che poi alla fine, si spera, si riveli utile per l’utilizzatore finale.

Per trasformare un sito internet (rendendolo utilizzabile anche offline) in un manuale, è necessario che il sito sia scaricato in locale, cioè deve stare sul computer dell’utilizzatore.
Ci sono vari sistemi per scaricare i siti in locale. Tutti devono garantire il corretto reindirizzamento dei link e una certa velocità nello scaricare il sito.
Per i sistemi operativi GNU/Linux esistono molti tools, tra i quali, il più utilizzato è probabilmente wget, un tool a riga di comando (da terminale) versatile e con molte opzioni. Voglio però presentare in questo articolo il software HTTrack. HTTrack infatti è possibile trovarlo per i sistemi operativi più utilizzati e il funzionamento, con una interfaccia browser è molto semplice e intuitivo.
HTTrack è un’applicazione open source sviluppata da Xavier Roche per il mirroring di siti web su supporto locale per navigazione offline.

Oltre al programma principale, a riga di comando, disponibile per gli ambienti GNU/Linux, Windows e Mac, esiste un’interfaccia grafica per Windows (WinHTTrack) e per GNU/Linux (WebHTTrack). Vengono supportati i protocolli HTTP e FTP, mentre il protocollo HTTPS non è supportato. All’applicazione è dedicato il sito http://www.httrack.com dove è disponibile la documentazione e un forum.

Il programma consente di riprodurre in locale il contenuto di uno o più siti web. Sono disponibili numerose opzioni per limitare o estendere il mirroring, ed è anche disponibile un sistema di filtri per controllare ulteriormente il tipo e le caratteristiche dei file da scaricare in locale.

All’interno delle pagine scaricate, i link sono riorganizzati, in modo da consentire l’accesso offline di tutti i file riprodotti e l’accesso online dei file non riprodotti. Per default, i criteri previsti da robots.txt nel server sono rispettati, ma è possibile ignorarli.

Al fine di non sovraccaricare la banda né il server remoto, vi è la possibilità di modulare il numero di connessioni contemporanee, la velocità di trasferimento, il numero di connessioni al secondo e la quantità dei dati trasferiti. Un sistema di cache permette di interrompere la procedura di mirroring e di ricominciarla in un secondo tempo, o di eseguire la ricerca di file modificati e l’aggiornamento del mirror locale senza ripetere il download dei file già disponibili nella versione corrente.

La versione a riga di comando permette l’integrazione del programma all’interno di script sia in ambiente GNU/Linux che in ambiente Windows. I testi delle interfacce grafiche sono tradotti in molte lingue, ma la documentazione è disponibile nel sito ufficiale solo in inglese.


Per gli utilizzatori di sistemi operativi (distribuzioni) GNU/Linux, si può utilizzare anche WGET.
GNU Wget è un pacchetto software gratuito per il recupero di file utilizzando HTTP, HTTPS, FTP e FTPS, i protocolli Internet più utilizzati. È uno strumento da riga di comando non interattivo, quindi può essere facilmente richiamato da script.
GNU Wget ha molte funzionalità per facilitare il recupero di file di grandi dimensioni o il mirroring di interi siti Web o FTP, tra cui:
Può riprendere i download interrotti, utilizzando RESTeRANGE
Può utilizzare caratteri jolly per i nomi dei file e eseguire il mirroring ricorsivo delle directory
File di messaggi basati su NLS per molte lingue diverse
Facoltativamente, converte i collegamenti assoluti nei documenti scaricati in relativi, in modo che i documenti scaricati possano collegarsi tra loro localmente
Funziona sulla maggior parte dei sistemi operativi simili a UNIX e su Microsoft Windows (non l’ho mai provato su questo sistema operativo)
Supporta i proxy HTTP
Supporta i cookie HTTP
Supporta connessioni HTTP persistenti
Operazione incustodita/in background
Utilizza i timestamp dei file locali per determinare se i documenti devono essere scaricati nuovamente durante il mirroring
GNU Wget è distribuito sotto la GNU General Public License .

esempio di comando, che scarica l’intero sito nella directory desiderata:
wget -r -k -l10 https://www.sopravvivere.org/ -P /percorso di destinazione/nome directory