Question Comment puis-je télécharger un site Web entier?


Je veux télécharger un site Web entier (avec des sous-sites). Y a-t-il un outil pour cela?


75
2018-01-07 14:19


origine


Qu'est-ce que vous essayez de réaliser exactement? le titre et le contenu de votre question ne sont pas liés et le contenu n'est pas spécifique. - RolandiXor♦
N.B., uniquement les liens suivants (par exemple, en utilisant --convert-links in wget) ne révélera pas les sites qui ne sont révélés qu'en soumettant un formulaire, entre autres choses. - Steven Xu


Réponses:


Essayez l'exemple 10 de ici:

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : activer les options appropriées pour la mise en miroir.

  • -p : télécharger tous les fichiers nécessaires pour afficher correctement un Page HTML.

  • --convert-links : après le télécharger, convertir les liens dans document pour la visualisation locale.

  • -P ./LOCAL-DIR : enregistrer tous les fichiers et répertoires dans le fichier spécifié annuaire.

121
2018-01-07 14:34



existe-t-il un moyen de télécharger uniquement certaines pages (par exemple, plusieurs parties d'un article réparti sur plusieurs documents HTML)? - don.joey
@Private Oui, bien qu'il soit probablement plus facile d'utiliser python ou quelque chose pour obtenir les pages (en fonction de la mise en page / URL). Si l'URL des pages diffère d'un nombre en croissance constante ou si vous avez une liste de pages, vous pouvez probablement utiliser wget dans un script bash. - Vreality
Vous pourriez envisager d'utiliser le --wait=seconds argument si vous voulez être plus amical avec le site; il faudra attendre le nombre de secondes spécifié entre les récupérations. - belacqua
le travail ci-dessus fonctionne, mais pour joomla l'url paramétré crée des fichiers qui ne sont pas liés localement. Celui qui a fonctionné pour moi est wget -m -k -K -E votre.domaine.com  d'ici: vaasa.hacklab.fi/2013/11/28/… - M.Hefny
Aussi --no-parent "ne jamais monter au répertoire parent" pris à partir de ici. - Daniel


HTTrack for Linux copying websites in offline mode

httrack est l'outil que vous recherchez.

HTTrack vous permet de télécharger un site Web depuis Internet vers un répertoire local, en créant récursivement tous les répertoires, en récupérant le code HTML, les images et autres fichiers du serveur sur votre ordinateur. HTTrack organise la structure de liens relative du site d'origine.


37
2018-01-07 14:31





Avec wget vous pouvez télécharger un site Web entier, vous devez utiliser -r basculer pour un récursif Télécharger. Par exemple,

wget -r http://www.google.com

7
2018-01-07 14:44





WEBHTTRACK COPIE DE SITES WEB est un outil pratique pour télécharger un site Web entier sur votre disque dur pour une navigation hors ligne. Lancez le centre du logiciel ubuntu et tapez "Webhttrack website copier" sans les guillemets dans le champ de recherche. sélectionnez et téléchargez-le depuis le centre du logiciel sur votre système. lancez webHTTrack à partir du menu laucher ou du menu Démarrer


5
2017-10-22 01:30





Je ne connais pas les sous-domaines, c’est-à-dire les sous-sites, mais wget peut être utilisé pour récupérer un site complet. Jetez un oeil à la cette question de superutilisateur. Il dit que vous pouvez utiliser -D domain1.com,domain2.com télécharger différents domaines en un seul script. Je pense que vous pouvez utiliser cette option pour télécharger des sous-domaines -D site1.somesite.com,site2.somesite.com


3
2018-01-07 14:31





j'utilise Rot - L'outil spider est beaucoup plus intelligent que wget et peut être configuré pour éviter des sections si nécessaire. La suite Burp en elle-même est un ensemble d'outils puissant pour faciliter les tests, mais l'outil Spider est très efficace.


1
2018-01-07 20:54



N'est-ce pas Windows Burp seulement? Le contrat de licence à source fermée pour Burp est également assez lourd. Sans oublier le prix de 299,00 $: - Kat Amsterdam
de la licence: AVERTISSEMENT: BURP SUITE FREE EDITION EST CONÇUE POUR TESTER DES FLAWS DE SÉCURITÉ ET PEUT ENDOMMAGER LES SYSTÈMES CIBLES EN RAISON DE LA FONCTIONNALITÉ DE SA FONCTION. TESTER POUR DES FLAWS DE SÉCURITÉ CONCERNE INHÉREMMENT DES INTERACTIONS AVEC DES CIBLES DE MANIÈRES NON STANDARDS QUI PEUVENT PROVOQUER DES PROBLÈMES DANS CERTAINES CIBLES VULNERABLES. VOUS DEVEZ PRENDRE SOIN DÛ QUAND VOUS UTILISEZ LE LOGICIEL, VOUS DEVEZ LIRE TOUTES LES DOCUMENTS AVANT L’UTILISATION, VOUS DEVEZ SAUVEGARDER LES SYSTÈMES CIBLES AVANT L’UTILISATION ET VOUS NE DEVEZ PAS UTILISER LE LOGICIEL SUR LES SYSTÈMES DE PRODUCTION OU AUTRES SYSTÈMES . - Kat Amsterdam
Pour ce qu'il fait, le prix est incroyablement bon marché - je recommanderais de l'acheter pour un large éventail de tests de sécurité. Et il est très facile de le configurer pour tester exactement ce que vous voulez - plus sûr que AppScan dans certains cas :-) - Rory Alsop
@KatAmsterdam Concernant spécifiquement la question de compatibilité: Selon Wikipedia, Burp Suite est une application Java, donc devrait fonctionne bien sur Ubuntu. - Eliah Kagan
Kat - il fonctionne très bien sur différentes versions de Linux. L'avertissement sur la licence est le même que celui que vous pouvez utiliser pour les évaluations de sécurité. - Rory Alsop


Vous pouvez télécharger le site Web entier Commande:

wget -r -l 0 website

Exemple :

wget -r -l 0 http://google.com

Regardez ce tutoriel: https://youtu.be/8cnrQqGiWBc


1
2018-06-18 09:49



Pouvez-vous s'il vous plaît expliquer comment cette commande fonctionne? Ce qu'il fait? - Kaz Wolfe


Si la vitesse est un problème (et que le bien-être du serveur ne l'est pas), vous pouvez essayer puf, qui fonctionne comme wget mais peut télécharger plusieurs pages en parallèle. Ce n'est cependant pas un produit fini, pas maintenu et horriblement sans papiers. Cependant, pour télécharger un site Web avec beaucoup de petits fichiers, cela pourrait être une bonne option.


0
2018-01-07 15:14