वेब पर कब्जा और परिवर्तित करने के लिए उपकरण

वेबसाइट और उसकी सभी सामग्री कैसे डाउनलोड करें?

वेबसाइट

कुछ उदाहरण हैं जब एक पूरी वेबसाइट को डाउनलोड करना महत्वपूर्ण है, न कि केवल समाप्त परिणाम। लेकिन HTML वेब पेज, संसाधन जैसे सीएसएस, स्क्रिप्ट और चित्र।

यह शायद इसलिए कि आप कोड का बैकअप चाहते हैं, लेकिन अब किसी कारण से मूल स्रोत तक नहीं पहुंच सकते। या शायद आप एक विस्तृत रिकॉर्ड चाहते हैं कि समय के साथ एक वेबसाइट कैसे बदल गई है।

सौभाग्य से GrabzIt के वेब स्क्रैपर एक वेबसाइट पर सभी वेब पेजों पर क्रॉल करके इसे प्राप्त कर सकते हैं। फिर प्रत्येक वेब पेज पर स्क्रैपर HTML को पेज पर संदर्भित किसी भी संसाधन के साथ डाउनलोड करता है।

एक पूरी वेबसाइट डाउनलोड करने के लिए एक स्क्रैप बनाएँ

अपनी वेबसाइट को यथासंभव आसान डाउनलोड करने के लिए GrabzIt एक स्क्रैप टेम्पलेट प्रदान करता है।

आरंभ करना इस टेम्पलेट को लोड करें.

फिर अपना दर्ज करें लक्ष्य URL, यह URL फिर त्रुटियों और किसी भी आवश्यक परिवर्तन के लिए स्वचालित रूप से जांचा जाता है। रखना स्वचालित रूप से प्रारंभ परिमार्जन चेकबॉक्स टिक गया, और आपका स्क्रैप अपने आप शुरू हो जाएगा।

अपने परिमार्जन को अनुकूलित करना

यदि आप टेम्पलेट को बदलना चाहते हैं, तो अनचेक करें स्वचालित रूप से प्रारंभ परिमार्जन चेकबॉक्स। उदाहरण के लिए, एक वेबसाइट पर नियमित प्रतियां बनाने के लिए एक शेड्यूल को नियमित रूप से चलाना होगा। पर अनुसूची स्क्रैप टैब, बस क्लिक करें बार-बार खुरचन चेकबॉक्स और फिर चुनें कि आप कितनी बार स्क्रैप को दोहराना चाहते हैं। तब दबायें अपडेट परिमार्जन शुरू करने के लिए।

अपनी डाउनलोड की गई वेबसाइट का उपयोग करना

एक बार स्क्रैप खत्म होने के बाद आपको एक ज़िप फ़ाइल मिलेगी। अगली ज़िप फ़ाइल को अंदर डालें और फ़ाइलें नामक एक निर्देशिका में स्थित सभी डाउनलोड किए गए वेब पेज और वेबसाइट संसाधन होंगे। निर्देशिका के मूल में एक विशेष HTML पृष्ठ भी होगा, जिसे data.html कहा जाता है। इस फाइल को वेब ब्राउजर में खोलें और आपको तीन कॉलम वाला एक HTML टेबल मिलेगा:

  • संसाधन URL - यह वह URL है जिस पर वेब स्क्रैपर ने संसाधन पाया है। तो उदाहरण के लिए: http://www.example.com/logo.jog
  • संसाधन प्रकार - यह संसाधन का प्रकार है जिसे डाउनलोड किया गया था। संसाधन चार प्रकार के होते हैं।
    • वेब पेज
    • छवि
    • बाहरी संसाधन - लिंक टैग से डाउनलोड किया गया कोई भी संसाधन
    • लिपि
  • नया फ़ाइल नाम - संसाधन के लिए नया फ़ाइल नाम saved के तहत। ध्यान दें कि यह कॉलम फ़ाइल का लिंक भी है, जो सभी डाउनलोड किए गए संसाधन का निरीक्षण करना बहुत आसान बनाता है।

यह फ़ाइल नए फ़ाइलनामों को उनके पुराने स्थानों पर मैप करने में आपकी सहायता करने के लिए डिज़ाइन की गई है। इसकी आवश्यकता है क्योंकि URL को सीधे फ़ाइल संरचना में मैप नहीं किया जा सकता है क्योंकि URL सीधे फ़ाइल पथ में संग्रहीत होने के लिए बहुत बड़ा हो सकता है।

विशेष रूप से तब भी कई क्रमपरिवर्तन हो सकते हैं जब कोई वेब पेज विभिन्न क्वेरी को बदलकर बहुत सारी सामग्री का प्रतिनिधित्व कर सकता है string मापदंडों! इसलिए इसके बजाय हम फ़ाइल फ़ोल्डर में एक फ्लैट संरचना में वेबसाइट को संग्रहीत करते हैं और आपको इन फ़ाइलों को मूल संरचना में मैप करने के लिए data.html फ़ाइल देते हैं।

बेशक, इस वजह से आप डाउनलोड किए गए HTML पेज को नहीं खोल सकते हैं और वेब पर आपके द्वारा देखे गए वेब पेज को देखने की उम्मीद कर सकते हैं। ऐसा करने के लिए आपको छवि, स्क्रिप्ट और CSS संसाधनों आदि के पथों को फिर से लिखना होगा ताकि HTML फ़ाइल उन्हें आपकी स्थानीय फ़ाइल संरचना में मिल सके।

एक अन्य फ़ाइल जो ज़िप फ़ाइल के रूट में शामिल होगी, उसे Website.csv कहा जाता है। इसमें ठीक वैसी ही जानकारी है, जैसी data.html फ़ाइल में है। हालाँकि यह उस मामले में शामिल है जिसे आप पढ़ना चाहते हैं और वेबसाइट को प्रोग्राम डाउनलोड करने की प्रक्रिया कर रहे हैं, शायद डाउनलोड की गई वेबसाइट को फिर से बनाने के लिए यूआरएल की फाइलों से मैपिंग का उपयोग करें।