GrabzIt के वेब खुरचनी यह बहुत ही लचीला है, जो विभिन्न प्रकार के ऑनलाइन कार्यों को करने की अनुमति देता है, जैसे कि एक वेबसाइट लिंक की जाँच करना और रिपोर्ट करना जो टूट गए हैं।
पहली बात यह है कि एक बनाने के लिए है खरोंच और उस लक्षित वेबसाइट को असाइन करें जिसे आप जांचना चाहते हैं, फिर स्क्रैप के निर्देशों के लिए नीचे दिए गए कोड का उपयोग करें।
var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); urls = Utility.Array.unique(urls); urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL")); for (i = 0; i < urls.length; i++) { var url = urls[i]; Data.save(Page.getUrl(), "Links", "Found On"); Data.save(url, "Links", "URL"); if (Utility.URL.exists(url)) { Data.save("Found", "Links", "Result"); } else { Data.save("Missing", "Links", "Result"); } }
पहली पंक्ति var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
सभी हाइपरलिंक URL निकालता है और उन्हें अंदर डालता है urls
चर। अगली पंक्ति का उपयोग करता है Utility.Array.unique सभी URL को अद्वितीय बनाने की विधि।
तीसरी पंक्ति यह सुनिश्चित करती है कि लिंक को दो बार चेक नहीं किया जा रहा है ऐसा करने के लिए हम उस URL को पढ़ते हैं जो पहले हो चुका है saveडी और इसके द्वारा निकाले गए लिंक को फ़िल्टर करें। अगर आप चाहते हैं कि हर पेज एक लिंक टूट जाए तो इस लाइन को हटा दें।
URL डेटा को साफ करने के बाद, हम प्रत्येक शेष URL के माध्यम से लूप को साफ करते हैं, इसे इसमें सहेजते हैं डाटासेट वर्तमान पृष्ठ के साथ, यह जाँचने से पहले कि URL किसका उपयोग करके मौजूद है Utility.URL.exists
तरीका। इस जाँच का परिणाम तब भी है saved डेटासेट में।
वैकल्पिक रूप से आप जांच सकते हैं कि क्या कोड के स्थान पर वेबसाइटों की छवियां मौजूद हैं Page.getTagAttributes('href', {"tag":{"equals":"a"}});
साथ में Page.getTagAttributes('src', {"tag":{"equals":"img"}});
.