वेब पर कब्जा और परिवर्तित करने के लिए उपकरण

वेब खुरचनी प्रलेखन

वेब स्क्रैप बनाने के लिए आपको निम्नलिखित टैब में फैले पांच प्रकार की जानकारी निर्दिष्ट करनी होगी।

  1. परिमार्जन विकल्प
  2. Target Website
  3. परिमार्जन निर्देश
  4. निर्यात विकल्प
  5. अनुसूची स्क्रैप

परिमार्जन विकल्प

स्क्रैप विकल्प विकल्प पर एक वेब परिमार्जन को अनुकूलित करने के लिए निम्नलिखित सभी सुविधाएँ उपलब्ध हैं।

खुरचन नाम परिमार्जन का नाम।

लिंक का पालन करें निम्न विकल्प प्रदान करता है कि खुरचनी को कैसे लिंक का अनुसरण करना चाहिए:

फ़ाइल डाउनलोड पर ध्यान न दें एक बार किसी भी लिंक को सेट करें, जो विज़िट किए जाने पर फ़ाइल डाउनलोड का कारण नहीं है।

Robots.txt फ़ाइल को अनदेखा करें अगर स्क्रैपर सेट किया जाता है तो वेबसाइट के मालिक द्वारा क्रॉल किए जाने से सामान्य रूप से बाहर रखे गए वेब पेजों पर जा सकते हैं।

त्रुटि पृष्ठों पर ध्यान न दें यदि सेट किया गया है तो वेब स्क्रैपर किसी त्रुटि की रिपोर्ट करने वाले किसी भी वेब पेज को छोड़ देगा। तो कोई भी HTTP स्टेटस कोड 400 या उससे ऊपर।

Ignore URL fragments if set the web scraper will ignore the part of the URL after the # this feature is commonly used to denote a bookmark on the same page and so would normaly result in needless pages being scraped. However, some websites use this feature to show different content, in which case this setting needs to be disabled. This option is only applicable when follow links is not as required.

डुप्लिकेट को अनदेखा करें यदि सेट किया जाता है तो यह उन पृष्ठों को अनदेखा कर देगा जो आपके द्वारा निर्धारित समानता से अधिक या उससे अधिक हैं, उदाहरण के लिए आप उन पृष्ठों को अनदेखा कर सकते हैं जो 95% समान हैं।

परिमार्जन सीमा आपको यह बताने की अनुमति देता है कि रोकने से पहले वेब पेज को कितने पृष्ठों पर खुरचना चाहिए।

मेरा समयक्षेत्र का उपयोग करें अगर यह निर्धारित करता है कि वेब खुरचनी को किसी भी तारीख को बदलने की कोशिश करनी चाहिए intअपने स्थानीय समय क्षेत्र। आपका समय क्षेत्र खाता पृष्ठ पर सेट किया जा सकता है।

पता भौगोलिक स्थिति वेब खुरचनी परिमार्जन करेगा। यह उपयोगी हो सकता है यदि लक्ष्य वेबसाइट में स्थान के आधार पर प्रतिबंध हो।

डिफ़ॉल्ट तिथि प्रारूप जब दिनांक प्रारूप को निर्धारित नहीं किया जा सकता है, तो तिथियों को परिवर्तित करते समय, वेब स्क्रैपर इस चुने हुए प्रारूप के बजाय डिफ़ॉल्ट होगा।

पेज लोड देरी यह वह समय है जब वेब पेजर को किसी पेज को पार्स करने से पहले इंतजार करना चाहिए। यह बहुत उपयोगी है यदि किसी पेज में बहुत अधिक AJAX है या लोड करने के लिए धीमा है।

Target Website

Target Website

In the Target Website tab you specify websites you want to extract data from. To tell the scrape tool to extract data from a website you first have to specify the main URL you are intउदा http://www.example.com/shop/ यह है कि स्क्रैपर अपना स्क्रैप शुरू करेगा, यह एक सामान्य वेबपेज, पीडीएफ दस्तावेज़, एक्सएमएल दस्तावेज़, जेन्सन दस्तावेज़, आरएसएस फ़ीड या साइटमैप हो सकता है। यदि यह एक वेब पेज या पीडीएफ डॉक्यूमेंट नहीं है, तो स्क्रैपर फाइल के सभी लिंक ढूंढेगा और हर एक को विजिट करेगा।

केवल लक्ष्य URL में पाए गए लिंक का पालन करने के लिए और बाद के किसी भी पृष्ठ पर आप सेट नहीं कर सकते लिंक का पालन करें परिमार्जन का विकल्प सेवा मेरे पहले पेज पर। यह लक्ष्य URL का उपयोग केवल शेष स्क्रैप को बीजित करने के लिए करेगा।

URL पैटर्न

डिफ़ॉल्ट रूप से, वेब स्क्रैपर प्रत्येक लिंक का अनुसरण करता है, जो उसके द्वारा देखे जाने वाले प्रत्येक वेब पेज पर पता चलता है। यदि आप प्रतिबंधित करना चाहते हैं कि क्या लिंक है वेब खुरचनी follows, one simple way to do this is to specify a URL Pattern. This powerful technique mainly works by specifying a URL with the asterisk as a wild card to denote that any characters can be present in this part of the pattern. For instance http://www.example.com/*/articles/* वेबसाइट के रूट से दूसरी निर्देशिका के रूप में किसी भी URL को परिमार्जन करेगा।

URL पैटर्न को परिभाषित करने का एक अधिक प्रतिबंधात्मक तरीका विकल्प को परिभाषित करना है। उदाहरण के लिए यह उदाहरण केवल स्टोर या समाचार से मेल खाएगा: http://www.example.com/ /*

इसलिए यह इस मैच होगा http://www.example.com/store/products/1 लेकिन नहीं http://www.example.com/about/.

या वैकल्पिक रूप से कुछ के अलावा किसी भी चीज़ से मेल खाना संभव है। उदाहरण के लिए यह उदाहरण स्टोर या समाचार से मेल नहीं खाएगा: http://www.example.com/ /*

इसलिए यह इस मैच होगा http://www.example.com/about/ लेकिन नहीं http://www.example.com/store/products/1!

A URL pattern can also contain keywords. A keyword is anything contained in a double square brackets. So [[URL_START]]www.example.com* will match against any valid start of a URL so http://www.example.com/, https://www.example.com/ या यहाँ तक ftp://www.example.com/ उदाहरण के लिए।

बीज का यूआरएल

बीज URL एक उपयोगकर्ता को उन URL की एक सूची निर्दिष्ट करने की अनुमति देता है जिसे वेब स्क्रैपर द्वारा क्रॉल किया जाना चाहिए। यदि आप केवल सीड यूआरएल स्क्रैप सेट करना चाहते हैं लिंक का पालन करें परिमार्जन विकल्प सेवा मेरे कोई पृष्ठ नहीं परिमार्जन विकल्प टैब में।

To set Seed URLs on the Target Website tab, click the Add Target button then check the Set Seed URLs checkbox and specify each URL to scrape on a separate line.

टेम्पलेट URL से बीज URL बनाएं

वैकल्पिक रूप से आप टेम्पलेट URL का उपयोग करके स्वचालित रूप से बीज URL उत्पन्न कर सकते हैं, यह एक एकल URL है जिसमें URL चर शामिल है। एक URL चर अधिक से अधिक संख्याओं को निर्दिष्ट करता है।

प्रारंभ संख्या वह संख्या है जिस पर URL चर को गिनना शुरू करना चाहिए, अंतिम संख्या वह संख्या है जिस पर URL चर गिनना बंद कर देगा, iterate संख्या वह संख्या है जो URL चर के प्रत्येक पुनरावृत्ति के लिए बढ़ जाएगी।

उदाहरण के लिए निम्न टेम्पलेट URL के लिए http://www.example.com/search?pageNo=

इसके बाद निम्नलिखित बीज URL बनाए जाएंगे:

पोस्ट करें

URL एक URL को पैरामीटर के साथ निर्दिष्ट कर सकता है, उदाहरण के लिए लॉगिन फॉर्म भी। ऐसा करने के लिए लक्ष्य URL टेक्स्ट बॉक्स में फ़ॉर्म URL निर्दिष्ट करें और उपयोग करने के लिए आवश्यक पोस्ट पैरामीटर जोड़ें। चर चर मानों में विशेष GrabzIt चर भी शामिल हो सकते हैं, जैसे:

परिमार्जन निर्देश

स्क्रेप निर्देश वेब स्क्रैपर को बताता है कि लक्ष्य वेबसाइट को स्क्रैप करते समय क्या कार्रवाई करनी है। स्क्रेप निर्देश टैब डिफ़ॉल्ट रूप से स्क्रैप विज़ार्ड को दिखाता है, जो आपके लिए आवश्यक स्क्रैप निर्देशों को जोड़ना आसान बनाता है। इस विज़ार्ड का उपयोग करने का एक अच्छा उदाहरण में दिखाया गया है उत्पाद सूची और विस्तार स्क्रैपिंग ट्यूटोरियल.

एक बार जब आप स्क्रैपिंग प्रेस शुरू करने के लिए तैयार हैं नया परिमार्जन निर्देश जोड़ें लिंक.

यह विज़ार्ड खोल देगा और स्वचालित रूप से लक्ष्य URL को लोड कर देगा, जिससे आप तुरंत चुन सकते हैं कि आप क्या स्क्रैप करना चाहते हैं। यदि कोई वेबपेज या पीडीएफ डॉक्यूमेंट लोड किया गया है, तो आप किसी भी लिंक पर क्लिक कर सकते हैं और यह अन्य वेबपेज के लिए नेविगेशन के लिए सामान्य रूप से कार्य करेगा। जब तक आप स्क्रीन के निचले भाग में, इस कविता में कोई एक क्रिया चुनते हैंint सामग्री पर कोई भी क्लिक उस HTML तत्व का चयन करेगा जिसे आप निकालना या हेरफेर करना चाहते हैं।

स्क्रैप निर्देशों के बारे में समझने वाली पहली बात यह है कि वे हर वेब पेज पर डिफ़ॉल्ट रूप से निष्पादित होते हैं। इसे रोकने का तरीका टेम्पलेट्स के उपयोग के माध्यम से है। एक टेम्पलेट पर कार्रवाई तब की जा सकती है जब कोई लिंक क्लिक करने जैसी क्रिया हो, और ताकि जब भी स्क्रैपर उस लिंक पर जाए या उस बटन पर क्लिक करे तो यह पहचान लेगा कि यह निर्धारित टेम्पलेट का है। यह विभिन्न पृष्ठ प्रकारों को परिभाषित करने की अनुमति देता है। उदाहरण के लिए, आपके पास एक उत्पाद श्रेणी पृष्ठ हो सकता है जिसमें कुछ अवलोकन जानकारी और फिर एक विस्तृत पृष्ठ होता है जिसमें उत्पाद जानकारी होती है। दोनों पृष्ठों को शायद अलग-अलग परिमार्जन निर्देशों की आवश्यकता होगी।

खुरचने का साँचा

आरंभ करने के लिए चुनें क्लिक करें कार्रवाई, फिर एक बार जब आप उन वस्तुओं का चयन कर लेते हैं जिन पर आप कार्रवाई करना चाहते हैं और क्लिक करें आगामी बटन टेम्पलेट के नाम में दर्ज करें एक खाका बनाएँ टेक्स्ट बॉक्स अब जब भी स्क्रैपर इन क्रियाओं को अंजाम देगा, लौटाया गया टेम्पलेट आपके द्वारा प्रदत्त नाम होगा।

फिर एक विशेष टेम्प्लेट को स्क्रैप करने के लिए निर्दिष्ट करने के लिए आपको वांछित टेम्पलेट का चयन करने की आवश्यकता है में निष्पादित करें ड्रॉप डाउन सूची, जो विकल्प विंडो में दिखाई देती है जो स्क्रैप निर्देश को जोड़ने से ठीक पहले दिखाई देती है। टेम्प्लेट चुनते समय तीन मुख्य विकल्प इस प्रकार हैं:

एक बार जब आप इन विकल्पों में से एक का चयन कर लेते हैं, तो स्क्रैप अनुदेश केवल निर्दिष्ट टेम्पलेट पर निष्पादित किया जाएगा।

डेटा निकालना

जब आप चुनेंगे तो आप देखेंगे डेटा निकालें कार्रवाई। स्क्रीन के निचले बाएं कोने में आपको या तो ऊपर विंडो में एक HTML तत्व का चयन करने या एक वैश्विक पृष्ठ संपत्ति चुनने के लिए आमंत्रित किया गया है।

वैश्विक पृष्ठ संपत्ति का उपयोग करने के लिए, पर क्लिक करें वैश्विक पृष्ठ संपत्ति संपर्क। फिर पुष्टि करें कि आप जारी रखना चाहते हैं। अब आपके पास उन संपत्तियों की एक सूची होगी, जिन्हें सीधे पृष्ठ से निकाला जा सकता है। उदाहरण के लिए: पेज शीर्षक।

किसी एक को चुनने के लिए, इसे विकल्पों की सूची से चुनें और क्लिक करें आगामी में डेटा जोड़ने के लिए डाटासेट.

यदि आप संबंधित HTML तत्वों पर क्लिक करने की आवश्यकता वाले संपूर्ण पृष्ठ से संबंधित विशिष्ट HTML तत्वों में डेटा निकालने की इच्छा रखते हैं, तो आप एकल या एकाधिक आइटम का चयन कर सकते हैं। हालाँकि, यदि आप कई आइटम्स का चयन कर रहे हैं, तो कृपया कोशिश करें और एक से अधिक आइटमों का चयन करें जो एक कॉलम में कई पंक्तियों जैसे हैं, क्योंकि यदि स्क्रैपर कोई नियम नहीं बना सकता है जो डेटा के चयनित संग्रह को विशिष्ट रूप से पहचान नहीं कर सकता है, तो कोई स्क्रैप निर्देश नहीं होगा बनने में सक्षम होना। इसके अलावा अगर आपके द्वारा क्लिक की जा रही कई वस्तुओं को हमारे वेब स्क्रैपर विज़ार्ड द्वारा डेटा को दोहराने के रूप में पहचाना गया है, तो उसी समूह के सभी डेटा को स्वचालित रूप से चुना जाएगा। एक बार जब आप अपने सभी एकल या एकाधिक आइटमों का चयन कर लेते हैं, तो स्क्रीन के नीचे बाईं ओर से निकालने के लिए एक विशेषता चुनें और फिर क्लिक करें आगामी.

डेटासट बनाना

डाटासेट स्क्रीन आपको यह बदलने की अनुमति देता है कि डेटा कैसे संसाधित किया जाता है, उदाहरण के लिए आप डेटासेट और उसके भीतर के कॉलम का नाम बदल सकते हैं, बस नाम बदलने के लिए उस पर क्लिक करें। जब आप किसी डेटासेट में एक कॉलम जोड़ते हैं, तो आपको उस टेम्पलेट को भी चुनना होगा जिसे इसे निष्पादित किया जाना चाहिए। आप कॉलम नाम के तहत स्थित ड्रॉप डाउन सूची पर क्लिक करके इसे बदल सकते हैं।

अक्सर डेटा निकालते समय, कुछ दोहराई जाने वाली वस्तुओं को असंगत रूप से दोहराना सामान्य है, यह सुनिश्चित करने के लिए कि सही पंक्तियाँ अभी भी एक दूसरे के उपयोग से जुड़ी हैं लिंक कॉलम मानदंड, असंगत स्तंभों को डेटासेट में सबसे सुसंगत स्तंभ से जोड़ने के लिए।

डेटासेट में अधिक डेटा जोड़ने के लिए पर क्लिक करें बटन, या क्लिक करें डेटासेट से डेटा निकालने के लिए, या संपूर्ण डेटासेट को हटाने के लिए। डेटासेट विभिन्न मापदंडों को डेटा पर लागू करने की अनुमति देता है, ऐसा करने के लिए ऊपर से वांछित कार्रवाई का चयन करें और फिर मापदंड लागू करने के लिए संबंधित कॉलम पर क्लिक करें। यदि आप एक मानदंड जोड़ने की गलती करते हैं तो बस क्लिक करें बटन.

यहां विभिन्न मानदंडों के प्रकारों की सूची दी गई है और उनका उपयोग कैसे किया जाए:

जब आपने उपरोक्त ऑपरेशनों में से एक का चयन किया है, तो यदि यह कई कॉलमों को प्रभावित कर सकता है, तो यह आपसे पूछेगा कि क्या आप केवल कॉलम या उन सभी को प्रभावित करने की अनुमति देना चाहते हैं। ज्यादातर मामलों में आप चाहते हैं कि यह सभी स्तंभों को प्रभावित करे, लेकिन कुछ परिस्थितियों में यह स्तंभों को प्रभावित करने के लिए सीमित है। उदाहरण के लिए, यदि आप की एक श्रृंखला का चयन कर रहे हैं लेबल और मूल्य, जो वेब पेजों में स्थिति बदलते हैं, आप सभी लेबल और मान चुन सकते हैं। फिर डेटासेट में वांछित लेबल तक इसे सीमित करने के लिए समान संचालन का उपयोग करते हैं और निर्दिष्ट करते हैं कि केवल लेबल और मूल्य कॉलम प्रभावित होना चाहिए। यह सुनिश्चित करेगा कि अन्य कॉलम हटाए जा रहे पंक्तियों से अप्रभावित हैं, पूर्णता के लिए यह लेबल कॉलम को छिपाने के लिए उपयोगी होगा।

एक बार जब आप अपने इच्छित सब कुछ को संशोधित कर लेते हैं, तो क्लिक करें आगामी और, आपके स्क्रैप के निर्देशों को स्क्रैप में जोड़ा जाएगा। यदि आप चाहें तो आपके पास आगे स्क्रैप निर्देश जोड़ने का विकल्प है।

एक वेबपेज को हेरफेर करना

ड्रॉप-डाउन से मानों को क्लिक करने, टाइप करने और चयन करने से पहले एक वेबपेज को हेरफेर किया जा सकता है। यह याद रखना महत्वपूर्ण है कि भले ही यह नए वेबपेज को लोड करने के लिए कारण हो सकता है कि स्क्रैप निर्देशों को तब तक पुनरारंभ नहीं किया जाएगा जब तक कि सभी लागू स्क्रैप निर्देशों को निष्पादित नहीं किया जाता है।

वेबपृष्ठ में हेरफेर करने के लिए या तो चुनें तत्व पर क्लिक करें, होवर तत्व, स्क्रॉल, पाठ टाइप करे or ड्रॉप डाउन सूची मूल्य का चयन करें कार्रवाई। यदि आप एक क्लिक क्रिया कर रहे हैं तो आप किसी वेबपेज पर किसी भी तत्व पर क्लिक कर सकते हैं। अन्यथा आपको एक उपयुक्त HTML तत्व का चयन करना होगा, उदाहरण के लिए टेक्स्ट को टेक्स्ट बॉक्स में टाइप किया जाना चाहिए। तब दबायें आगामी। यह एक विकल्प बॉक्स खोलेगा जो आपको कार्रवाई पूरा करने की अनुमति देता है। पाठ टाइप करते समय और टाइप किए जाने या चुने जाने के लिए एक ड्रॉप डाउन से चयन करके क्रमशः चुना जाना चाहिए। इसके अलावा अन्य तीनों क्रियाओं के लिए विकल्प समान हैं।

यदि आप चाहें तो टेम्पलेट का चयन कर सकते हैं इस क्रिया को क्रियान्वित किया जाना चाहिए और क्लिक क्रिया पूरी होने पर, क्लिक क्रिया पूर्ण होने के बाद। हालांकि, एक क्लिक कार्रवाई के लिए एक नया टेम्पलेट असाइन करना जो एक ही पृष्ठ पर कई क्लिक करता है, यह एक अच्छा विचार नहीं है, जैसे कि इनलाइन पॉपअप खोलना या स्क्रीन पर चीजें दिखाना। ऐसा इसलिए है क्योंकि यदि क्लिक एक्शन केवल कुछ टेम्प्लेट्स पर ही लागू होता है, तो पहले क्लिक के द्वारा असाइन किया गया नया टेम्प्लेट रीसेट नहीं किया जाएगा और इसलिए इस बात पर निर्भर करता है कि यह कैसे लिखा गया था, उसी पेज पर भविष्य के क्लिक को निष्पादित होने से रोक सकता है। आप यह भी परिभाषित कर सकते हैं कि क्या आप चाहते हैं कि यह क्रिया केवल एक बार निष्पादित हो, जो उपयोगी है यदि आप लॉगिन की तरह कुछ कर रहे हैं intओ वेबसाइट।

टाइप टेक्स्ट या सेलेक्ट ड्रॉप डाउन लिस्ट वैल्यू एक्शन से आप टेक्स्ट के कई आइटम टाइप कर सकते हैं या क्रमशः कई चुनिंदा बॉक्स सिलेक्शन कर सकते हैं। इन्हें स्‍क्रैप निर्देशों पर क्लिक करके संपादित किया जा सकता है परिवर्तन या दृश्य चर बटन, जैसा कि स्क्रीनशॉट में बाईं ओर दिखाया गया है।

यह महत्वपूर्ण हो सकता है यदि आप उदाहरण के लिए किसी खोज बॉक्स में नामों की सूची लिखना चाहते हैं। यह सुनिश्चित करने के लिए कि कोई प्रपत्र केवल तभी सबमिट किया जाता है जब खोज बॉक्स में कोई मूल्य हो, प्रत्येक बार पाठ सफलतापूर्वक टाइप किए जाने पर एक टेम्पलेट सेट किया जा सकता है intजब तक यह टेम्प्लेट सेट नहीं होता तब तक टेक्स्ट पर ओ और बटन पर क्लिक करें। क्लिक कार्रवाई के बाद टेम्प्लेट किया जाता है फिर प्रक्रिया को रीसेट करने के लिए इसे कुछ और में बदलना होगा।

वेबसाइटों में हेरफेर करने वाली कार्रवाइयों के बाद, थोड़ी देर के लिए इंतजार करना उपयोगी होता है अगर कार्रवाई AJAX की कार्यक्षमता शुरू करती है, तो स्क्रैप के साथ जारी रखने से पहले AJAX सामग्री को लोड करने की अनुमति देता है। आप इसमें देरी जोड़कर कर सकते हैं निष्पादन के बाद प्रतीक्षा करें पाठ बॉक्स।

कुछ शर्त पूरी होने पर आप सीधे एक अलग URL पर जा सकते हैं। ऐसा करने के लिए उपयोग करें URL पर जाएं कार्रवाई, जो केवल तब दिखाई देगी जब कम से कम एक टेम्पलेट को परिमार्जन में परिभाषित किया गया हो और जब बनाया जाए तो उसे एक टेम्पलेट को सौंपा जाना चाहिए, ताकि अनंत छोरों से बचने में मदद मिल सके।

अंत में आप अपने वेब स्क्रेप में GrabzIt के कैप्चर एपीआई के सभी का उपयोग कर सकते हैं, बस कैप्चर वेबपेज एक्शन चुनें, और अपनी इच्छित कैप्चर चुनें। आप एक बार चयन करने के लिए टेम्पलेट को निर्दिष्ट करके स्क्रैप के भीतर कुछ वेब पृष्ठों को पकड़ने के लिए इसे सीमित कर सकते हैं आगामी बटन.

प्रत्येक परिमार्जन निर्देश को जोड़ने के बाद इसे परिमार्जन निर्देश पैनल में देखा जा सकता है, प्रत्येक परिमार्जन अनुदेश के आगे का क्रॉस परिमार्जन निर्देश को हटाने की अनुमति देता है। यदि कोई स्क्रैप निर्देश हटा दिया जाता है जो अन्य स्क्रैप निर्देशों द्वारा आवश्यक होता है तो वे निर्देश भी हटा दिए जाते हैं। आप हड़पने के आइकन के साथ किसी भी स्क्रैप निर्देश को खींचकर स्क्रैप के निर्देशों का क्रम बदल सकते हैं।

लेखन स्क्रैप निर्देश मैन्युअल रूप से

यदि आपको स्क्रैप निर्देशों को अधिक विशिष्ट तरीके से अनुकूलित करने की आवश्यकता है, तो आपको मैन्युअल रूप से स्क्रैप निर्देशों को बदलना होगा।

परिमार्जन निर्देश जावास्क्रिप्ट आधारित होते हैं और कोड संपादक एक सिंटैक्स चेकर, ऑटो-कम्प्लीट और टूलटिप के साथ पूरा होता है ताकि यह जितना संभव हो उतना आसान हो सके।

वेब खुरचने के निर्देश कोड संपादक की मुख्य कार्यक्षमता मेनू विकल्पों के माध्यम से सुलभ है, जैसा कि स्क्रीनशॉट में दिखाया गया है, प्रत्येक का उद्देश्य नीचे अलग से बताया गया है। जबकि आपके स्क्रैप निर्देशों में कोई भी वाक्यविन्यास त्रुटियां कोड संपादक के बाएं हाथ के गटर में इंगित की जाती हैं।

विज़ार्ड विज़ार्ड आपको पृष्ठ के कुछ हिस्सों का चयन करने की अनुमति देता है जिन्हें आप निकालने के लिए चाहते हैं और अन्य सामान्य कार्य जैसे वेब कैप्चर बनाते हैं।

स्क्रेप निर्देश प्रदर्शित करें उपयोगकर्ता को परिमार्जन निर्देश कोड प्रदर्शित करता है।

सभी निर्देश हटाएं सभी स्क्रैप निर्देशों को हटाता है।

वेबपेज फ़ंक्शंस पेज कीवर्ड दर्ज करेंगे into परिमार्जन निर्देश और ऑटो-पूर्ण खोलें, जिसमें सभी संभव हैं पृष्ठ कार्य। पृष्ठ फ़ंक्शंस आपको वेब पेज से डेटा निकालने की अनुमति देता है।

डेटा फ़ंक्शंस डेटा कीवर्ड दर्ज करेगा into परिमार्जन निर्देश। डेटा फ़ंक्शन आपको अनुमति देता है save जानकारी.

नेविगेशन कार्य नेविगेशन कीवर्ड दर्ज करता है into कोड संपादक। नेविगेशन कार्य आपको यह नियंत्रित करने की अनुमति देता है कि वेब स्क्रैपर लक्ष्य वेबसाइट को कैसे नेविगेट करता है।

वैश्विक कार्य ग्लोबल कीवर्ड दर्ज करता है into परिमार्जन निर्देश। इससे आपको एक्सेस मिलता है कार्यों जो विभिन्न वेब पेजों को पार्स करने के बीच डेटा स्टोर कर सकता है। स्क्रैप निर्देशों को लिखते समय यह याद रखना महत्वपूर्ण है कि स्क्रैप निर्देशों में जावास्क्रिप्ट चर की स्थिति तब नहीं रखी जाती है जब स्क्रैपर वेबपेजों के बीच चलता है, जब तक आप ग्लोबल फ़ंक्शन का उपयोग नहीं करते हैं save चर, जैसा कि नीचे दिखाया गया है।

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

एक वैश्विक वैरिएबल पास बनाने के लिए Global.set पद्धति में जारी पैरामीटर के लिए सही है, जैसा कि नीचे दिखाया गया है।

Global.set("myvariable", "hello", true);

उपयोगिता कार्य उपयोगिता कीवर्ड दर्ज करता है into परिमार्जन निर्देश। यह आपको उपयोग करने की अनुमति देता है सामान्य कार्य जो लिखना आसान बनाते हैं, जैसे क्वेरी जोड़ना या निकालनाstring URLs से पैरामीटर।

मानदंड कार्य मानदंड कीवर्ड दर्ज करता है into परिमार्जन निर्देश। इन कार्यों आपको अपने स्क्रैप के दौरान निकाले गए डेटा को परिष्कृत करने की अनुमति देता है, जैसे डुप्लिकेट को समाप्त करना।

फ़िल्टर आपको आसानी से एक फ़िल्टर बनाने की अनुमति देता है, कुछ कार्यों के लिए एक वेब पेज के भीतर से किसी विशेष HTML तत्व का चयन करना आवश्यक है। बस उन विशेषताओं का चयन करें जो आपके लक्षित तत्व के पास होनी चाहिए और / या उस तत्व के माता-पिता को उस तत्व का चयन करना चाहिए। सुनिश्चित करें कि इस विकल्प पर क्लिक करने से पहले आपका कर्सर फिल्टर पास करने के लिए फ़ंक्शन में सही जगह पर है।

स्क्रीनशॉट कार्य आपको स्क्रीनशॉट विकल्प सेट करने की अनुमति देता है। फ़ंक्शन के सही हिस्से में कर्सर रखें, जैसा कि टूलटिप द्वारा पहचाना गया है और स्क्रीनशॉट विकल्प दबाएं। फिर अपनी इच्छानुसार सभी विकल्प चुनें और कमांड डालें।

Strings

Strings का उपयोग स्क्रैप के निर्देशों में किया जाता है, जब टेक्स्ट को परिभाषित करने के लिए, वेब स्क्रैप का प्रदर्शन किया जाता है। ए string डबल द्वारा सीमांकित किया गया है (") या एकल उद्धरण (')। यदि एक string एक दोहरे उद्धरण के साथ शुरू किया जाता है, यदि यह एक दोहरे उद्धरण के साथ समाप्त होना चाहिए, यदि ए string एक उद्धरण के साथ शुरू होता है यह एक एकल उद्धरण के साथ समाप्त होना चाहिए। उदाहरण के लिए:

"my-class" और 'my-class'

एक सामान्य त्रुटि जो हो सकती है, वह है string त्रुटि, यह तब है जब ए string जैसा कि ऊपर दिखाया गया है एक समापन उद्धरण नहीं है या में एक लाइन ब्रेक है string। निम्नलिखित अवैध हैं strings:

"my
class"

"my class

इस त्रुटि को ठीक करने के लिए यह सुनिश्चित करना है कि उनमें लाइन ब्रेक न हों और मेल खाने वाले उद्धरण हों, जैसे:

"my class" और "my class"

कभी-कभी आप चाहते हैं कि कोई एकल या दोहरा उद्धरण प्रकट हो string। ऐसा करने का सबसे आसान तरीका है कि आप किसी एक उद्धरण को एक में डाल दें string डबल उद्धरण और एक डबल उद्धरण के साथ सीमांकित string एकल उद्धरण के साथ सीमांकित, जैसे:

"Bob's shop" और '"The best store on the web"'

वैकल्पिक रूप से आप किसी बोली से बचने के लिए बैकस्लैश का उपयोग कर सकते हैं:

'test\'s'

सामान्य मैनुअल स्क्रेप टास्क

लिंक चेकर एक कस्टम लिंक चेकर बनाएँ - इन सरल निर्देशों का पालन करके कस्टम लिंक चेकर बनाने का तरीका जानें।
छवि डाउनलोड करें एक वेबसाइट से सभी छवियों को डाउनलोड करें - एक संपूर्ण वेबसाइट से सभी छवियों को डाउनलोड करने का तरीका जानें।
डेटसेट बनाएं डेटा निकालें और इसे रूपांतरित करें intओए डेटासेट - यह पता लगाएं कि जिस वेबसाइट को आप स्क्रैप कर रहे हैं, उससे डेटासेट कैसे बनाएं।
लिंक निकालें एक वेबसाइट से लिंक निकालें - पूरी वेबसाइट से सभी HTML लिंक निकालने का तरीका जानें save आप चाहते हैं कि प्रारूप में उन्हें।
पाठ चुनें पैटर्न का उपयोग करके पाठ से मान निकालना - पता लगाएँ कि पाठ के ब्लॉक से मान निकालने के लिए पैटर्न का उपयोग कैसे करें।
ओसीआर छवियों से पाठ निकालें - छवियों के भीतर निहित पाठ को निकालने का तरीका जानें।
डेटासेट डेटासेट को कैसे पैड करें - पैडिंग का उपयोग करके अपने निकाले गए डेटा को बेहतर तरीके से प्रारूपित करें।
ऐरे जोड़ तोड़ - स्क्रैप के भीतर आसानी से सरणियों को संभालने के लिए विशेष सरणी उपयोगिता विधियों का उपयोग करने का तरीका जानें।
कार्य परिमार्जन के दौरान केवल एक बार क्रिया करें - यह पता करें कि संपूर्ण खुरचने के दौरान केवल एक बार किसी क्रिया को कैसे किया जाए।
परिष्कृत करें स्क्रैप किए गए डेटा को परिष्कृत करना - अपने स्क्रैप से गैर-आवश्यक डेटा निकालने का तरीका जानें।
ईमेल ईमेल पते को किसी वेबसाइट से - एक वेबसाइट से सभी ईमेल पतों को परिमार्जन करने का तरीका जानें।
स्क्रीनशॉट पूरी वेबसाइट स्क्रीनशॉट into PDF या चित्र - संपूर्ण वेबसाइट के प्रत्येक पृष्ठ को कैप्चर करने के लिए GrabzIt के वेब स्क्रैपर का उपयोग करने का तरीका जानें।
स्क्रीनशॉट असंरचित पाठ से संरचित जानकारी निकालें - भावना, नाम, स्थान और संगठनों को निकालने के लिए GrabzIt का उपयोग करें।

HTML के अलावा अन्य सामग्री को स्क्रैप करना

जब वेब स्क्रैपर PDF, XML, JSON और RSS के पार आता है, तो वह इसे एक HTML सन्निकटन में बदल देगा, जो हमारे वेब स्क्रैपर को सही तरीके से पार्स करने की अनुमति देता है और आप वह सामग्री चुन सकते हैं जिसे आप निकालना चाहते हैं। उदाहरण के लिए, यदि आप JSON डेटा पार्स करना चाहते हैं तो यह डेटा को रूपांतरित कर देगा into hierarchal एचटीएमएल प्रतिनिधित्व जैसा कि पक्ष में दिखाया गया है। यह आपको सामान्य के रूप में परिमार्जन निर्देश बनाने की अनुमति देता है।

इसी तरह से जब स्क्रैपर एक पीडीएफ डॉक्यूमेंट लोड करता है, तो पीडीएफ कन्वर्ट हो जाता है into HTML छवियों, हाइपरलिंक, पाठ और तालिकाओं को चुनने और स्क्रैप करने की अनुमति देने के लिए। हालाँकि, PDF में कोई वास्तविक संरचना नहीं होती है, फिर भी तालिकाएँ हेट्रिस्टिक्स का उपयोग करके पहचानी जाती हैं और इसलिए हमेशा सटीक नहीं होती हैं।

निर्यात विकल्प

यह टैब आपको यह चुनने की अनुमति देता है कि आप एक्सेल स्प्रेडशीट, एक्सएमएल, जेएसएन, सीएसवी, एसक्यूएल कमांड या एचटीएमएल दस्तावेजों सहित अपने परिणामों को कैसे निर्यात करना चाहते हैं। इसके अतिरिक्त, यह टैब ज़िपित परिमार्जन परिणामों के नाम को सेट करने की अनुमति देता है। यदि आप केवल फाइल डाउनलोड कर रहे हैं या वेब कैप्चर बना रहे हैं, तो निर्यात विकल्प चुनने की कोई आवश्यकता नहीं है क्योंकि आपको परिणाम प्राप्त करने वाली ज़िप फ़ाइल प्राप्त होगी। यह टैब आपको यह भी निर्दिष्ट करने की अनुमति देता है कि आप परिणाम कैसे भेजना चाहते हैं। आप के माध्यम से परिणाम भेज सकते हैं अमेज़न S3, ड्रॉपबॉक्स, ई - मेल अधिसूचना, FTP और WebDAV.

अंतिम विकल्प एक कॉलबैक URL है, जो हमारे आवेदन का उपयोग करके परिमार्जन परिणामों को आपके आवेदन में संसाधित करने की अनुमति देता है परिमार्जन एपीआई.

ज़िप किए गए परिणाम या प्रत्येक डेटा फ़ाइल का फ़ाइल नाम यदि आप उन्हें अलग से भेजने का अनुरोध करते हैं, तो डिफ़ॉल्ट फ़ाइल नाम विकल्प को अनचेक करके और अपना वांछित फ़ाइल नाम सेट करके सेट किया जा सकता है। इसके अतिरिक्त, एक टाइमस्टैम्प डालकर आपके फ़ाइलनाम में जोड़ा जा सकता है {GrabzIt_Timestamp_UTC+1} फ़ाइल नाम में। +1 UTC से घंटों में ऑफ़सेट को दर्शाता है।

आप क्लिक करके स्क्रैप के परिणाम भी देख सकते हैं परिणाम देखें बटन, के बगल में आपका परिमार्जन, यह किसी भी वास्तविक समय परिमार्जन परिणाम दिखाएगा, साथ ही पिछले 48 घंटों के भीतर पिछले किए गए।

अनुसूची स्क्रैप

वेब स्क्रैप बनाते समय शेड्यूल स्क्रैप टैब आपको यह सेट करने की अनुमति देता है कि आप स्क्रैप कब शुरू करना चाहते हैं और यदि आप इसे दोहराना चाहते हैं, तो इसे कितनी बार करना चाहिए। किसी वेब पेज पर परिवर्तन का पता चलने पर स्क्रैप को चलाने के लिए भी कॉन्फ़िगर किया जा सकता है। यह करने के लिए जब कोई वेब पेज बदलता है तो प्रारंभ करें चेकबॉक्स, फिर मॉनिटर करने के लिए वेब पेज का यूआरएल दर्ज करें सीएसएस चयनकर्ता आप पृष्ठ के जिस भाग में हैं intइसमें रुचि है। महत्वहीन परिवर्तनों के कारण गलत सकारात्मकता से बचने के लिए यह महत्वपूर्ण है कि पृष्ठ का एक छोटा सा हिस्सा चुना जाए।

निगरानी और डिबगिंग स्क्रैप

एक बार वेब स्क्रैप शुरू होने के बाद स्टेटस आइकन बदल जाएगा और संसाधित पृष्ठ समय के साथ बढ़ना शुरू हो जाएंगे। स्क्रैप की प्रगति का एक वास्तविक समय स्नैपशॉट नियमित रूप से एक लॉग फ़ाइल के साथ उत्पन्न होता है जिसमें पिछले वेब पेज के नियमित स्क्रीनशॉट के साथ स्क्रैपर का सामना करना पड़ता है। यह आपको यह देखने की अनुमति देता है कि परिमार्जन के दौरान क्या हो रहा है। इस जानकारी को खोजने के लिए, अपने स्क्रेप के बगल में विस्तृत आइकन पर क्लिक करें और क्लिक करें दर्शक परिमार्जन के लिए आप हैं intइसमें मिटाया गया है। यदि आपके परिमार्जन के निर्देशों में कोई समस्या हो तो यह विस्तृत होना चाहिए।

एक बार परिमार्जन सफलतापूर्वक पूरा हो जाने के बाद स्थिति आइकन स्विच हो जाएगा , अगर व्यूअर को खोलने से कोई परिणाम नहीं होता है तो लॉग और अंतिम स्क्रीनशॉट आपको बता सकता है कि क्या गलत हुआ।

लॉग में बताई गई सबसे आम समस्याओं में से एक यह है कि पेज को खुरचने के लिए पर्याप्त रेंडरिंग देरी नहीं है, अक्सर इसमें थोड़ी वृद्धि होती है पेज लोड देरी में पाया गया परिमार्जन विकल्प टैब अधिकांश वेबसाइटों के लिए पर्याप्त है।