वेब पर कब्जा और परिवर्तित करने के लिए उपकरण

वेब खुरचनी प्रलेखन

वेब स्क्रैप बनाने के लिए आपको निम्नलिखित टैब में फैले पांच प्रकार की जानकारी निर्दिष्ट करनी होगी।

  1. परिमार्जन विकल्प
  2. वेबसाइटों को लक्षित करें
  3. परिमार्जन निर्देश
  4. निर्यात विकल्प
  5. अनुसूची स्क्रैप

परिमार्जन विकल्प

स्क्रैप विकल्प विकल्प पर एक वेब परिमार्जन को अनुकूलित करने के लिए निम्नलिखित सभी सुविधाएँ उपलब्ध हैं।

खुरचन नाम परिमार्जन का नाम।

लिंक का पालन करें निम्न विकल्प प्रदान करता है कि खुरचनी को कैसे लिंक का अनुसरण करना चाहिए:

  • आवश्यकतानुसार - डिफ़ॉल्ट सेटिंग और सबसे सुरक्षित विकल्प, इससे स्क्रैपर केवल उन लिंक का अनुसरण करेगा जो उसे निर्देश दिया गया है
  • सभी पृष्ठ - खुरचने वाला प्रत्येक लिंक को खोजता है
  • पहला पृष्ठ - केवल पहले पृष्ठ पर पाए गए लिंक का अनुसरण करें, लक्ष्य के रूप में निर्दिष्ट
  • अप करने के लिए n प्रारंभिक पृष्ठ के पृष्ठ - केवल पहले पृष्ठ से क्लिक की निर्दिष्ट संख्या वाले पृष्ठों पर दिए गए लिंक का अनुसरण करते हैं
  • फ्रेम में - फ्रेम और iframes में पाया लिंक का पालन करें

Robots.txt फ़ाइल को अनदेखा करें अगर स्क्रैपर सेट किया जाता है तो वेबसाइट के मालिक द्वारा क्रॉल किए जाने से सामान्य रूप से बाहर रखे गए वेब पेजों पर जा सकते हैं।

फ़ाइल डाउनलोड पर ध्यान न दें एक बार किसी भी लिंक को सेट करें, जो विज़िट किए जाने पर फ़ाइल डाउनलोड का कारण नहीं है।

डुप्लिकेट को अनदेखा करें यदि सेट किया जाता है तो यह उन पृष्ठों को अनदेखा कर देगा जो आपके द्वारा निर्धारित समानता से अधिक या उससे अधिक हैं, उदाहरण के लिए आप उन पृष्ठों को अनदेखा कर सकते हैं जो 95% समान हैं।

परिमार्जन सीमा आपको यह बताने की अनुमति देता है कि रोकने से पहले वेब पेज को कितने पृष्ठों पर खुरचना चाहिए।

मेरा समयक्षेत्र का उपयोग करें अगर यह निर्धारित करता है कि वेब खुरचनी को किसी भी तारीख को बदलने की कोशिश करनी चाहिए intअपने स्थानीय समय क्षेत्र। आपका समय क्षेत्र खाता पृष्ठ पर सेट किया जा सकता है।

स्थान भौगोलिक स्थिति वेब खुरचनी परिमार्जन करेगा। यह उपयोगी हो सकता है यदि लक्ष्य वेबसाइट में स्थान के आधार पर प्रतिबंध हो।

डिफ़ॉल्ट तिथि प्रारूप जब दिनांक प्रारूप को निर्धारित नहीं किया जा सकता है, तो तिथियों को परिवर्तित करते समय, वेब स्क्रैपर इस चुने हुए प्रारूप के बजाय डिफ़ॉल्ट होगा।

पेज लोड देरी यह वह समय है जब वेब पेजर को किसी पेज को पार्स करने से पहले इंतजार करना चाहिए। यह बहुत उपयोगी है यदि किसी पेज में बहुत अधिक AJAX है या लोड करने के लिए धीमा है।

वेबसाइटों को लक्षित करें

वेबसाइटों को लक्षित करें

लक्ष्य वेबसाइटें टैब में आप उन वेबसाइटों को निर्दिष्ट करते हैं जिनसे आप डेटा निकालना चाहते हैं। किसी वेबसाइट से डेटा निकालने के लिए स्क्रैप टूल को बताने के लिए आपको पहले मुख्य URL को निर्दिष्ट करना होगा जो आप हैं intउदा http://www.example.com/shop/ यह है कि स्क्रैपर अपना स्क्रैप शुरू करेगा, यह एक सामान्य वेबपेज, पीडीएफ दस्तावेज़, एक्सएमएल दस्तावेज़, जेन्सन दस्तावेज़, आरएसएस फ़ीड या साइटमैप हो सकता है। यदि यह एक वेब पेज या पीडीएफ डॉक्यूमेंट नहीं है, तो स्क्रैपर फाइल के सभी लिंक ढूंढेगा और हर एक को विजिट करेगा।

केवल लक्ष्य URL में पाए गए लिंक का पालन करने के लिए और बाद के किसी भी पृष्ठ पर आप सेट नहीं कर सकते लिंक का पालन करें परिमार्जन का विकल्प सेवा मेरे पहले पेज पर। यह लक्ष्य URL का उपयोग केवल शेष स्क्रैप को बीजित करने के लिए करेगा।

डिफ़ॉल्ट रूप से, वेब स्क्रैपर प्रत्येक लिंक का अनुसरण करता है, जो उसके द्वारा देखे जाने वाले प्रत्येक वेब पेज पर पता चलता है। यदि आप प्रतिबंधित करना चाहते हैं कि क्या लिंक है वेब खुरचनी इस प्रकार, URL पैटर्न को निर्दिष्ट करने का एक सरल तरीका है। यह एक यूआरएल को निर्दिष्ट करने के लिए एक वाइल्ड कार्ड के रूप में तारांकित के साथ काम करता है ताकि यह दर्शाया जा सके कि पैटर्न के इस हिस्से में कोई भी वर्ण मौजूद हो सकता है। उदाहरण के लिए http://www.example.com/*/articles/* वेबसाइट के रूट से दूसरी निर्देशिका के रूप में किसी भी URL को परिमार्जन करेगा।

URL एक URL को पैरामीटर के साथ निर्दिष्ट कर सकता है, उदाहरण के लिए लॉगिन फॉर्म भी। ऐसा करने के लिए लक्ष्य URL टेक्स्ट बॉक्स में फ़ॉर्म URL निर्दिष्ट करें और उपयोग करने के लिए आवश्यक पोस्ट पैरामीटर जोड़ें। चर चर मानों में विशेष GrabzIt चर भी शामिल हो सकते हैं, जैसे:

  • {{day}} - दिन दो अंकों के मूल्य के रूप में
  • {{month}} - दो अंकों के मूल्य के रूप में महीना
  • {{year}} - चार अंकों के मूल्य के रूप में वर्ष
  • {{hour}} - दो अंकों के मूल्य के रूप में घंटा
  • {{minute}} - दो अंकों के मूल्य के रूप में मिनट
  • {{second}} - दो अंकों के मूल्य के रूप में दूसरा

अंत में आप निर्दिष्ट कर सकते हैं बीज यूआरएल यह सुनिश्चित करने के लिए कि वे URL स्क्रैप किए गए हैं।

बीज का यूआरएल

बीज URL एक उपयोगकर्ता को उन URL की एक सूची निर्दिष्ट करने की अनुमति देता है जिसे वेब स्क्रैपर द्वारा क्रॉल किया जाना चाहिए। यदि आप केवल सीड यूआरएल स्क्रैप सेट करना चाहते हैं लिंक का पालन करें परिमार्जन विकल्प सेवा मेरे कोई पृष्ठ नहीं परिमार्जन विकल्प टैब में।

लक्ष्य वेबसाइटों पर बीज URL सेट करने के लिए, लक्ष्य जोड़ें बटन पर क्लिक करें और फिर बीज URL सेट करें चेकबॉक्स की जाँच करें और प्रत्येक URL को एक अलग लाइन पर परिमार्जन करने के लिए निर्दिष्ट करें।

टेम्पलेट URL से बीज URL बनाएं

वैकल्पिक रूप से आप टेम्पलेट URL का उपयोग करके स्वचालित रूप से बीज URL उत्पन्न कर सकते हैं, यह एक एकल URL है जिसमें URL चर शामिल है। एक URL चर अधिक से अधिक संख्याओं को निर्दिष्ट करता है।

{{start number|finish number|iterate number}}

  • प्रारंभ संख्या URL चर पर शुरू होने वाली संख्या
  • अंतिम संख्या वह संख्या जो URL चर पर समाप्त होती है
  • पुनरावृति संख्या वह संख्या जो URL चर द्वारा देखी जाती है

प्रारंभ संख्या वह संख्या है जिस पर URL चर को गिनना शुरू करना चाहिए, अंतिम संख्या वह संख्या है जिस पर URL चर गिनना बंद कर देगा, iterate संख्या वह संख्या है जो URL चर के प्रत्येक पुनरावृत्ति के लिए बढ़ जाएगी।

उदाहरण के लिए निम्न टेम्पलेट URL के लिए http://www.example.com/search?pageNo={{1|3|1}}

इसके बाद निम्नलिखित बीज URL बनाए जाएंगे:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

परिमार्जन निर्देश

स्क्रेप निर्देश वेब स्क्रैपर को बताता है कि टारगेट वेबसाइट (एस) को स्क्रैप करते समय क्या कार्रवाई करनी है। स्क्रेप निर्देश टैब डिफ़ॉल्ट रूप से स्क्रैप विज़ार्ड को दिखाता है, जो आपके लिए आवश्यक स्क्रैप निर्देशों को जोड़ना आसान बनाता है। आरंभ करने के लिए दबाएं नया परिमार्जन निर्देश जोड़ें लिंक.

यह विज़ार्ड खोल देगा और स्वचालित रूप से लक्ष्य URL को लोड कर देगा, जिससे आप तुरंत चुन सकते हैं कि आप क्या स्क्रैप करना चाहते हैं। यदि कोई वेबपेज या पीडीएफ डॉक्यूमेंट लोड किया गया है, तो आप किसी भी लिंक पर क्लिक कर सकते हैं और यह अन्य वेबपेज के लिए नेविगेशन के लिए सामान्य रूप से कार्य करेगा। जब तक आप स्क्रीन के निचले भाग में, इस कविता में कोई एक क्रिया चुनते हैंint सामग्री पर कोई भी क्लिक उस HTML तत्व का चयन करेगा जिसे आप निकालना या हेरफेर करना चाहते हैं।

स्क्रैप निर्देशों के बारे में समझने वाली पहली बात यह है कि वे हर वेब पेज पर डिफ़ॉल्ट रूप से निष्पादित होते हैं। इसे रोकने का तरीका टेम्पलेट्स के उपयोग के माध्यम से है। एक टेम्पलेट पर कार्रवाई तब की जा सकती है जब कोई लिंक क्लिक करने जैसी क्रिया हो, और ताकि जब भी स्क्रैपर उस लिंक पर जाए या उस बटन पर क्लिक करे तो यह पहचान लेगा कि यह निर्धारित टेम्पलेट का है। यह विभिन्न पृष्ठ प्रकारों को परिभाषित करने की अनुमति देता है। उदाहरण के लिए, आपके पास एक उत्पाद श्रेणी पृष्ठ हो सकता है जिसमें कुछ अवलोकन जानकारी और फिर एक विस्तृत पृष्ठ होता है जिसमें उत्पाद जानकारी होती है। दोनों पृष्ठों को शायद अलग-अलग परिमार्जन निर्देशों की आवश्यकता होगी।

खुरचने का साँचा

आरंभ करने के लिए चुनें क्लिक करें कार्रवाई, फिर एक बार जब आप उन वस्तुओं का चयन कर लेते हैं जिन पर आप कार्रवाई करना चाहते हैं और क्लिक करें आगामी बटन टेम्पलेट के नाम में दर्ज करें एक खाका बनाएँ टेक्स्ट बॉक्स अब जब भी स्क्रैपर इन क्रियाओं को अंजाम देगा, लौटाया गया टेम्पलेट आपके द्वारा प्रदत्त नाम होगा।

फिर एक विशेष टेम्प्लेट को स्क्रैप करने के लिए निर्दिष्ट करने के लिए आपको वांछित टेम्पलेट का चयन करने की आवश्यकता है में निष्पादित करें ड्रॉप डाउन सूची, जो विकल्प विंडो में दिखाई देती है जो स्क्रैप निर्देश को जोड़ने से ठीक पहले दिखाई देती है। टेम्प्लेट चुनते समय तीन मुख्य विकल्प इस प्रकार हैं:

  • सभी पन्ने - इस स्क्रैप अनुदेश के लिए, एक टेम्पलेट का उपयोग न करें, सभी वेब पृष्ठों पर स्क्रैप अनुदेश को निष्पादित किया जाएगा।
  • पूर्व उपस्थित नमूना - उपयोगकर्ता परिभाषित टेम्पलेट में से एक का उपयोग न करें। परिमार्जन निर्देश को किसी भी वेब पेज पर निष्पादित किया जाएगा जिसमें कोई खाका निर्दिष्ट नहीं है।
  • उपयोगकर्ता परिभाषित टेम्पलेट - किसी विशेष वेब पेज या क्रिया को पहचानने के लिए आपके द्वारा परिभाषित किए गए टेम्प्लेट में से एक।

एक बार जब आप इन विकल्पों में से एक का चयन कर लेते हैं, तो स्क्रैप अनुदेश केवल निर्दिष्ट टेम्पलेट पर निष्पादित किया जाएगा।

डेटा निकालना

जब आप चुनेंगे तो आप देखेंगे डेटा निकालें डेटा आइटमों की एक श्रृंखला को निकालने के लिए तुरंत स्क्रीन के निचले बाएँ कोने में डाउनलोड करने के लिए उपलब्ध हो जाता है। ये पूरे पृष्ठ के गुण हैं जिन्हें आप डाउनलोड कर सकते हैं। किसी एक को चुनने के लिए, इसे विकल्पों की सूची से चुनें और क्लिक करें आगामी में डेटा जोड़ने के लिए डाटासेट.

यदि आप संबंधित HTML तत्वों पर क्लिक करने की आवश्यकता वाले संपूर्ण पृष्ठ से संबंधित विशिष्ट HTML तत्वों में डेटा निकालने की इच्छा रखते हैं, तो आप एकल या एकाधिक आइटम का चयन कर सकते हैं। हालाँकि, यदि आप कई आइटम्स का चयन कर रहे हैं, तो कृपया कोशिश करें और एक से अधिक आइटमों का चयन करें जो एक कॉलम में कई पंक्तियों जैसे हैं, क्योंकि यदि स्क्रैपर कोई नियम नहीं बना सकता है जो डेटा के चयनित संग्रह को विशिष्ट रूप से पहचान नहीं कर सकता है, तो कोई स्क्रैप निर्देश नहीं होगा बनने में सक्षम होना। इसके अलावा अगर आपके द्वारा क्लिक की जा रही कई वस्तुओं को हमारे वेब स्क्रैपर विज़ार्ड द्वारा डेटा को दोहराने के रूप में पहचाना गया है, तो उसी समूह के सभी डेटा को स्वचालित रूप से चुना जाएगा। एक बार जब आप अपने सभी एकल या एकाधिक आइटमों का चयन कर लेते हैं, तो स्क्रीन के नीचे बाईं ओर से निकालने के लिए एक विशेषता चुनें और फिर क्लिक करें आगामी.

डेटासट बनाना

डाटासेट स्क्रीन आपको यह बदलने की अनुमति देता है कि डेटा कैसे संसाधित किया जाता है, उदाहरण के लिए आप डेटासेट और उसके भीतर के कॉलम का नाम बदल सकते हैं, बस नाम बदलने के लिए उस पर क्लिक करें। जब आप किसी डेटासेट में एक कॉलम जोड़ते हैं, तो आपको उस टेम्पलेट को भी चुनना होगा जिसे इसे निष्पादित किया जाना चाहिए। आप कॉलम नाम के तहत स्थित ड्रॉप डाउन सूची पर क्लिक करके इसे बदल सकते हैं।

अक्सर डेटा निकालते समय, कुछ दोहराई जाने वाली वस्तुओं को असंगत रूप से दोहराना सामान्य है, यह सुनिश्चित करने के लिए कि सही पंक्तियाँ अभी भी एक दूसरे के उपयोग से जुड़ी हैं लिंक कॉलम मानदंड, असंगत स्तंभों को डेटासेट में सबसे सुसंगत स्तंभ से जोड़ने के लिए।

डेटासेट में अधिक डेटा जोड़ने के लिए पर क्लिक करें बटन, या क्लिक करें डेटासेट से डेटा निकालने के लिए, या संपूर्ण डेटासेट को हटाने के लिए। डेटासेट विभिन्न मापदंडों को डेटा पर लागू करने की अनुमति देता है, ऐसा करने के लिए ऊपर से वांछित कार्रवाई का चयन करें और फिर मापदंड लागू करने के लिए संबंधित कॉलम पर क्लिक करें। यदि आप एक मानदंड जोड़ने की गलती करते हैं तो बस क्लिक करें बटन.

यहां विभिन्न मानदंडों के प्रकारों की सूची दी गई है और उनका उपयोग कैसे किया जाए:

  • पंक्तियाँ सीमित करें - यह वेब पेज से आपके द्वारा निर्धारित संख्या तक निकाली गई पंक्तियों की संख्या को सीमित करेगा। क्लिक का उपयोग करने के लिए और फिर आगे की पंक्ति पर क्लिक करें, जिसे आप काट देना चाहते हैं।
  • दोहराना - कॉलम आइटम को तब तक दोहराता है जब तक कॉलम सबसे लंबे कॉलम की लंबाई से मेल नहीं खाता। बस क्लिक करने के लिए उपयोग करने के लिए और फिर उस कॉलम पर क्लिक करें, जिसके लिए आप आइटम दोहराना चाहते हैं।
  • अनोखा बनाओ - दर्ज किए गए सभी मानों के लिए कोई भी डुप्लिकेट मान निकालता है intओए कॉलम। बस क्लिक करने के लिए उपयोग करने के लिए और फिर उस कॉलम पर क्लिक करें जिसे आप विशिष्ट बनाना चाहते हैं।
  • मान निकालें - केवल पाठ के ब्लॉक से डेटा के मिलान वाले आइटम निकालने के लिए एक पैटर्न निर्दिष्ट करें। बस क्लिक करने के लिए उपयोग करने के लिए , संबंधित कॉलम का चयन करें और फिर एक पैटर्न बनाने के लिए निर्देशों का पालन करें जो संबंधित डेटा को वापस कर देगा string.
  • मूल्यों को छाँटो - निरर्थक पाठ को ट्रिम करने के लिए एक पैटर्न निर्दिष्ट करें। बस क्लिक करने के लिए उपयोग करने के लिए , संबंधित कॉलम का चयन करें और फिर एक पैटर्न बनाने के लिए निर्देशों का पालन करें जो पाठ को ट्रिम कर देगा।
  • लिंक कॉलम - कॉलम को एक साथ जोड़ा जा सकता है। ताकि डेटा निकालते समय, रिकॉर्ड उसी कॉलम में लिंक किए गए कॉलम में रिश्तेदार पंक्ति के रूप में दिखाई दें, जब परिणाम की संख्या में कोई बेमेल हो। बस क्लिक करने के लिए उपयोग करने के लिए , लिंक करने के लिए कॉलम चुनें और फिर लिंक करने के लिए कॉलम।
  • कॉलम छिपाएं - कभी-कभी आप फ़िल्टर करने के लिए एक कॉलम शामिल करना चाहते हैं लेकिन अंतिम परिणाम में मान शामिल नहीं करना चाहते हैं। ऐसा करने के लिए बस क्लिक करें उस कॉलम का चयन करें जिसे आप बाहर करना चाहते हैं।
  • छोटे से बड़े क्रम में क्रमबद्ध करें - कॉलम के अनुसार, आरोही। क्लिक का उपयोग करने के लिए और उसके बाद सॉर्ट करने के लिए कॉलम चुनें।
  • अवरोही क्रम - स्तंभ के अनुसार, अवरोही। क्लिक का उपयोग करने के लिए और उसके बाद सॉर्ट करने के लिए कॉलम चुनें।
  • शामिल हैं - केवल उन मानों को शामिल करें जिनमें परिभाषित मूल्य होता है। क्लिक का उपयोग करने के लिए वांछित कॉलम का चयन करें और फिर उस मान को दर्ज करें जिसमें कॉलम मान होना चाहिए।
  • के बराबर - केवल उन मानों को शामिल करें जो परिभाषित मूल्य के बराबर हैं। क्लिक का उपयोग करने के लिए वांछित कॉलम का चयन करें और फिर मान दर्ज करें जो कॉलम मान के बराबर होना चाहिए।
  • बराबर नही है - केवल उन मानों को शामिल करें जो परिभाषित मूल्य के बराबर नहीं हैं। क्लिक का उपयोग करने के लिए वांछित कॉलम का चयन करें और फिर मान दर्ज करें जो कॉलम के बराबर नहीं होना चाहिए।
  • से कम - केवल उन मानों को शामिल करें जो परिभाषित मूल्य से कम हैं। क्लिक का उपयोग करने के लिए वांछित कॉलम का चयन करने के लिए और फिर उस मान को दर्ज करें जो कॉलम से कम होना चाहिए।
  • से अधिक - केवल उन मानों को शामिल करें जो परिभाषित मूल्य से अधिक हैं। क्लिक का उपयोग करने के लिए वांछित कॉलम का चयन करने के लिए और फिर मान दर्ज करें जो कॉलम से अधिक होना चाहिए।

जब आपने उपरोक्त ऑपरेशनों में से एक का चयन किया है, तो यदि यह कई कॉलमों को प्रभावित कर सकता है, तो यह आपसे पूछेगा कि क्या आप केवल कॉलम या उन सभी को प्रभावित करने की अनुमति देना चाहते हैं। ज्यादातर मामलों में आप चाहते हैं कि यह सभी स्तंभों को प्रभावित करे, लेकिन कुछ परिस्थितियों में यह स्तंभों को प्रभावित करने के लिए सीमित है। उदाहरण के लिए, यदि आप की एक श्रृंखला का चयन कर रहे हैं लेबल और मूल्य, जो वेब पेजों में स्थिति बदलते हैं, आप सभी लेबल और मान चुन सकते हैं। फिर डेटासेट में वांछित लेबल तक इसे सीमित करने के लिए समान संचालन का उपयोग करते हैं और निर्दिष्ट करते हैं कि केवल लेबल और मूल्य कॉलम प्रभावित होना चाहिए। यह सुनिश्चित करेगा कि अन्य कॉलम हटाए जा रहे पंक्तियों से अप्रभावित हैं, पूर्णता के लिए यह लेबल कॉलम को छिपाने के लिए उपयोगी होगा।

एक बार जब आप अपने इच्छित सब कुछ को संशोधित कर लेते हैं, तो क्लिक करें आगामी और, आपके परिमार्जन निर्देश को परिमार्जन में जोड़ दिया जाएगा।

एक वेबपेज को हेरफेर करना

ड्रॉप-डाउन से मानों को क्लिक करने, टाइप करने और चयन करने से पहले एक वेबपेज को हेरफेर किया जा सकता है। यह याद रखना महत्वपूर्ण है कि भले ही यह नए वेबपेज को लोड करने के लिए कारण हो सकता है कि स्क्रैप निर्देशों को तब तक पुनरारंभ नहीं किया जाएगा जब तक कि सभी लागू स्क्रैप निर्देशों को निष्पादित नहीं किया जाता है।

वेबपृष्ठ में हेरफेर करने के लिए या तो चुनें तत्व पर क्लिक करें, होवर तत्व, स्क्रॉल, पाठ टाइप करे or ड्रॉप डाउन सूची मूल्य का चयन करें कार्रवाई। यदि आप एक क्लिक क्रिया कर रहे हैं तो आप किसी वेबपेज पर किसी भी तत्व पर क्लिक कर सकते हैं। अन्यथा आपको एक उपयुक्त HTML तत्व का चयन करना होगा, उदाहरण के लिए टेक्स्ट को टेक्स्ट बॉक्स में टाइप किया जाना चाहिए। तब दबायें आगामी। यह एक विकल्प बॉक्स खोलेगा जो आपको कार्रवाई पूरा करने की अनुमति देता है। पाठ टाइप करते समय और टाइप किए जाने या चुने जाने के लिए एक ड्रॉप डाउन से चयन करके क्रमशः चुना जाना चाहिए। इसके अलावा अन्य तीनों क्रियाओं के लिए विकल्प समान हैं।

यदि आप चाहें तो टेम्पलेट का चयन कर सकते हैं इस क्रिया को क्रियान्वित किया जाना चाहिए और क्लिक क्रिया पूरी होने पर, क्लिक क्रिया पूर्ण होने के बाद। हालांकि, एक क्लिक कार्रवाई के लिए एक नया टेम्पलेट असाइन करना जो एक ही पृष्ठ पर कई क्लिक करता है, यह एक अच्छा विचार नहीं है, जैसे कि इनलाइन पॉपअप खोलना या स्क्रीन पर चीजें दिखाना। ऐसा इसलिए है क्योंकि यदि क्लिक एक्शन केवल कुछ टेम्प्लेट्स पर ही लागू होता है, तो पहले क्लिक के द्वारा असाइन किया गया नया टेम्प्लेट रीसेट नहीं किया जाएगा और इसलिए इस बात पर निर्भर करता है कि यह कैसे लिखा गया था, उसी पेज पर भविष्य के क्लिक को निष्पादित होने से रोक सकता है। आप यह भी परिभाषित कर सकते हैं कि क्या आप चाहते हैं कि यह क्रिया केवल एक बार निष्पादित हो, जो उपयोगी है यदि आप लॉगिन की तरह कुछ कर रहे हैं intओ वेबसाइट।

टाइप टेक्स्ट या सेलेक्ट ड्रॉप डाउन लिस्ट वैल्यू एक्शन से आप टेक्स्ट के कई आइटम टाइप कर सकते हैं या क्रमशः कई चुनिंदा बॉक्स सिलेक्शन कर सकते हैं। इन्हें स्‍क्रैप निर्देशों पर क्लिक करके संपादित किया जा सकता है परिवर्तन या दृश्य चर बटन, जैसा कि स्क्रीनशॉट में बाईं ओर दिखाया गया है।

यह महत्वपूर्ण हो सकता है यदि आप उदाहरण के लिए किसी खोज बॉक्स में नामों की सूची लिखना चाहते हैं। यह सुनिश्चित करने के लिए कि कोई प्रपत्र केवल तभी सबमिट किया जाता है जब खोज बॉक्स में कोई मूल्य हो, प्रत्येक बार पाठ सफलतापूर्वक टाइप किए जाने पर एक टेम्पलेट सेट किया जा सकता है intजब तक यह टेम्प्लेट सेट नहीं होता तब तक टेक्स्ट पर ओ और बटन पर क्लिक करें। क्लिक कार्रवाई के बाद टेम्प्लेट किया जाता है फिर प्रक्रिया को रीसेट करने के लिए इसे कुछ और में बदलना होगा।

वेबसाइटों में हेरफेर करने वाली कार्रवाइयों के बाद, थोड़ी देर के लिए इंतजार करना उपयोगी होता है अगर कार्रवाई AJAX की कार्यक्षमता शुरू करती है, तो स्क्रैप के साथ जारी रखने से पहले AJAX सामग्री को लोड करने की अनुमति देता है। आप इसमें देरी जोड़कर कर सकते हैं निष्पादन के बाद प्रतीक्षा करें पाठ बॉक्स।

कुछ शर्त पूरी होने पर आप सीधे एक अलग URL पर जा सकते हैं। ऐसा करने के लिए उपयोग करें URL पर जाएं कार्रवाई, जो केवल तब दिखाई देगी जब कम से कम एक टेम्पलेट को परिमार्जन में परिभाषित किया गया हो और जब बनाया जाए तो उसे एक टेम्पलेट को सौंपा जाना चाहिए, ताकि अनंत छोरों से बचने में मदद मिल सके।

अंत में आप अपने वेब स्क्रेप में GrabzIt के कैप्चर एपीआई के सभी का उपयोग कर सकते हैं, बस कैप्चर वेबपेज एक्शन चुनें, और अपनी इच्छित कैप्चर चुनें। आप एक बार चयन करने के लिए टेम्पलेट को निर्दिष्ट करके स्क्रैप के भीतर कुछ वेब पृष्ठों को पकड़ने के लिए इसे सीमित कर सकते हैं आगामी बटन.

प्रत्येक परिमार्जन निर्देश को जोड़ने के बाद इसे परिमार्जन निर्देश पैनल में देखा जा सकता है, प्रत्येक परिमार्जन अनुदेश के आगे का क्रॉस परिमार्जन निर्देश को हटाने की अनुमति देता है। यदि कोई स्क्रैप निर्देश हटा दिया जाता है जो अन्य स्क्रैप निर्देशों द्वारा आवश्यक होता है तो वे निर्देश भी हटा दिए जाते हैं। आप हड़पने के आइकन के साथ किसी भी स्क्रैप निर्देश को खींचकर स्क्रैप के निर्देशों का क्रम बदल सकते हैं।

लेखन स्क्रैप निर्देश मैन्युअल रूप से

यदि आपको स्क्रैप निर्देशों को अधिक विशिष्ट तरीके से अनुकूलित करने की आवश्यकता है या यदि आप कोड निष्पादित करना चाहते हैं स्क्रैप से पहले या बाद में आपको स्क्रैच निर्देशों को मैन्युअल रूप से बदलना होगा।

परिमार्जन निर्देश जावास्क्रिप्ट आधारित होते हैं और कोड संपादक एक सिंटैक्स चेकर, ऑटो-कम्प्लीट और टूलटिप के साथ पूरा होता है ताकि यह जितना संभव हो उतना आसान हो सके।

वेब खुरचने के निर्देश कोड संपादक की मुख्य कार्यक्षमता मेनू विकल्पों के माध्यम से सुलभ है, जैसा कि स्क्रीनशॉट में दिखाया गया है, प्रत्येक का उद्देश्य नीचे अलग से बताया गया है। जबकि आपके स्क्रैप निर्देशों में कोई भी वाक्यविन्यास त्रुटियां कोड संपादक के बाएं हाथ के गटर में इंगित की जाती हैं।

विज़ार्ड विज़ार्ड आपको पृष्ठ के कुछ हिस्सों का चयन करने की अनुमति देता है जिन्हें आप निकालने के लिए चाहते हैं और अन्य सामान्य कार्य जैसे वेब कैप्चर बनाते हैं।

स्क्रेप निर्देश प्रदर्शित करें उपयोगकर्ता को परिमार्जन निर्देश कोड प्रदर्शित करता है।

सभी निर्देश हटाएं सभी स्क्रैप निर्देशों को हटाता है।

वेबपेज फ़ंक्शंस पेज कीवर्ड दर्ज करेंगे into परिमार्जन निर्देश और ऑटो-पूर्ण खोलें, जिसमें सभी संभव हैं पृष्ठ कार्य। पृष्ठ फ़ंक्शंस आपको वेब पेज से डेटा निकालने की अनुमति देता है।

डेटा फ़ंक्शंस डेटा कीवर्ड दर्ज करेगा into परिमार्जन निर्देश। डेटा फ़ंक्शन आपको अनुमति देता है save जानकारी.

नेविगेशन कार्य नेविगेशन कीवर्ड दर्ज करता है into कोड संपादक। नेविगेशन कार्य आपको यह नियंत्रित करने की अनुमति देता है कि वेब स्क्रैपर लक्ष्य वेबसाइट (नों) को कैसे नेविगेट करता है।

वैश्विक कार्य ग्लोबल कीवर्ड दर्ज करता है into परिमार्जन निर्देश। इससे आपको एक्सेस मिलता है कार्यों जो विभिन्न वेब पेजों को पार्स करने के बीच डेटा स्टोर कर सकता है। स्क्रैप निर्देशों को लिखते समय यह याद रखना महत्वपूर्ण है कि स्क्रैप निर्देशों में जावास्क्रिप्ट चर की स्थिति तब नहीं रखी जाती है जब स्क्रैपर वेबपेजों के बीच चलता है, जब तक आप ग्लोबल फ़ंक्शन का उपयोग नहीं करते हैं save चर, जैसा कि नीचे दिखाया गया है।

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

एक वैश्विक वैरिएबल पास बनाने के लिए Global.set पद्धति में जारी पैरामीटर के लिए सही है, जैसा कि नीचे दिखाया गया है।

Global.set("myvariable", "hello", true);

उपयोगिता कार्य उपयोगिता कीवर्ड दर्ज करता है into परिमार्जन निर्देश। यह आपको उपयोग करने की अनुमति देता है सामान्य कार्य जो लिखना आसान बनाते हैं, जैसे क्वेरी जोड़ना या निकालनाstring URLs से पैरामीटर।

मानदंड कार्य मानदंड कीवर्ड दर्ज करता है into परिमार्जन निर्देश। इन कार्यों आपको अपने स्क्रैप के दौरान निकाले गए डेटा को परिष्कृत करने की अनुमति देता है, जैसे डुप्लिकेट को समाप्त करना।

फ़िल्टर आपको आसानी से एक फ़िल्टर बनाने की अनुमति देता है, कुछ कार्यों के लिए एक वेब पेज के भीतर से किसी विशेष HTML तत्व का चयन करना आवश्यक है। बस उन विशेषताओं का चयन करें जो आपके लक्षित तत्व के पास होनी चाहिए और / या उस तत्व के माता-पिता को उस तत्व का चयन करना चाहिए। सुनिश्चित करें कि इस विकल्प पर क्लिक करने से पहले आपका कर्सर फिल्टर पास करने के लिए फ़ंक्शन में सही जगह पर है।

स्क्रीनशॉट कार्य आपको स्क्रीनशॉट विकल्प सेट करने की अनुमति देता है। फ़ंक्शन के सही हिस्से में कर्सर रखें, जैसा कि टूलटिप द्वारा पहचाना गया है और स्क्रीनशॉट विकल्प दबाएं। फिर अपनी इच्छानुसार सभी विकल्प चुनें और कमांड डालें।

परिमार्जन से पहले या बाद में क्रिया करना

स्क्रेप निर्देश टैब के शीर्ष पर विकल्पों की ड्रॉप डाउन सूची का उपयोग करके आप स्क्रैप से पहले या बाद में कमांड चला सकते हैं। जब कोई आदेश दर्ज किया गया परिमार्जन के बाद निष्पादित करें चुना जाता है कि स्क्रैप समाप्त होने के बाद चलाया जाएगा। जबकि कोई भी आदेश कब दर्ज किया गया स्क्रैप से पहले निष्पादित करें चयनित किया जाता है, जो स्क्रेप शुरू होने से पहले चलाया जाएगा।

हालाँकि जब इन दो विशेष विधियों में से कोई भी उपलब्ध परिमार्जन निर्देशों का उपसमुच्चय है। उपलब्ध आदेश डेटा, वैश्विक और नेविगेशन निर्देश हैं।

Strings

Strings का उपयोग स्क्रैप के निर्देशों में किया जाता है, जब टेक्स्ट को परिभाषित करने के लिए, वेब स्क्रैप का प्रदर्शन किया जाता है। ए string डबल द्वारा सीमांकित किया गया है (") या एकल उद्धरण (')। यदि एक string एक दोहरे उद्धरण के साथ शुरू किया जाता है, यदि यह एक दोहरे उद्धरण के साथ समाप्त होना चाहिए, यदि ए string एक उद्धरण के साथ शुरू होता है यह एक एकल उद्धरण के साथ समाप्त होना चाहिए। उदाहरण के लिए:

"my-class" तथा 'my-class'

एक सामान्य त्रुटि जो हो सकती है, वह है string त्रुटि, यह तब है जब ए string जैसा कि ऊपर दिखाया गया है एक समापन उद्धरण नहीं है या में एक लाइन ब्रेक है string। निम्नलिखित अवैध हैं strings:

"my
class"

"my class

इस त्रुटि को ठीक करने के लिए यह सुनिश्चित करना है कि उनमें लाइन ब्रेक न हों और मेल खाने वाले उद्धरण हों, जैसे:

"my class" तथा "my class"

कभी-कभी आप चाहते हैं कि कोई एकल या दोहरा उद्धरण प्रकट हो string। ऐसा करने का सबसे आसान तरीका है कि आप किसी एक उद्धरण को एक में डाल दें string डबल उद्धरण और एक डबल उद्धरण के साथ सीमांकित string एकल उद्धरण के साथ सीमांकित, जैसे:

"Bob's shop" तथा '"The best store on the web"'

वैकल्पिक रूप से आप किसी बोली से बचने के लिए बैकस्लैश का उपयोग कर सकते हैं:

'test\'s'

सामान्य मैनुअल स्क्रेप टास्क

लिंक चेकर एक कस्टम लिंक चेकर बनाएँ - इन सरल निर्देशों का पालन करके कस्टम लिंक चेकर बनाने का तरीका जानें।
छवि डाउनलोड करें एक वेबसाइट से सभी छवियों को डाउनलोड करें - एक संपूर्ण वेबसाइट से सभी छवियों को डाउनलोड करने का तरीका जानें।
डेटसेट बनाएं डेटा निकालें और इसे रूपांतरित करें intओए डेटासेट - यह पता लगाएं कि जिस वेबसाइट को आप स्क्रैप कर रहे हैं, उससे डेटासेट कैसे बनाएं।
लिंक निकालें एक वेबसाइट से लिंक निकालें - पूरी वेबसाइट से सभी HTML लिंक निकालने का तरीका जानें save आप चाहते हैं कि प्रारूप में उन्हें।
पाठ चुनें पैटर्न का उपयोग करके पाठ से मान निकालना - पता लगाएँ कि पाठ के ब्लॉक से मान निकालने के लिए पैटर्न का उपयोग कैसे करें।
ओसीआर छवियों से पाठ निकालें - छवियों के भीतर निहित पाठ को निकालने का तरीका जानें।
डेटासेट डेटासेट को कैसे पैड करें - पैडिंग का उपयोग करके अपने निकाले गए डेटा को बेहतर तरीके से प्रारूपित करें।
ऐरे जोड़ तोड़ - स्क्रैप के भीतर आसानी से सरणियों को संभालने के लिए विशेष सरणी उपयोगिता विधियों का उपयोग करने का तरीका जानें।
कार्य परिमार्जन के दौरान केवल एक बार क्रिया करें - यह पता करें कि संपूर्ण खुरचने के दौरान केवल एक बार किसी क्रिया को कैसे किया जाए।
परिष्कृत करें स्क्रैप किए गए डेटा को परिष्कृत करना - अपने स्क्रैप से गैर-आवश्यक डेटा निकालने का तरीका जानें।
ईमेल ईमेल पते को किसी वेबसाइट से - एक वेबसाइट से सभी ईमेल पतों को परिमार्जन करने का तरीका जानें।
स्क्रीनशॉट पूरी वेबसाइट स्क्रीनशॉट into PDF या चित्र - संपूर्ण वेबसाइट के प्रत्येक पृष्ठ को कैप्चर करने के लिए GrabzIt के वेब स्क्रैपर का उपयोग करने का तरीका जानें।
स्क्रीनशॉट असंरचित पाठ से संरचित जानकारी निकालें - भावना, नाम, स्थान और संगठनों को निकालने के लिए GrabzIt का उपयोग करें।

HTML के अलावा अन्य सामग्री को स्क्रैप करना

जब वेब स्क्रैपर PDF, XML, JSON और RSS के पार आता है, तो वह इसे एक HTML सन्निकटन में बदल देगा, जो हमारे वेब स्क्रैपर को सही तरीके से पार्स करने की अनुमति देता है और आप वह सामग्री चुन सकते हैं जिसे आप निकालना चाहते हैं। उदाहरण के लिए, यदि आप JSON डेटा पार्स करना चाहते हैं तो यह डेटा को रूपांतरित कर देगा into hierarchal एचटीएमएल प्रतिनिधित्व जैसा कि पक्ष में दिखाया गया है। यह आपको सामान्य के रूप में परिमार्जन निर्देश बनाने की अनुमति देता है।

इसी तरह से जब स्क्रैपर एक पीडीएफ डॉक्यूमेंट लोड करता है, तो पीडीएफ कन्वर्ट हो जाता है into HTML छवियों, हाइपरलिंक, पाठ और तालिकाओं को चुनने और स्क्रैप करने की अनुमति देने के लिए। हालाँकि, PDF में कोई वास्तविक संरचना नहीं होती है, फिर भी तालिकाएँ हेट्रिस्टिक्स का उपयोग करके पहचानी जाती हैं और इसलिए हमेशा सटीक नहीं होती हैं।

निर्यात विकल्प

यह टैब आपको यह चुनने की अनुमति देता है कि आप एक्सेल स्प्रेडशीट, एक्सएमएल, जेएसएन, सीएसवी, एसक्यूएल कमांड या एचटीएमएल दस्तावेजों सहित अपने परिणामों को कैसे निर्यात करना चाहते हैं। इसके अतिरिक्त, यह टैब ज़िपित परिमार्जन परिणामों के नाम को सेट करने की अनुमति देता है। यदि आप केवल फाइल डाउनलोड कर रहे हैं या वेब कैप्चर बना रहे हैं, तो निर्यात विकल्प चुनने की कोई आवश्यकता नहीं है क्योंकि आपको परिणाम प्राप्त करने वाली ज़िप फ़ाइल प्राप्त होगी। यह टैब आपको यह भी निर्दिष्ट करने की अनुमति देता है कि आप परिणाम कैसे भेजना चाहते हैं। आप के माध्यम से परिणाम भेज सकते हैं अमेज़न S3, ड्रॉपबॉक्स, ई - मेल अधिसूचना, FTP तथा WebDAV.

अंतिम विकल्प एक कॉलबैक URL है, जो हमारे आवेदन का उपयोग करके परिमार्जन परिणामों को आपके आवेदन में संसाधित करने की अनुमति देता है परिमार्जन एपीआई.

ज़िप किए गए परिणाम या प्रत्येक डेटा फ़ाइल का फ़ाइल नाम यदि आप उन्हें अलग से भेजने का अनुरोध करते हैं, तो डिफ़ॉल्ट फ़ाइल नाम विकल्प को अनचेक करके और अपना वांछित फ़ाइल नाम सेट करके सेट किया जा सकता है।

अनुसूची स्क्रैप

वेब स्क्रैप बनाते समय शेड्यूल स्क्रैप टैब आपको यह निर्धारित करने की अनुमति देता है कि आप कब स्क्रैप शुरू करना चाहते हैं और यदि आप इसे दोहराना चाहते हैं, तो इसे कितनी बार करना चाहिए।

निगरानी और डिबगिंग स्क्रैप

एक बार वेब स्क्रैप शुरू होने के बाद स्टेटस आइकन बदल जाएगा और संसाधित पृष्ठ समय के साथ बढ़ना शुरू हो जाएंगे। स्क्रैप की प्रगति का एक वास्तविक समय स्नैपशॉट नियमित रूप से एक लॉग फ़ाइल के साथ उत्पन्न होता है जिसमें पिछले वेब पेज के नियमित स्क्रीनशॉट के साथ स्क्रैपर का सामना करना पड़ता है। यह आपको यह देखने की अनुमति देता है कि परिमार्जन के दौरान क्या हो रहा है। इस जानकारी को खोजने के लिए, अपने स्क्रेप के बगल में विस्तृत आइकन पर क्लिक करें और क्लिक करें दर्शक परिमार्जन के लिए आप हैं intइसमें मिटाया गया है। यदि आपके परिमार्जन के निर्देशों में कोई समस्या हो तो यह विस्तृत होना चाहिए।

एक बार परिमार्जन सफलतापूर्वक पूरा हो जाने के बाद स्थिति आइकन स्विच हो जाएगा , अगर व्यूअर को खोलने से कोई परिणाम नहीं होता है तो लॉग और अंतिम स्क्रीनशॉट आपको बता सकता है कि क्या गलत हुआ।

लॉग में बताई गई सबसे आम समस्याओं में से एक यह है कि पेज को खुरचने के लिए पर्याप्त रेंडरिंग देरी नहीं है, अक्सर इसमें थोड़ी वृद्धि होती है पेज लोड देरी में पाया गया परिमार्जन विकल्प टैब अधिकांश वेबसाइटों के लिए पर्याप्त है।