वेब पर कब्जा और परिवर्तित करने के लिए उपकरण

वेब खुरचनी प्रलेखन

वेब स्क्रैप बनाने के लिए आपको निम्नलिखित टैब में फैले पांच प्रकार की जानकारी निर्दिष्ट करनी होगी।

  1. परिमार्जन विकल्प
  2. लक्ष्य वेबसाइट
  3. परिमार्जन निर्देश
  4. निर्यात विकल्प
  5. अनुसूची स्क्रैप

परिमार्जन विकल्प

स्क्रैप विकल्प विकल्प पर एक वेब परिमार्जन को अनुकूलित करने के लिए निम्नलिखित सभी सुविधाएँ उपलब्ध हैं।

खुरचन नाम परिमार्जन का नाम।

लिंक का पालन करें निम्न विकल्प प्रदान करता है कि खुरचनी को कैसे लिंक का अनुसरण करना चाहिए:

फ़ाइल डाउनलोड पर ध्यान न दें एक बार किसी भी लिंक को सेट करें, जो विज़िट किए जाने पर फ़ाइल डाउनलोड का कारण नहीं है।

Robots.txt फ़ाइल को अनदेखा करें अगर स्क्रैपर सेट किया जाता है तो वेबसाइट के मालिक द्वारा क्रॉल किए जाने से सामान्य रूप से बाहर रखे गए वेब पेजों पर जा सकते हैं।

त्रुटि पृष्ठों पर ध्यान न दें यदि सेट किया गया है तो वेब स्क्रैपर किसी त्रुटि की रिपोर्ट करने वाले किसी भी वेब पेज को छोड़ देगा। तो कोई भी HTTP स्टेटस कोड 400 या उससे ऊपर।

यूआरएल अंशों पर ध्यान न दें यदि सेट किया गया है तो वेब स्क्रैपर यूआरएल के बाद के हिस्से को अनदेखा कर देगा # इस सुविधा का उपयोग आमतौर पर एक ही पृष्ठ पर एक बुकमार्क को दर्शाने के लिए किया जाता है और इसलिए सामान्यतः अनावश्यक पृष्ठों को स्क्रैप किया जाता है। हालाँकि, कुछ वेबसाइटें अलग-अलग सामग्री दिखाने के लिए इस सुविधा का उपयोग करती हैं, ऐसी स्थिति में इस सेटिंग को अक्षम करने की आवश्यकता होती है। यह विकल्प केवल तभी लागू होता है जब फॉलो लिंक आवश्यक न हों।

डुप्लिकेट को अनदेखा करें यदि सेट किया जाता है तो यह उन पृष्ठों को अनदेखा कर देगा जो आपके द्वारा निर्धारित समानता से अधिक या उससे अधिक हैं, उदाहरण के लिए आप उन पृष्ठों को अनदेखा कर सकते हैं जो 95% समान हैं।

परिमार्जन सीमा आपको यह बताने की अनुमति देता है कि रोकने से पहले वेब पेज को कितने पृष्ठों पर खुरचना चाहिए।

मेरा समयक्षेत्र का उपयोग करें अगर यह निर्धारित करता है कि वेब खुरचनी को किसी भी तारीख को बदलने की कोशिश करनी चाहिए intअपने स्थानीय समय क्षेत्र। आपका समय क्षेत्र खाता पृष्ठ पर सेट किया जा सकता है।

पता भौगोलिक स्थिति वेब खुरचनी परिमार्जन करेगा। यह उपयोगी हो सकता है यदि लक्ष्य वेबसाइट में स्थान के आधार पर प्रतिबंध हो।

डिफ़ॉल्ट तिथि प्रारूप जब दिनांक प्रारूप को निर्धारित नहीं किया जा सकता है, तो तिथियों को परिवर्तित करते समय, वेब स्क्रैपर इस चुने हुए प्रारूप के बजाय डिफ़ॉल्ट होगा।

पेज लोड देरी यह वह समय है जब वेब पेजर को किसी पेज को पार्स करने से पहले इंतजार करना चाहिए। यह बहुत उपयोगी है यदि किसी पेज में बहुत अधिक AJAX है या लोड करने के लिए धीमा है।

लक्ष्य वेबसाइट

लक्ष्य वेबसाइट

लक्ष्य वेबसाइट टैब में आप उन वेबसाइटों को निर्दिष्ट करते हैं जिनसे आप डेटा निकालना चाहते हैं। किसी वेबसाइट से डेटा निकालने के लिए स्क्रैप टूल को बताने के लिए आपको सबसे पहले अपना मुख्य यूआरएल निर्दिष्ट करना होगा intउदा http://www.example.com/shop/ यह है कि स्क्रैपर अपना स्क्रैप शुरू करेगा, यह एक सामान्य वेबपेज, पीडीएफ दस्तावेज़, एक्सएमएल दस्तावेज़, जेन्सन दस्तावेज़, आरएसएस फ़ीड या साइटमैप हो सकता है। यदि यह एक वेब पेज या पीडीएफ डॉक्यूमेंट नहीं है, तो स्क्रैपर फाइल के सभी लिंक ढूंढेगा और हर एक को विजिट करेगा।

केवल लक्ष्य URL में पाए गए लिंक का पालन करने के लिए और बाद के किसी भी पृष्ठ पर आप सेट नहीं कर सकते लिंक का पालन करें परिमार्जन का विकल्प सेवा मेरे पहले पेज पर। यह लक्ष्य URL का उपयोग केवल शेष स्क्रैप को बीजित करने के लिए करेगा।

URL पैटर्न

डिफ़ॉल्ट रूप से, वेब स्क्रैपर प्रत्येक लिंक का अनुसरण करता है, जो उसके द्वारा देखे जाने वाले प्रत्येक वेब पेज पर पता चलता है। यदि आप प्रतिबंधित करना चाहते हैं कि क्या लिंक है वेब खुरचनी इस प्रकार, ऐसा करने का एक आसान तरीका यूआरएल पैटर्न निर्दिष्ट करना है। यह शक्तिशाली तकनीक मुख्य रूप से वाइल्ड कार्ड के रूप में तारांकन के साथ एक यूआरएल निर्दिष्ट करके काम करती है ताकि यह दर्शाया जा सके कि पैटर्न के इस हिस्से में कोई भी अक्षर मौजूद हो सकता है। उदाहरण के लिए http://www.example.com/*/articles/* वेबसाइट के रूट से दूसरी निर्देशिका के रूप में किसी भी URL को परिमार्जन करेगा।

URL पैटर्न को परिभाषित करने का एक अधिक प्रतिबंधात्मक तरीका विकल्प को परिभाषित करना है। उदाहरण के लिए यह उदाहरण केवल स्टोर या समाचार से मेल खाएगा: http://www.example.com/ /*

इसलिए यह इस मैच होगा http://www.example.com/store/products/1 लेकिन नहीं http://www.example.com/about/.

या वैकल्पिक रूप से कुछ के अलावा किसी भी चीज़ से मेल खाना संभव है। उदाहरण के लिए यह उदाहरण स्टोर या समाचार से मेल नहीं खाएगा: http://www.example.com/ /*

इसलिए यह इस मैच होगा http://www.example.com/about/ लेकिन नहीं http://www.example.com/store/products/1!

URL पैटर्न में कीवर्ड भी हो सकते हैं। एक कीवर्ड दोहरे वर्गाकार कोष्ठक में निहित कोई भी चीज़ है। इसलिए [[URL_START]]www.example.com* किसी URL की किसी भी वैध शुरुआत से मेल खाएगा http://www.example.com/, https://www.example.com/ या यहाँ तक ftp://www.example.com/ उदाहरण के लिए।

बीज का यूआरएल

बीज URL एक उपयोगकर्ता को उन URL की एक सूची निर्दिष्ट करने की अनुमति देता है जिसे वेब स्क्रैपर द्वारा क्रॉल किया जाना चाहिए। यदि आप केवल सीड यूआरएल स्क्रैप सेट करना चाहते हैं लिंक का पालन करें परिमार्जन विकल्प सेवा मेरे कोई पृष्ठ नहीं परिमार्जन विकल्प टैब में।

लक्ष्य वेबसाइट टैब पर बीज यूआरएल सेट करने के लिए, लक्ष्य जोड़ें बटन पर क्लिक करें, फिर बीज यूआरएल सेट करें चेकबॉक्स को चेक करें और प्रत्येक यूआरएल को एक अलग लाइन पर स्क्रैप करने के लिए निर्दिष्ट करें।

टेम्पलेट URL से बीज URL बनाएं

वैकल्पिक रूप से आप टेम्पलेट URL का उपयोग करके स्वचालित रूप से बीज URL उत्पन्न कर सकते हैं, यह एक एकल URL है जिसमें URL चर शामिल है। एक URL चर अधिक से अधिक संख्याओं को निर्दिष्ट करता है।

प्रारंभ संख्या वह संख्या है जिस पर URL चर को गिनना शुरू करना चाहिए, अंतिम संख्या वह संख्या है जिस पर URL चर गिनना बंद कर देगा, iterate संख्या वह संख्या है जो URL चर के प्रत्येक पुनरावृत्ति के लिए बढ़ जाएगी।

उदाहरण के लिए निम्न टेम्पलेट URL के लिए http://www.example.com/search?pageNo=

इसके बाद निम्नलिखित बीज URL बनाए जाएंगे:

पोस्ट करें

URL एक URL को पैरामीटर के साथ निर्दिष्ट कर सकता है, उदाहरण के लिए लॉगिन फॉर्म भी। ऐसा करने के लिए लक्ष्य URL टेक्स्ट बॉक्स में फ़ॉर्म URL निर्दिष्ट करें और उपयोग करने के लिए आवश्यक पोस्ट पैरामीटर जोड़ें। चर चर मानों में विशेष GrabzIt चर भी शामिल हो सकते हैं, जैसे:

परिमार्जन निर्देश

स्क्रेप निर्देश वेब स्क्रैपर को बताता है कि लक्ष्य वेबसाइट को स्क्रैप करते समय क्या कार्रवाई करनी है। स्क्रेप निर्देश टैब डिफ़ॉल्ट रूप से स्क्रैप विज़ार्ड को दिखाता है, जो आपके लिए आवश्यक स्क्रैप निर्देशों को जोड़ना आसान बनाता है। इस विज़ार्ड का उपयोग करने का एक अच्छा उदाहरण में दिखाया गया है उत्पाद सूची और विस्तार स्क्रैपिंग ट्यूटोरियल.

एक बार जब आप स्क्रैपिंग प्रेस शुरू करने के लिए तैयार हैं नया परिमार्जन निर्देश जोड़ें लिंक.

यह विज़ार्ड खोल देगा और स्वचालित रूप से लक्ष्य URL को लोड कर देगा, जिससे आप तुरंत चुन सकते हैं कि आप क्या स्क्रैप करना चाहते हैं। यदि कोई वेबपेज या पीडीएफ डॉक्यूमेंट लोड किया गया है, तो आप किसी भी लिंक पर क्लिक कर सकते हैं और यह अन्य वेबपेज के लिए नेविगेशन के लिए सामान्य रूप से कार्य करेगा। जब तक आप स्क्रीन के निचले भाग में, इस कविता में कोई एक क्रिया चुनते हैंint सामग्री पर कोई भी क्लिक उस HTML तत्व का चयन करेगा जिसे आप निकालना या हेरफेर करना चाहते हैं।

स्क्रैप निर्देशों के बारे में समझने वाली पहली बात यह है कि वे हर वेब पेज पर डिफ़ॉल्ट रूप से निष्पादित होते हैं। इसे रोकने का तरीका टेम्पलेट्स के उपयोग के माध्यम से है। एक टेम्पलेट पर कार्रवाई तब की जा सकती है जब कोई लिंक क्लिक करने जैसी क्रिया हो, और ताकि जब भी स्क्रैपर उस लिंक पर जाए या उस बटन पर क्लिक करे तो यह पहचान लेगा कि यह निर्धारित टेम्पलेट का है। यह विभिन्न पृष्ठ प्रकारों को परिभाषित करने की अनुमति देता है। उदाहरण के लिए, आपके पास एक उत्पाद श्रेणी पृष्ठ हो सकता है जिसमें कुछ अवलोकन जानकारी और फिर एक विस्तृत पृष्ठ होता है जिसमें उत्पाद जानकारी होती है। दोनों पृष्ठों को शायद अलग-अलग परिमार्जन निर्देशों की आवश्यकता होगी।

खुरचने का साँचा

आरंभ करने के लिए चुनें क्लिक करें कार्रवाई, फिर एक बार जब आप उन वस्तुओं का चयन कर लेते हैं जिन पर आप कार्रवाई करना चाहते हैं और क्लिक करें अगला बटन टेम्पलेट के नाम में दर्ज करें एक खाका बनाएँ टेक्स्ट बॉक्स अब जब भी स्क्रैपर इन क्रियाओं को अंजाम देगा, लौटाया गया टेम्पलेट आपके द्वारा प्रदत्त नाम होगा।

फिर एक विशेष टेम्प्लेट को स्क्रैप करने के लिए निर्दिष्ट करने के लिए आपको वांछित टेम्पलेट का चयन करने की आवश्यकता है में निष्पादित करें ड्रॉप डाउन सूची, जो विकल्प विंडो में दिखाई देती है जो स्क्रैप निर्देश को जोड़ने से ठीक पहले दिखाई देती है। टेम्प्लेट चुनते समय तीन मुख्य विकल्प इस प्रकार हैं:

एक बार जब आप इन विकल्पों में से एक का चयन कर लेते हैं, तो स्क्रैप अनुदेश केवल निर्दिष्ट टेम्पलेट पर निष्पादित किया जाएगा।

डेटा निकालना

जब आप चुनेंगे तो आप देखेंगे डेटा निकालें कार्रवाई। स्क्रीन के निचले बाएं कोने में आपको या तो ऊपर विंडो में एक HTML तत्व का चयन करने या एक वैश्विक पृष्ठ संपत्ति चुनने के लिए आमंत्रित किया गया है।

वैश्विक पृष्ठ संपत्ति का उपयोग करने के लिए, पर क्लिक करें वैश्विक पृष्ठ संपत्ति संपर्क। फिर पुष्टि करें कि आप जारी रखना चाहते हैं। अब आपके पास उन संपत्तियों की एक सूची होगी, जिन्हें सीधे पृष्ठ से निकाला जा सकता है। उदाहरण के लिए: पेज शीर्षक।

किसी एक को चुनने के लिए, इसे विकल्पों की सूची से चुनें और क्लिक करें अगला में डेटा जोड़ने के लिए डाटासेट.

यदि आप संबंधित HTML तत्वों पर क्लिक करने की आवश्यकता वाले संपूर्ण पृष्ठ से संबंधित विशिष्ट HTML तत्वों में डेटा निकालने की इच्छा रखते हैं, तो आप एकल या एकाधिक आइटम का चयन कर सकते हैं। हालाँकि, यदि आप कई आइटम्स का चयन कर रहे हैं, तो कृपया कोशिश करें और एक से अधिक आइटमों का चयन करें जो एक कॉलम में कई पंक्तियों जैसे हैं, क्योंकि यदि स्क्रैपर कोई नियम नहीं बना सकता है जो डेटा के चयनित संग्रह को विशिष्ट रूप से पहचान नहीं कर सकता है, तो कोई स्क्रैप निर्देश नहीं होगा बनने में सक्षम होना। इसके अलावा अगर आपके द्वारा क्लिक की जा रही कई वस्तुओं को हमारे वेब स्क्रैपर विज़ार्ड द्वारा डेटा को दोहराने के रूप में पहचाना गया है, तो उसी समूह के सभी डेटा को स्वचालित रूप से चुना जाएगा। एक बार जब आप अपने सभी एकल या एकाधिक आइटमों का चयन कर लेते हैं, तो स्क्रीन के नीचे बाईं ओर से निकालने के लिए एक विशेषता चुनें और फिर क्लिक करें अगला.

डेटासट बनाना

डाटासेट स्क्रीन आपको यह बदलने की अनुमति देता है कि डेटा कैसे संसाधित किया जाता है, उदाहरण के लिए आप डेटासेट और उसके भीतर के कॉलम का नाम बदल सकते हैं, बस नाम बदलने के लिए उस पर क्लिक करें। जब आप किसी डेटासेट में एक कॉलम जोड़ते हैं, तो आपको उस टेम्पलेट को भी चुनना होगा जिसे इसे निष्पादित किया जाना चाहिए। आप कॉलम नाम के तहत स्थित ड्रॉप डाउन सूची पर क्लिक करके इसे बदल सकते हैं।

अक्सर डेटा निकालते समय, कुछ दोहराई जाने वाली वस्तुओं को असंगत रूप से दोहराना सामान्य है, यह सुनिश्चित करने के लिए कि सही पंक्तियाँ अभी भी एक दूसरे के उपयोग से जुड़ी हैं लिंक कॉलम मानदंड, असंगत स्तंभों को डेटासेट में सबसे सुसंगत स्तंभ से जोड़ने के लिए।

डेटासेट में अधिक डेटा जोड़ने के लिए पर क्लिक करें बटन, या क्लिक करें डेटासेट से डेटा निकालने के लिए, या संपूर्ण डेटासेट को हटाने के लिए। डेटासेट विभिन्न मापदंडों को डेटा पर लागू करने की अनुमति देता है, ऐसा करने के लिए ऊपर से वांछित कार्रवाई का चयन करें और फिर मापदंड लागू करने के लिए संबंधित कॉलम पर क्लिक करें। यदि आप एक मानदंड जोड़ने की गलती करते हैं तो बस क्लिक करें बटन.

यहां विभिन्न मानदंडों के प्रकारों की सूची दी गई है और उनका उपयोग कैसे किया जाए:

जब आपने उपरोक्त ऑपरेशनों में से एक का चयन किया है, तो यदि यह कई कॉलमों को प्रभावित कर सकता है, तो यह आपसे पूछेगा कि क्या आप केवल कॉलम या उन सभी को प्रभावित करने की अनुमति देना चाहते हैं। ज्यादातर मामलों में आप चाहते हैं कि यह सभी स्तंभों को प्रभावित करे, लेकिन कुछ परिस्थितियों में यह स्तंभों को प्रभावित करने के लिए सीमित है। उदाहरण के लिए, यदि आप की एक श्रृंखला का चयन कर रहे हैं लेबल और मूल्य, जो वेब पेजों में स्थिति बदलते हैं, आप सभी लेबल और मान चुन सकते हैं। फिर डेटासेट में वांछित लेबल तक इसे सीमित करने के लिए समान संचालन का उपयोग करते हैं और निर्दिष्ट करते हैं कि केवल लेबल और मूल्य कॉलम प्रभावित होना चाहिए। यह सुनिश्चित करेगा कि अन्य कॉलम हटाए जा रहे पंक्तियों से अप्रभावित हैं, पूर्णता के लिए यह लेबल कॉलम को छिपाने के लिए उपयोगी होगा।

एक बार जब आप अपने इच्छित सब कुछ को संशोधित कर लेते हैं, तो क्लिक करें अगला और, आपके स्क्रैप के निर्देशों को स्क्रैप में जोड़ा जाएगा। यदि आप चाहें तो आपके पास आगे स्क्रैप निर्देश जोड़ने का विकल्प है।

एक वेबपेज को हेरफेर करना

ड्रॉप-डाउन से मानों को क्लिक करने, टाइप करने और चयन करने से पहले एक वेबपेज को हेरफेर किया जा सकता है। यह याद रखना महत्वपूर्ण है कि भले ही यह नए वेबपेज को लोड करने के लिए कारण हो सकता है कि स्क्रैप निर्देशों को तब तक पुनरारंभ नहीं किया जाएगा जब तक कि सभी लागू स्क्रैप निर्देशों को निष्पादित नहीं किया जाता है।

वेबपृष्ठ में हेरफेर करने के लिए या तो चुनें तत्व पर क्लिक करें, होवर तत्व, स्क्रॉल, पाठ टाइप करे or ड्रॉप डाउन सूची मूल्य का चयन करें कार्रवाई। यदि आप एक क्लिक क्रिया कर रहे हैं तो आप किसी वेबपेज पर किसी भी तत्व पर क्लिक कर सकते हैं। अन्यथा आपको एक उपयुक्त HTML तत्व का चयन करना होगा, उदाहरण के लिए टेक्स्ट को टेक्स्ट बॉक्स में टाइप किया जाना चाहिए। तब दबायें अगला। यह एक विकल्प बॉक्स खोलेगा जो आपको कार्रवाई पूरा करने की अनुमति देता है। पाठ टाइप करते समय और टाइप किए जाने या चुने जाने के लिए एक ड्रॉप डाउन से चयन करके क्रमशः चुना जाना चाहिए। इसके अलावा अन्य तीनों क्रियाओं के लिए विकल्प समान हैं।

यदि आप चाहें तो टेम्पलेट का चयन कर सकते हैं इस क्रिया को क्रियान्वित किया जाना चाहिए और क्लिक क्रिया पूरी होने पर, क्लिक क्रिया पूर्ण होने के बाद। हालांकि, एक क्लिक कार्रवाई के लिए एक नया टेम्पलेट असाइन करना जो एक ही पृष्ठ पर कई क्लिक करता है, यह एक अच्छा विचार नहीं है, जैसे कि इनलाइन पॉपअप खोलना या स्क्रीन पर चीजें दिखाना। ऐसा इसलिए है क्योंकि यदि क्लिक एक्शन केवल कुछ टेम्प्लेट्स पर ही लागू होता है, तो पहले क्लिक के द्वारा असाइन किया गया नया टेम्प्लेट रीसेट नहीं किया जाएगा और इसलिए इस बात पर निर्भर करता है कि यह कैसे लिखा गया था, उसी पेज पर भविष्य के क्लिक को निष्पादित होने से रोक सकता है। आप यह भी परिभाषित कर सकते हैं कि क्या आप चाहते हैं कि यह क्रिया केवल एक बार निष्पादित हो, जो उपयोगी है यदि आप लॉगिन की तरह कुछ कर रहे हैं intओ वेबसाइट।

टाइप टेक्स्ट या सेलेक्ट ड्रॉप डाउन लिस्ट वैल्यू एक्शन से आप टेक्स्ट के कई आइटम टाइप कर सकते हैं या क्रमशः कई चुनिंदा बॉक्स सिलेक्शन कर सकते हैं। इन्हें स्‍क्रैप निर्देशों पर क्लिक करके संपादित किया जा सकता है परिवर्तन या दृश्य चर बटन, जैसा कि स्क्रीनशॉट में बाईं ओर दिखाया गया है।

यह महत्वपूर्ण हो सकता है यदि आप उदाहरण के लिए किसी खोज बॉक्स में नामों की सूची लिखना चाहते हैं। यह सुनिश्चित करने के लिए कि कोई प्रपत्र केवल तभी सबमिट किया जाता है जब खोज बॉक्स में कोई मूल्य हो, प्रत्येक बार पाठ सफलतापूर्वक टाइप किए जाने पर एक टेम्पलेट सेट किया जा सकता है intजब तक यह टेम्प्लेट सेट नहीं होता तब तक टेक्स्ट पर ओ और बटन पर क्लिक करें। क्लिक कार्रवाई के बाद टेम्प्लेट किया जाता है फिर प्रक्रिया को रीसेट करने के लिए इसे कुछ और में बदलना होगा।

वेबसाइटों में हेरफेर करने वाली कार्रवाइयों के बाद, थोड़ी देर के लिए इंतजार करना उपयोगी होता है अगर कार्रवाई AJAX की कार्यक्षमता शुरू करती है, तो स्क्रैप के साथ जारी रखने से पहले AJAX सामग्री को लोड करने की अनुमति देता है। आप इसमें देरी जोड़कर कर सकते हैं निष्पादन के बाद प्रतीक्षा करें पाठ बॉक्स।

कुछ शर्त पूरी होने पर आप सीधे एक अलग URL पर जा सकते हैं। ऐसा करने के लिए उपयोग करें URL पर जाएं कार्रवाई, जो केवल तब दिखाई देगी जब कम से कम एक टेम्पलेट को परिमार्जन में परिभाषित किया गया हो और जब बनाया जाए तो उसे एक टेम्पलेट को सौंपा जाना चाहिए, ताकि अनंत छोरों से बचने में मदद मिल सके।

अंत में आप अपने वेब स्क्रेप में GrabzIt के कैप्चर एपीआई के सभी का उपयोग कर सकते हैं, बस कैप्चर वेबपेज एक्शन चुनें, और अपनी इच्छित कैप्चर चुनें। आप एक बार चयन करने के लिए टेम्पलेट को निर्दिष्ट करके स्क्रैप के भीतर कुछ वेब पृष्ठों को पकड़ने के लिए इसे सीमित कर सकते हैं अगला बटन.

प्रत्येक परिमार्जन निर्देश को जोड़ने के बाद इसे परिमार्जन निर्देश पैनल में देखा जा सकता है, प्रत्येक परिमार्जन अनुदेश के आगे का क्रॉस परिमार्जन निर्देश को हटाने की अनुमति देता है। यदि कोई स्क्रैप निर्देश हटा दिया जाता है जो अन्य स्क्रैप निर्देशों द्वारा आवश्यक होता है तो वे निर्देश भी हटा दिए जाते हैं। आप हड़पने के आइकन के साथ किसी भी स्क्रैप निर्देश को खींचकर स्क्रैप के निर्देशों का क्रम बदल सकते हैं।

लेखन स्क्रैप निर्देश मैन्युअल रूप से

यदि आपको स्क्रैप निर्देशों को अधिक विशिष्ट तरीके से अनुकूलित करने की आवश्यकता है, तो आपको मैन्युअल रूप से स्क्रैप निर्देशों को बदलना होगा।

परिमार्जन निर्देश जावास्क्रिप्ट आधारित होते हैं और कोड संपादक एक सिंटैक्स चेकर, ऑटो-कम्प्लीट और टूलटिप के साथ पूरा होता है ताकि यह जितना संभव हो उतना आसान हो सके।

वेब खुरचने के निर्देश कोड संपादक की मुख्य कार्यक्षमता मेनू विकल्पों के माध्यम से सुलभ है, जैसा कि स्क्रीनशॉट में दिखाया गया है, प्रत्येक का उद्देश्य नीचे अलग से बताया गया है। जबकि आपके स्क्रैप निर्देशों में कोई भी वाक्यविन्यास त्रुटियां कोड संपादक के बाएं हाथ के गटर में इंगित की जाती हैं।

विज़ार्ड विज़ार्ड आपको पृष्ठ के कुछ हिस्सों का चयन करने की अनुमति देता है जिन्हें आप निकालने के लिए चाहते हैं और अन्य सामान्य कार्य जैसे वेब कैप्चर बनाते हैं।

स्क्रेप निर्देश प्रदर्शित करें उपयोगकर्ता को परिमार्जन निर्देश कोड प्रदर्शित करता है।

सभी निर्देश हटाएं सभी स्क्रैप निर्देशों को हटाता है।

वेबपेज फ़ंक्शंस पेज कीवर्ड दर्ज करेंगे into परिमार्जन निर्देश और ऑटो-पूर्ण खोलें, जिसमें सभी संभव हैं पृष्ठ कार्य। पृष्ठ फ़ंक्शंस आपको वेब पेज से डेटा निकालने की अनुमति देता है।

डेटा फ़ंक्शंस डेटा कीवर्ड दर्ज करेगा into परिमार्जन निर्देश। डेटा फ़ंक्शन आपको अनुमति देता है save जानकारी.

नेविगेशन कार्य नेविगेशन कीवर्ड दर्ज करता है into कोड संपादक। नेविगेशन कार्य आपको यह नियंत्रित करने की अनुमति देता है कि वेब स्क्रैपर लक्ष्य वेबसाइट को कैसे नेविगेट करता है।

वैश्विक कार्य ग्लोबल कीवर्ड दर्ज करता है into परिमार्जन निर्देश। इससे आपको एक्सेस मिलता है कार्यों जो विभिन्न वेब पेजों को पार्स करने के बीच डेटा स्टोर कर सकता है। स्क्रैप निर्देशों को लिखते समय यह याद रखना महत्वपूर्ण है कि स्क्रैप निर्देशों में जावास्क्रिप्ट चर की स्थिति तब नहीं रखी जाती है जब स्क्रैपर वेबपेजों के बीच चलता है, जब तक आप ग्लोबल फ़ंक्शन का उपयोग नहीं करते हैं save चर, जैसा कि नीचे दिखाया गया है।

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

एक वैश्विक वैरिएबल पास बनाने के लिए Global.set पद्धति में जारी पैरामीटर के लिए सही है, जैसा कि नीचे दिखाया गया है।

Global.set("myvariable", "hello", true);

उपयोगिता कार्य उपयोगिता कीवर्ड दर्ज करता है into परिमार्जन निर्देश। यह आपको उपयोग करने की अनुमति देता है सामान्य कार्य जो लिखना आसान बनाते हैं, जैसे क्वेरी जोड़ना या निकालनाstring URLs से पैरामीटर।

मानदंड कार्य मानदंड कीवर्ड दर्ज करता है into परिमार्जन निर्देश। इन कार्यों आपको अपने स्क्रैप के दौरान निकाले गए डेटा को परिष्कृत करने की अनुमति देता है, जैसे डुप्लिकेट को समाप्त करना।

फ़िल्टर आपको आसानी से एक फ़िल्टर बनाने की अनुमति देता है, कुछ कार्यों के लिए एक वेब पेज के भीतर से किसी विशेष HTML तत्व का चयन करना आवश्यक है। बस उन विशेषताओं का चयन करें जो आपके लक्षित तत्व के पास होनी चाहिए और / या उस तत्व के माता-पिता को उस तत्व का चयन करना चाहिए। सुनिश्चित करें कि इस विकल्प पर क्लिक करने से पहले आपका कर्सर फिल्टर पास करने के लिए फ़ंक्शन में सही जगह पर है।

स्क्रीनशॉट कार्य आपको स्क्रीनशॉट विकल्प सेट करने की अनुमति देता है। फ़ंक्शन के सही हिस्से में कर्सर रखें, जैसा कि टूलटिप द्वारा पहचाना गया है और स्क्रीनशॉट विकल्प दबाएं। फिर अपनी इच्छानुसार सभी विकल्प चुनें और कमांड डालें।

Strings

Strings का उपयोग स्क्रैप के निर्देशों में किया जाता है, जब टेक्स्ट को परिभाषित करने के लिए, वेब स्क्रैप का प्रदर्शन किया जाता है। ए string डबल द्वारा सीमांकित किया गया है (") या एकल उद्धरण (')। यदि एक string एक दोहरे उद्धरण के साथ शुरू किया जाता है, यदि यह एक दोहरे उद्धरण के साथ समाप्त होना चाहिए, यदि ए string एक उद्धरण के साथ शुरू होता है यह एक एकल उद्धरण के साथ समाप्त होना चाहिए। उदाहरण के लिए:

"my-class" और 'my-class'

एक सामान्य त्रुटि जो हो सकती है, वह है string त्रुटि, यह तब है जब ए string जैसा कि ऊपर दिखाया गया है एक समापन उद्धरण नहीं है या में एक लाइन ब्रेक है string। निम्नलिखित अवैध हैं strings:

"my
class"

"my class

इस त्रुटि को ठीक करने के लिए यह सुनिश्चित करना है कि उनमें लाइन ब्रेक न हों और मेल खाने वाले उद्धरण हों, जैसे:

"my class" और "my class"

कभी-कभी आप चाहते हैं कि कोई एकल या दोहरा उद्धरण प्रकट हो string। ऐसा करने का सबसे आसान तरीका है कि आप किसी एक उद्धरण को एक में डाल दें string डबल उद्धरण और एक डबल उद्धरण के साथ सीमांकित string एकल उद्धरण के साथ सीमांकित, जैसे:

"Bob's shop" और '"The best store on the web"'

वैकल्पिक रूप से आप किसी बोली से बचने के लिए बैकस्लैश का उपयोग कर सकते हैं:

'test\'s'

सामान्य मैनुअल स्क्रेप टास्क

लिंक चेकर एक कस्टम लिंक चेकर बनाएँ - इन सरल निर्देशों का पालन करके कस्टम लिंक चेकर बनाने का तरीका जानें।
छवि डाउनलोड करें एक वेबसाइट से सभी छवियों को डाउनलोड करें - एक संपूर्ण वेबसाइट से सभी छवियों को डाउनलोड करने का तरीका जानें।
डेटसेट बनाएं डेटा निकालें और इसे रूपांतरित करें intओए डेटासेट - यह पता लगाएं कि जिस वेबसाइट को आप स्क्रैप कर रहे हैं, उससे डेटासेट कैसे बनाएं।
लिंक निकालें एक वेबसाइट से लिंक निकालें - पूरी वेबसाइट से सभी HTML लिंक निकालने का तरीका जानें save आप चाहते हैं कि प्रारूप में उन्हें।
पाठ चुनें पैटर्न का उपयोग करके पाठ से मान निकालना - पता लगाएँ कि पाठ के ब्लॉक से मान निकालने के लिए पैटर्न का उपयोग कैसे करें।
ओसीआर छवियों से पाठ निकालें - छवियों के भीतर निहित पाठ को निकालने का तरीका जानें।
डेटासेट डेटासेट को कैसे पैड करें - पैडिंग का उपयोग करके अपने निकाले गए डेटा को बेहतर तरीके से प्रारूपित करें।
ऐरे जोड़ तोड़ - स्क्रैप के भीतर आसानी से सरणियों को संभालने के लिए विशेष सरणी उपयोगिता विधियों का उपयोग करने का तरीका जानें।
कार्य परिमार्जन के दौरान केवल एक बार क्रिया करें - यह पता करें कि संपूर्ण खुरचने के दौरान केवल एक बार किसी क्रिया को कैसे किया जाए।
परिष्कृत करें स्क्रैप किए गए डेटा को परिष्कृत करना - अपने स्क्रैप से गैर-आवश्यक डेटा निकालने का तरीका जानें।
ईमेल ईमेल पते को किसी वेबसाइट से - एक वेबसाइट से सभी ईमेल पतों को परिमार्जन करने का तरीका जानें।
स्क्रीनशॉट पूरी वेबसाइट स्क्रीनशॉट into PDF या चित्र - संपूर्ण वेबसाइट के प्रत्येक पृष्ठ को कैप्चर करने के लिए GrabzIt के वेब स्क्रैपर का उपयोग करने का तरीका जानें।
स्क्रीनशॉट असंरचित पाठ से संरचित जानकारी निकालें - भावना, नाम, स्थान और संगठनों को निकालने के लिए GrabzIt का उपयोग करें।

HTML के अलावा अन्य सामग्री को स्क्रैप करना

जब वेब स्क्रैपर PDF, XML, JSON और RSS के पार आता है, तो वह इसे एक HTML सन्निकटन में बदल देगा, जो हमारे वेब स्क्रैपर को सही तरीके से पार्स करने की अनुमति देता है और आप वह सामग्री चुन सकते हैं जिसे आप निकालना चाहते हैं। उदाहरण के लिए, यदि आप JSON डेटा पार्स करना चाहते हैं तो यह डेटा को रूपांतरित कर देगा into hierarchal एचटीएमएल प्रतिनिधित्व जैसा कि पक्ष में दिखाया गया है। यह आपको सामान्य के रूप में परिमार्जन निर्देश बनाने की अनुमति देता है।

इसी तरह से जब स्क्रैपर एक पीडीएफ डॉक्यूमेंट लोड करता है, तो पीडीएफ कन्वर्ट हो जाता है into HTML छवियों, हाइपरलिंक, पाठ और तालिकाओं को चुनने और स्क्रैप करने की अनुमति देने के लिए। हालाँकि, PDF में कोई वास्तविक संरचना नहीं होती है, फिर भी तालिकाएँ हेट्रिस्टिक्स का उपयोग करके पहचानी जाती हैं और इसलिए हमेशा सटीक नहीं होती हैं।

निर्यात विकल्प

यह टैब आपको यह चुनने की अनुमति देता है कि आप एक्सेल स्प्रेडशीट, एक्सएमएल, जेएसएन, सीएसवी, एसक्यूएल कमांड या एचटीएमएल दस्तावेजों सहित अपने परिणामों को कैसे निर्यात करना चाहते हैं। इसके अतिरिक्त, यह टैब ज़िपित परिमार्जन परिणामों के नाम को सेट करने की अनुमति देता है। यदि आप केवल फाइल डाउनलोड कर रहे हैं या वेब कैप्चर बना रहे हैं, तो निर्यात विकल्प चुनने की कोई आवश्यकता नहीं है क्योंकि आपको परिणाम प्राप्त करने वाली ज़िप फ़ाइल प्राप्त होगी। यह टैब आपको यह भी निर्दिष्ट करने की अनुमति देता है कि आप परिणाम कैसे भेजना चाहते हैं। आप के माध्यम से परिणाम भेज सकते हैं अमेज़न S3, ड्रॉपबॉक्स, ई - मेल अधिसूचना, FTP और WebDAV.

अंतिम विकल्प एक कॉलबैक URL है, जो हमारे आवेदन का उपयोग करके परिमार्जन परिणामों को आपके आवेदन में संसाधित करने की अनुमति देता है परिमार्जन एपीआई.

ज़िप किए गए परिणाम या प्रत्येक डेटा फ़ाइल का फ़ाइल नाम यदि आप उन्हें अलग से भेजने का अनुरोध करते हैं, तो डिफ़ॉल्ट फ़ाइल नाम विकल्प को अनचेक करके और अपना वांछित फ़ाइल नाम सेट करके सेट किया जा सकता है। इसके अतिरिक्त, एक टाइमस्टैम्प डालकर आपके फ़ाइलनाम में जोड़ा जा सकता है {GrabzIt_Timestamp_UTC+1} फ़ाइल नाम में। +1 UTC से घंटों में ऑफ़सेट को दर्शाता है।

आप क्लिक करके स्क्रैप के परिणाम भी देख सकते हैं परिणाम देखें बटन, के बगल में आपका परिमार्जन, यह किसी भी वास्तविक समय परिमार्जन परिणाम दिखाएगा, साथ ही पिछले 48 घंटों के भीतर पिछले किए गए।

अनुसूची स्क्रैप

वेब स्क्रैप बनाते समय शेड्यूल स्क्रैप टैब आपको यह सेट करने की अनुमति देता है कि आप स्क्रैप कब शुरू करना चाहते हैं और यदि आप इसे दोहराना चाहते हैं, तो इसे कितनी बार करना चाहिए। किसी वेब पेज पर परिवर्तन का पता चलने पर स्क्रैप को चलाने के लिए भी कॉन्फ़िगर किया जा सकता है। यह करने के लिए जब कोई वेब पेज बदलता है तो प्रारंभ करें चेकबॉक्स, फिर मॉनिटर करने के लिए वेब पेज का यूआरएल दर्ज करें सीएसएस चयनकर्ता आप पृष्ठ के जिस भाग में हैं intइसमें रुचि है। महत्वहीन परिवर्तनों के कारण गलत सकारात्मकता से बचने के लिए यह महत्वपूर्ण है कि पृष्ठ का एक छोटा सा हिस्सा चुना जाए।

निगरानी और डिबगिंग स्क्रैप

एक बार वेब स्क्रैप शुरू होने के बाद स्टेटस आइकन बदल जाएगा और संसाधित पृष्ठ समय के साथ बढ़ना शुरू हो जाएंगे। स्क्रैप की प्रगति का एक वास्तविक समय स्नैपशॉट नियमित रूप से एक लॉग फ़ाइल के साथ उत्पन्न होता है जिसमें पिछले वेब पेज के नियमित स्क्रीनशॉट के साथ स्क्रैपर का सामना करना पड़ता है। यह आपको यह देखने की अनुमति देता है कि परिमार्जन के दौरान क्या हो रहा है। इस जानकारी को खोजने के लिए, अपने स्क्रेप के बगल में विस्तृत आइकन पर क्लिक करें और क्लिक करें दर्शक परिमार्जन के लिए आप हैं intइसमें मिटाया गया है। यदि आपके परिमार्जन के निर्देशों में कोई समस्या हो तो यह विस्तृत होना चाहिए।

एक बार परिमार्जन सफलतापूर्वक पूरा हो जाने के बाद स्थिति आइकन स्विच हो जाएगा , अगर व्यूअर को खोलने से कोई परिणाम नहीं होता है तो लॉग और अंतिम स्क्रीनशॉट आपको बता सकता है कि क्या गलत हुआ।

लॉग में बताई गई सबसे आम समस्याओं में से एक यह है कि पेज को खुरचने के लिए पर्याप्त रेंडरिंग देरी नहीं है, अक्सर इसमें थोड़ी वृद्धि होती है पेज लोड देरी में पाया गया परिमार्जन विकल्प टैब अधिकांश वेबसाइटों के लिए पर्याप्त है।