वेब स्क्रैप बनाने के लिए आपको निम्नलिखित टैब में फैले पांच प्रकार की जानकारी निर्दिष्ट करनी होगी।
स्क्रैप विकल्प विकल्प पर एक वेब परिमार्जन को अनुकूलित करने के लिए निम्नलिखित सभी सुविधाएँ उपलब्ध हैं।
खुरचन नाम परिमार्जन का नाम।
लिंक का पालन करें निम्न विकल्प प्रदान करता है कि खुरचनी को कैसे लिंक का अनुसरण करना चाहिए:
Robots.txt फ़ाइल को अनदेखा करें अगर स्क्रैपर सेट किया जाता है तो वेबसाइट के मालिक द्वारा क्रॉल किए जाने से सामान्य रूप से बाहर रखे गए वेब पेजों पर जा सकते हैं।
फ़ाइल डाउनलोड पर ध्यान न दें एक बार किसी भी लिंक को सेट करें, जो विज़िट किए जाने पर फ़ाइल डाउनलोड का कारण नहीं है।
डुप्लिकेट को अनदेखा करें यदि सेट किया जाता है तो यह उन पृष्ठों को अनदेखा कर देगा जो आपके द्वारा निर्धारित समानता से अधिक या उससे अधिक हैं, उदाहरण के लिए आप उन पृष्ठों को अनदेखा कर सकते हैं जो 95% समान हैं।
परिमार्जन सीमा आपको यह बताने की अनुमति देता है कि रोकने से पहले वेब पेज को कितने पृष्ठों पर खुरचना चाहिए।
मेरा समयक्षेत्र का उपयोग करें अगर यह निर्धारित करता है कि वेब खुरचनी को किसी भी तारीख को बदलने की कोशिश करनी चाहिए intअपने स्थानीय समय क्षेत्र। आपका समय क्षेत्र खाता पृष्ठ पर सेट किया जा सकता है।
स्थान भौगोलिक स्थिति वेब खुरचनी परिमार्जन करेगा। यह उपयोगी हो सकता है यदि लक्ष्य वेबसाइट में स्थान के आधार पर प्रतिबंध हो।
डिफ़ॉल्ट तिथि प्रारूप जब दिनांक प्रारूप को निर्धारित नहीं किया जा सकता है, तो तिथियों को परिवर्तित करते समय, वेब स्क्रैपर इस चुने हुए प्रारूप के बजाय डिफ़ॉल्ट होगा।
पेज लोड देरी यह वह समय है जब वेब पेजर को किसी पेज को पार्स करने से पहले इंतजार करना चाहिए। यह बहुत उपयोगी है यदि किसी पेज में बहुत अधिक AJAX है या लोड करने के लिए धीमा है।
लक्ष्य वेबसाइटें टैब में आप उन वेबसाइटों को निर्दिष्ट करते हैं जिनसे आप डेटा निकालना चाहते हैं। किसी वेबसाइट से डेटा निकालने के लिए स्क्रैप टूल को बताने के लिए आपको पहले मुख्य URL को निर्दिष्ट करना होगा जो आप हैं intउदा http://www.example.com/shop/
यह है कि स्क्रैपर अपना स्क्रैप शुरू करेगा, यह एक सामान्य वेबपेज, पीडीएफ दस्तावेज़, एक्सएमएल दस्तावेज़, जेन्सन दस्तावेज़, आरएसएस फ़ीड या साइटमैप हो सकता है। यदि यह एक वेब पेज या पीडीएफ डॉक्यूमेंट नहीं है, तो स्क्रैपर फाइल के सभी लिंक ढूंढेगा और हर एक को विजिट करेगा।
केवल लक्ष्य URL में पाए गए लिंक का पालन करने के लिए और बाद के किसी भी पृष्ठ पर आप सेट नहीं कर सकते लिंक का पालन करें परिमार्जन का विकल्प सेवा मेरे पहले पेज पर। यह लक्ष्य URL का उपयोग केवल शेष स्क्रैप को बीजित करने के लिए करेगा।
डिफ़ॉल्ट रूप से, वेब स्क्रैपर प्रत्येक लिंक का अनुसरण करता है, जो उसके द्वारा देखे जाने वाले प्रत्येक वेब पेज पर पता चलता है। यदि आप प्रतिबंधित करना चाहते हैं कि क्या लिंक है वेब खुरचनी इस प्रकार, URL पैटर्न को निर्दिष्ट करने का एक सरल तरीका है। यह एक यूआरएल को निर्दिष्ट करने के लिए एक वाइल्ड कार्ड के रूप में तारांकित के साथ काम करता है ताकि यह दर्शाया जा सके कि पैटर्न के इस हिस्से में कोई भी वर्ण मौजूद हो सकता है। उदाहरण के लिए http://www.example.com/*/articles/*
वेबसाइट के रूट से दूसरी निर्देशिका के रूप में किसी भी URL को परिमार्जन करेगा।
URL पैटर्न को परिभाषित करने का एक अधिक प्रतिबंधात्मक तरीका विकल्प को परिभाषित करना है। उदाहरण के लिए यह उदाहरण केवल स्टोर या समाचार से मेल खाएगा: http://www.example.com//*
इसलिए यह इस मैच होगा http://www.example.com/store/products/1
लेकिन नहीं http://www.example.com/about/
बीज URL एक उपयोगकर्ता को उन URL की एक सूची निर्दिष्ट करने की अनुमति देता है जिसे वेब स्क्रैपर द्वारा क्रॉल किया जाना चाहिए। यदि आप केवल सीड यूआरएल स्क्रैप सेट करना चाहते हैं लिंक का पालन करें परिमार्जन विकल्प सेवा मेरे कोई पृष्ठ नहीं परिमार्जन विकल्प टैब में।
लक्ष्य वेबसाइटों पर बीज URL सेट करने के लिए, लक्ष्य जोड़ें बटन पर क्लिक करें और फिर बीज URL सेट करें चेकबॉक्स की जाँच करें और प्रत्येक URL को एक अलग लाइन पर परिमार्जन करने के लिए निर्दिष्ट करें।
वैकल्पिक रूप से आप टेम्पलेट URL का उपयोग करके स्वचालित रूप से बीज URL उत्पन्न कर सकते हैं, यह एक एकल URL है जिसमें URL चर शामिल है। एक URL चर अधिक से अधिक संख्याओं को निर्दिष्ट करता है।
प्रारंभ संख्या वह संख्या है जिस पर URL चर को गिनना शुरू करना चाहिए, अंतिम संख्या वह संख्या है जिस पर URL चर गिनना बंद कर देगा, iterate संख्या वह संख्या है जो URL चर के प्रत्येक पुनरावृत्ति के लिए बढ़ जाएगी।
उदाहरण के लिए निम्न टेम्पलेट URL के लिए http://www.example.com/search?pageNo=
इसके बाद निम्नलिखित बीज URL बनाए जाएंगे:
URL एक URL को पैरामीटर के साथ निर्दिष्ट कर सकता है, उदाहरण के लिए लॉगिन फॉर्म भी। ऐसा करने के लिए लक्ष्य URL टेक्स्ट बॉक्स में फ़ॉर्म URL निर्दिष्ट करें और उपयोग करने के लिए आवश्यक पोस्ट पैरामीटर जोड़ें। चर चर मानों में विशेष GrabzIt चर भी शामिल हो सकते हैं, जैसे:
- दिन दो अंकों के मूल्य के रूप में
- दो अंकों के मूल्य के रूप में महीना
- चार अंकों के मूल्य के रूप में वर्ष
- दो अंकों के मूल्य के रूप में घंटा
- दो अंकों के मूल्य के रूप में मिनट
- दो अंकों के मूल्य के रूप में दूसरास्क्रेप निर्देश वेब स्क्रैपर को बताता है कि लक्ष्य वेबसाइट को स्क्रैप करते समय क्या कार्रवाई करनी है। स्क्रेप निर्देश टैब डिफ़ॉल्ट रूप से स्क्रैप विज़ार्ड को दिखाता है, जो आपके लिए आवश्यक स्क्रैप निर्देशों को जोड़ना आसान बनाता है। इस विज़ार्ड का उपयोग करने का एक अच्छा उदाहरण में दिखाया गया है उत्पाद सूची और विस्तार स्क्रैपिंग ट्यूटोरियल.
एक बार जब आप स्क्रैपिंग प्रेस शुरू करने के लिए तैयार हैं नया परिमार्जन निर्देश जोड़ें लिंक.
यह विज़ार्ड खोल देगा और स्वचालित रूप से लक्ष्य URL को लोड कर देगा, जिससे आप तुरंत चुन सकते हैं कि आप क्या स्क्रैप करना चाहते हैं। यदि कोई वेबपेज या पीडीएफ डॉक्यूमेंट लोड किया गया है, तो आप किसी भी लिंक पर क्लिक कर सकते हैं और यह अन्य वेबपेज के लिए नेविगेशन के लिए सामान्य रूप से कार्य करेगा। जब तक आप स्क्रीन के निचले भाग में, इस कविता में कोई एक क्रिया चुनते हैंint सामग्री पर कोई भी क्लिक उस HTML तत्व का चयन करेगा जिसे आप निकालना या हेरफेर करना चाहते हैं।
स्क्रैप निर्देशों के बारे में समझने वाली पहली बात यह है कि वे हर वेब पेज पर डिफ़ॉल्ट रूप से निष्पादित होते हैं। इसे रोकने का तरीका टेम्पलेट्स के उपयोग के माध्यम से है। एक टेम्पलेट पर कार्रवाई तब की जा सकती है जब कोई लिंक क्लिक करने जैसी क्रिया हो, और ताकि जब भी स्क्रैपर उस लिंक पर जाए या उस बटन पर क्लिक करे तो यह पहचान लेगा कि यह निर्धारित टेम्पलेट का है। यह विभिन्न पृष्ठ प्रकारों को परिभाषित करने की अनुमति देता है। उदाहरण के लिए, आपके पास एक उत्पाद श्रेणी पृष्ठ हो सकता है जिसमें कुछ अवलोकन जानकारी और फिर एक विस्तृत पृष्ठ होता है जिसमें उत्पाद जानकारी होती है। दोनों पृष्ठों को शायद अलग-अलग परिमार्जन निर्देशों की आवश्यकता होगी।
आरंभ करने के लिए चुनें क्लिक करें कार्रवाई, फिर एक बार जब आप उन वस्तुओं का चयन कर लेते हैं जिन पर आप कार्रवाई करना चाहते हैं और क्लिक करें आगामी बटन टेम्पलेट के नाम में दर्ज करें एक खाका बनाएँ टेक्स्ट बॉक्स अब जब भी स्क्रैपर इन क्रियाओं को अंजाम देगा, लौटाया गया टेम्पलेट आपके द्वारा प्रदत्त नाम होगा।
फिर एक विशेष टेम्प्लेट को स्क्रैप करने के लिए निर्दिष्ट करने के लिए आपको वांछित टेम्पलेट का चयन करने की आवश्यकता है में निष्पादित करें ड्रॉप डाउन सूची, जो विकल्प विंडो में दिखाई देती है जो स्क्रैप निर्देश को जोड़ने से ठीक पहले दिखाई देती है। टेम्प्लेट चुनते समय तीन मुख्य विकल्प इस प्रकार हैं:
एक बार जब आप इन विकल्पों में से एक का चयन कर लेते हैं, तो स्क्रैप अनुदेश केवल निर्दिष्ट टेम्पलेट पर निष्पादित किया जाएगा।
जब आप चुनेंगे तो आप देखेंगे डेटा निकालें कार्रवाई। स्क्रीन के निचले बाएं कोने में आपको या तो ऊपर विंडो में एक HTML तत्व का चयन करने या एक वैश्विक पृष्ठ संपत्ति चुनने के लिए आमंत्रित किया गया है।
वैश्विक पृष्ठ संपत्ति का उपयोग करने के लिए, पर क्लिक करें वैश्विक पृष्ठ संपत्ति संपर्क। फिर पुष्टि करें कि आप जारी रखना चाहते हैं। अब आपके पास उन संपत्तियों की एक सूची होगी, जिन्हें सीधे पृष्ठ से निकाला जा सकता है। उदाहरण के लिए: पेज शीर्षक।
किसी एक को चुनने के लिए, इसे विकल्पों की सूची से चुनें और क्लिक करें आगामी में डेटा जोड़ने के लिए डाटासेट.
यदि आप संबंधित HTML तत्वों पर क्लिक करने की आवश्यकता वाले संपूर्ण पृष्ठ से संबंधित विशिष्ट HTML तत्वों में डेटा निकालने की इच्छा रखते हैं, तो आप एकल या एकाधिक आइटम का चयन कर सकते हैं। हालाँकि, यदि आप कई आइटम्स का चयन कर रहे हैं, तो कृपया कोशिश करें और एक से अधिक आइटमों का चयन करें जो एक कॉलम में कई पंक्तियों जैसे हैं, क्योंकि यदि स्क्रैपर कोई नियम नहीं बना सकता है जो डेटा के चयनित संग्रह को विशिष्ट रूप से पहचान नहीं कर सकता है, तो कोई स्क्रैप निर्देश नहीं होगा बनने में सक्षम होना। इसके अलावा अगर आपके द्वारा क्लिक की जा रही कई वस्तुओं को हमारे वेब स्क्रैपर विज़ार्ड द्वारा डेटा को दोहराने के रूप में पहचाना गया है, तो उसी समूह के सभी डेटा को स्वचालित रूप से चुना जाएगा। एक बार जब आप अपने सभी एकल या एकाधिक आइटमों का चयन कर लेते हैं, तो स्क्रीन के नीचे बाईं ओर से निकालने के लिए एक विशेषता चुनें और फिर क्लिक करें आगामी.
डाटासेट स्क्रीन आपको यह बदलने की अनुमति देता है कि डेटा कैसे संसाधित किया जाता है, उदाहरण के लिए आप डेटासेट और उसके भीतर के कॉलम का नाम बदल सकते हैं, बस नाम बदलने के लिए उस पर क्लिक करें। जब आप किसी डेटासेट में एक कॉलम जोड़ते हैं, तो आपको उस टेम्पलेट को भी चुनना होगा जिसे इसे निष्पादित किया जाना चाहिए। आप कॉलम नाम के तहत स्थित ड्रॉप डाउन सूची पर क्लिक करके इसे बदल सकते हैं।
अक्सर डेटा निकालते समय, कुछ दोहराई जाने वाली वस्तुओं को असंगत रूप से दोहराना सामान्य है, यह सुनिश्चित करने के लिए कि सही पंक्तियाँ अभी भी एक दूसरे के उपयोग से जुड़ी हैं लिंक कॉलम मानदंड, असंगत स्तंभों को डेटासेट में सबसे सुसंगत स्तंभ से जोड़ने के लिए।
डेटासेट में अधिक डेटा जोड़ने के लिए पर क्लिक करें बटन, या क्लिक करें
डेटासेट से डेटा निकालने के लिए, या
संपूर्ण डेटासेट को हटाने के लिए। डेटासेट विभिन्न मापदंडों को डेटा पर लागू करने की अनुमति देता है, ऐसा करने के लिए ऊपर से वांछित कार्रवाई का चयन करें और फिर मापदंड लागू करने के लिए संबंधित कॉलम पर क्लिक करें। यदि आप एक मानदंड जोड़ने की गलती करते हैं तो बस क्लिक करें
बटन.
यहां विभिन्न मानदंडों के प्रकारों की सूची दी गई है और उनका उपयोग कैसे किया जाए:
जब आपने उपरोक्त ऑपरेशनों में से एक का चयन किया है, तो यदि यह कई कॉलमों को प्रभावित कर सकता है, तो यह आपसे पूछेगा कि क्या आप केवल कॉलम या उन सभी को प्रभावित करने की अनुमति देना चाहते हैं। ज्यादातर मामलों में आप चाहते हैं कि यह सभी स्तंभों को प्रभावित करे, लेकिन कुछ परिस्थितियों में यह स्तंभों को प्रभावित करने के लिए सीमित है। उदाहरण के लिए, यदि आप की एक श्रृंखला का चयन कर रहे हैं लेबल और मूल्य, जो वेब पेजों में स्थिति बदलते हैं, आप सभी लेबल और मान चुन सकते हैं। फिर डेटासेट में वांछित लेबल तक इसे सीमित करने के लिए समान संचालन का उपयोग करते हैं और निर्दिष्ट करते हैं कि केवल लेबल और मूल्य कॉलम प्रभावित होना चाहिए। यह सुनिश्चित करेगा कि अन्य कॉलम हटाए जा रहे पंक्तियों से अप्रभावित हैं, पूर्णता के लिए यह लेबल कॉलम को छिपाने के लिए उपयोगी होगा।
एक बार जब आप अपने इच्छित सब कुछ को संशोधित कर लेते हैं, तो क्लिक करें आगामी और, आपके स्क्रैप के निर्देशों को स्क्रैप में जोड़ा जाएगा। यदि आप चाहें तो आपके पास आगे स्क्रैप निर्देश जोड़ने का विकल्प है।
ड्रॉप-डाउन से मानों को क्लिक करने, टाइप करने और चयन करने से पहले एक वेबपेज को हेरफेर किया जा सकता है। यह याद रखना महत्वपूर्ण है कि भले ही यह नए वेबपेज को लोड करने के लिए कारण हो सकता है कि स्क्रैप निर्देशों को तब तक पुनरारंभ नहीं किया जाएगा जब तक कि सभी लागू स्क्रैप निर्देशों को निष्पादित नहीं किया जाता है।
वेबपृष्ठ में हेरफेर करने के लिए या तो चुनें तत्व पर क्लिक करें, होवर तत्व, स्क्रॉल, पाठ टाइप करे or ड्रॉप डाउन सूची मूल्य का चयन करें कार्रवाई। यदि आप एक क्लिक क्रिया कर रहे हैं तो आप किसी वेबपेज पर किसी भी तत्व पर क्लिक कर सकते हैं। अन्यथा आपको एक उपयुक्त HTML तत्व का चयन करना होगा, उदाहरण के लिए टेक्स्ट को टेक्स्ट बॉक्स में टाइप किया जाना चाहिए। तब दबायें आगामी। यह एक विकल्प बॉक्स खोलेगा जो आपको कार्रवाई पूरा करने की अनुमति देता है। पाठ टाइप करते समय और टाइप किए जाने या चुने जाने के लिए एक ड्रॉप डाउन से चयन करके क्रमशः चुना जाना चाहिए। इसके अलावा अन्य तीनों क्रियाओं के लिए विकल्प समान हैं।
यदि आप चाहें तो टेम्पलेट का चयन कर सकते हैं इस क्रिया को क्रियान्वित किया जाना चाहिए और क्लिक क्रिया पूरी होने पर, क्लिक क्रिया पूर्ण होने के बाद। हालांकि, एक क्लिक कार्रवाई के लिए एक नया टेम्पलेट असाइन करना जो एक ही पृष्ठ पर कई क्लिक करता है, यह एक अच्छा विचार नहीं है, जैसे कि इनलाइन पॉपअप खोलना या स्क्रीन पर चीजें दिखाना। ऐसा इसलिए है क्योंकि यदि क्लिक एक्शन केवल कुछ टेम्प्लेट्स पर ही लागू होता है, तो पहले क्लिक के द्वारा असाइन किया गया नया टेम्प्लेट रीसेट नहीं किया जाएगा और इसलिए इस बात पर निर्भर करता है कि यह कैसे लिखा गया था, उसी पेज पर भविष्य के क्लिक को निष्पादित होने से रोक सकता है। आप यह भी परिभाषित कर सकते हैं कि क्या आप चाहते हैं कि यह क्रिया केवल एक बार निष्पादित हो, जो उपयोगी है यदि आप लॉगिन की तरह कुछ कर रहे हैं intओ वेबसाइट।
टाइप टेक्स्ट या सेलेक्ट ड्रॉप डाउन लिस्ट वैल्यू एक्शन से आप टेक्स्ट के कई आइटम टाइप कर सकते हैं या क्रमशः कई चुनिंदा बॉक्स सिलेक्शन कर सकते हैं। इन्हें स्क्रैप निर्देशों पर क्लिक करके संपादित किया जा सकता है परिवर्तन या दृश्य चर बटन, जैसा कि स्क्रीनशॉट में बाईं ओर दिखाया गया है।
यह महत्वपूर्ण हो सकता है यदि आप उदाहरण के लिए किसी खोज बॉक्स में नामों की सूची लिखना चाहते हैं। यह सुनिश्चित करने के लिए कि कोई प्रपत्र केवल तभी सबमिट किया जाता है जब खोज बॉक्स में कोई मूल्य हो, प्रत्येक बार पाठ सफलतापूर्वक टाइप किए जाने पर एक टेम्पलेट सेट किया जा सकता है intजब तक यह टेम्प्लेट सेट नहीं होता तब तक टेक्स्ट पर ओ और बटन पर क्लिक करें। क्लिक कार्रवाई के बाद टेम्प्लेट किया जाता है फिर प्रक्रिया को रीसेट करने के लिए इसे कुछ और में बदलना होगा।
वेबसाइटों में हेरफेर करने वाली कार्रवाइयों के बाद, थोड़ी देर के लिए इंतजार करना उपयोगी होता है अगर कार्रवाई AJAX की कार्यक्षमता शुरू करती है, तो स्क्रैप के साथ जारी रखने से पहले AJAX सामग्री को लोड करने की अनुमति देता है। आप इसमें देरी जोड़कर कर सकते हैं निष्पादन के बाद प्रतीक्षा करें पाठ बॉक्स।
कुछ शर्त पूरी होने पर आप सीधे एक अलग URL पर जा सकते हैं। ऐसा करने के लिए उपयोग करें URL पर जाएं कार्रवाई, जो केवल तब दिखाई देगी जब कम से कम एक टेम्पलेट को परिमार्जन में परिभाषित किया गया हो और जब बनाया जाए तो उसे एक टेम्पलेट को सौंपा जाना चाहिए, ताकि अनंत छोरों से बचने में मदद मिल सके।
अंत में आप अपने वेब स्क्रेप में GrabzIt के कैप्चर एपीआई के सभी का उपयोग कर सकते हैं, बस कैप्चर वेबपेज एक्शन चुनें, और अपनी इच्छित कैप्चर चुनें। आप एक बार चयन करने के लिए टेम्पलेट को निर्दिष्ट करके स्क्रैप के भीतर कुछ वेब पृष्ठों को पकड़ने के लिए इसे सीमित कर सकते हैं आगामी बटन.
प्रत्येक परिमार्जन निर्देश को जोड़ने के बाद इसे परिमार्जन निर्देश पैनल में देखा जा सकता है, प्रत्येक परिमार्जन अनुदेश के आगे का क्रॉस परिमार्जन निर्देश को हटाने की अनुमति देता है। यदि कोई स्क्रैप निर्देश हटा दिया जाता है जो अन्य स्क्रैप निर्देशों द्वारा आवश्यक होता है तो वे निर्देश भी हटा दिए जाते हैं। आप हड़पने के आइकन के साथ किसी भी स्क्रैप निर्देश को खींचकर स्क्रैप के निर्देशों का क्रम बदल सकते हैं।
यदि आपको स्क्रैप निर्देशों को अधिक विशिष्ट तरीके से अनुकूलित करने की आवश्यकता है, तो आपको मैन्युअल रूप से स्क्रैप निर्देशों को बदलना होगा।
परिमार्जन निर्देश जावास्क्रिप्ट आधारित होते हैं और कोड संपादक एक सिंटैक्स चेकर, ऑटो-कम्प्लीट और टूलटिप के साथ पूरा होता है ताकि यह जितना संभव हो उतना आसान हो सके।
कोड संपादक की मुख्य कार्यक्षमता मेनू विकल्पों के माध्यम से सुलभ है, जैसा कि स्क्रीनशॉट में दिखाया गया है, प्रत्येक का उद्देश्य नीचे अलग से बताया गया है। जबकि आपके स्क्रैप निर्देशों में कोई भी वाक्यविन्यास त्रुटियां कोड संपादक के बाएं हाथ के गटर में इंगित की जाती हैं।
विज़ार्ड आपको पृष्ठ के कुछ हिस्सों का चयन करने की अनुमति देता है जिन्हें आप निकालने के लिए चाहते हैं और अन्य सामान्य कार्य जैसे वेब कैप्चर बनाते हैं।
उपयोगकर्ता को परिमार्जन निर्देश कोड प्रदर्शित करता है।
सभी स्क्रैप निर्देशों को हटाता है।
पेज कीवर्ड दर्ज करेंगे into परिमार्जन निर्देश और ऑटो-पूर्ण खोलें, जिसमें सभी संभव हैं पृष्ठ कार्य। पृष्ठ फ़ंक्शंस आपको वेब पेज से डेटा निकालने की अनुमति देता है।
डेटा कीवर्ड दर्ज करेगा into परिमार्जन निर्देश। डेटा फ़ंक्शन आपको अनुमति देता है save जानकारी.
नेविगेशन कीवर्ड दर्ज करता है into कोड संपादक। नेविगेशन कार्य आपको यह नियंत्रित करने की अनुमति देता है कि वेब स्क्रैपर लक्ष्य वेबसाइट को कैसे नेविगेट करता है।
ग्लोबल कीवर्ड दर्ज करता है into परिमार्जन निर्देश। इससे आपको एक्सेस मिलता है कार्यों जो विभिन्न वेब पेजों को पार्स करने के बीच डेटा स्टोर कर सकता है। स्क्रैप निर्देशों को लिखते समय यह याद रखना महत्वपूर्ण है कि स्क्रैप निर्देशों में जावास्क्रिप्ट चर की स्थिति तब नहीं रखी जाती है जब स्क्रैपर वेबपेजों के बीच चलता है, जब तक आप ग्लोबल फ़ंक्शन का उपयोग नहीं करते हैं save चर, जैसा कि नीचे दिखाया गया है।
Global.set("myvariable", "hello"); var mrvar = Global.get("myvariable");
एक वैश्विक वैरिएबल पास बनाने के लिए Global.set पद्धति में जारी पैरामीटर के लिए सही है, जैसा कि नीचे दिखाया गया है।
Global.set("myvariable", "hello", true);
उपयोगिता कीवर्ड दर्ज करता है into परिमार्जन निर्देश। यह आपको उपयोग करने की अनुमति देता है सामान्य कार्य जो लिखना आसान बनाते हैं, जैसे क्वेरी जोड़ना या निकालनाstring URLs से पैरामीटर।
मानदंड कीवर्ड दर्ज करता है into परिमार्जन निर्देश। इन कार्यों आपको अपने स्क्रैप के दौरान निकाले गए डेटा को परिष्कृत करने की अनुमति देता है, जैसे डुप्लिकेट को समाप्त करना।
आपको आसानी से एक फ़िल्टर बनाने की अनुमति देता है, कुछ कार्यों के लिए एक वेब पेज के भीतर से किसी विशेष HTML तत्व का चयन करना आवश्यक है। बस उन विशेषताओं का चयन करें जो आपके लक्षित तत्व के पास होनी चाहिए और / या उस तत्व के माता-पिता को उस तत्व का चयन करना चाहिए। सुनिश्चित करें कि इस विकल्प पर क्लिक करने से पहले आपका कर्सर फिल्टर पास करने के लिए फ़ंक्शन में सही जगह पर है।
आपको स्क्रीनशॉट विकल्प सेट करने की अनुमति देता है। फ़ंक्शन के सही हिस्से में कर्सर रखें, जैसा कि टूलटिप द्वारा पहचाना गया है और स्क्रीनशॉट विकल्प दबाएं। फिर अपनी इच्छानुसार सभी विकल्प चुनें और कमांड डालें।
Strings का उपयोग स्क्रैप के निर्देशों में किया जाता है, जब टेक्स्ट को परिभाषित करने के लिए, वेब स्क्रैप का प्रदर्शन किया जाता है। ए string डबल द्वारा सीमांकित किया गया है ("
) या एकल उद्धरण ('
)। यदि एक string एक दोहरे उद्धरण के साथ शुरू किया जाता है, यदि यह एक दोहरे उद्धरण के साथ समाप्त होना चाहिए, यदि ए string एक उद्धरण के साथ शुरू होता है यह एक एकल उद्धरण के साथ समाप्त होना चाहिए। उदाहरण के लिए:
"my-class"
और 'my-class'
एक सामान्य त्रुटि जो हो सकती है, वह है string त्रुटि, यह तब है जब ए string जैसा कि ऊपर दिखाया गया है एक समापन उद्धरण नहीं है या में एक लाइन ब्रेक है string। निम्नलिखित अवैध हैं strings:
"my
class"
"my class
इस त्रुटि को ठीक करने के लिए यह सुनिश्चित करना है कि उनमें लाइन ब्रेक न हों और मेल खाने वाले उद्धरण हों, जैसे:
"my class"
और "my class"
कभी-कभी आप चाहते हैं कि कोई एकल या दोहरा उद्धरण प्रकट हो string। ऐसा करने का सबसे आसान तरीका है कि आप किसी एक उद्धरण को एक में डाल दें string डबल उद्धरण और एक डबल उद्धरण के साथ सीमांकित string एकल उद्धरण के साथ सीमांकित, जैसे:
"Bob's shop"
और '"The best store on the web"'
वैकल्पिक रूप से आप किसी बोली से बचने के लिए बैकस्लैश का उपयोग कर सकते हैं:
'test\'s'
जब वेब स्क्रैपर PDF, XML, JSON और RSS के पार आता है, तो वह इसे एक HTML सन्निकटन में बदल देगा, जो हमारे वेब स्क्रैपर को सही तरीके से पार्स करने की अनुमति देता है और आप वह सामग्री चुन सकते हैं जिसे आप निकालना चाहते हैं। उदाहरण के लिए, यदि आप JSON डेटा पार्स करना चाहते हैं तो यह डेटा को रूपांतरित कर देगा into hierarchal एचटीएमएल प्रतिनिधित्व जैसा कि पक्ष में दिखाया गया है। यह आपको सामान्य के रूप में परिमार्जन निर्देश बनाने की अनुमति देता है।
इसी तरह से जब स्क्रैपर एक पीडीएफ डॉक्यूमेंट लोड करता है, तो पीडीएफ कन्वर्ट हो जाता है into HTML छवियों, हाइपरलिंक, पाठ और तालिकाओं को चुनने और स्क्रैप करने की अनुमति देने के लिए। हालाँकि, PDF में कोई वास्तविक संरचना नहीं होती है, फिर भी तालिकाएँ हेट्रिस्टिक्स का उपयोग करके पहचानी जाती हैं और इसलिए हमेशा सटीक नहीं होती हैं।
यह टैब आपको यह चुनने की अनुमति देता है कि आप एक्सेल स्प्रेडशीट, एक्सएमएल, जेएसएन, सीएसवी, एसक्यूएल कमांड या एचटीएमएल दस्तावेजों सहित अपने परिणामों को कैसे निर्यात करना चाहते हैं। इसके अतिरिक्त, यह टैब ज़िपित परिमार्जन परिणामों के नाम को सेट करने की अनुमति देता है। यदि आप केवल फाइल डाउनलोड कर रहे हैं या वेब कैप्चर बना रहे हैं, तो निर्यात विकल्प चुनने की कोई आवश्यकता नहीं है क्योंकि आपको परिणाम प्राप्त करने वाली ज़िप फ़ाइल प्राप्त होगी। यह टैब आपको यह भी निर्दिष्ट करने की अनुमति देता है कि आप परिणाम कैसे भेजना चाहते हैं। आप के माध्यम से परिणाम भेज सकते हैं अमेज़न S3, ड्रॉपबॉक्स, ई - मेल अधिसूचना, FTP और WebDAV.
अंतिम विकल्प एक कॉलबैक URL है, जो हमारे आवेदन का उपयोग करके परिमार्जन परिणामों को आपके आवेदन में संसाधित करने की अनुमति देता है परिमार्जन एपीआई.
ज़िप किए गए परिणाम या प्रत्येक डेटा फ़ाइल का फ़ाइल नाम यदि आप उन्हें अलग से भेजने का अनुरोध करते हैं, तो डिफ़ॉल्ट फ़ाइल नाम विकल्प को अनचेक करके और अपना वांछित फ़ाइल नाम सेट करके सेट किया जा सकता है। इसके अतिरिक्त, एक टाइमस्टैम्प डालकर आपके फ़ाइलनाम में जोड़ा जा सकता है {GrabzIt_Timestamp_UTC+1}
फ़ाइल नाम में। +1 UTC से घंटों में ऑफ़सेट को दर्शाता है।
आप क्लिक करके स्क्रैप के परिणाम भी देख सकते हैं परिणाम देखें बटन, के बगल में आपका परिमार्जन, यह किसी भी वास्तविक समय परिमार्जन परिणाम दिखाएगा, साथ ही पिछले 48 घंटों के भीतर पिछले किए गए।
वेब स्क्रैप बनाते समय शेड्यूल स्क्रैप टैब आपको यह निर्धारित करने की अनुमति देता है कि आप कब स्क्रैप शुरू करना चाहते हैं और यदि आप इसे दोहराना चाहते हैं, तो इसे कितनी बार करना चाहिए।
एक बार वेब स्क्रैप शुरू होने के बाद स्टेटस आइकन बदल जाएगा और संसाधित पृष्ठ समय के साथ बढ़ना शुरू हो जाएंगे। स्क्रैप की प्रगति का एक वास्तविक समय स्नैपशॉट नियमित रूप से एक लॉग फ़ाइल के साथ उत्पन्न होता है जिसमें पिछले वेब पेज के नियमित स्क्रीनशॉट के साथ स्क्रैपर का सामना करना पड़ता है। यह आपको यह देखने की अनुमति देता है कि परिमार्जन के दौरान क्या हो रहा है। इस जानकारी को खोजने के लिए, अपने स्क्रेप के बगल में विस्तृत आइकन पर क्लिक करें और क्लिक करें दर्शक परिमार्जन के लिए आप हैं intइसमें मिटाया गया है। यदि आपके परिमार्जन के निर्देशों में कोई समस्या हो तो यह विस्तृत होना चाहिए।
एक बार परिमार्जन सफलतापूर्वक पूरा हो जाने के बाद स्थिति आइकन स्विच हो जाएगा , अगर व्यूअर को खोलने से कोई परिणाम नहीं होता है तो लॉग और अंतिम स्क्रीनशॉट आपको बता सकता है कि क्या गलत हुआ।
लॉग में बताई गई सबसे आम समस्याओं में से एक यह है कि पेज को खुरचने के लिए पर्याप्त रेंडरिंग देरी नहीं है, अक्सर इसमें थोड़ी वृद्धि होती है पेज लोड देरी में पाया गया परिमार्जन विकल्प टैब अधिकांश वेबसाइटों के लिए पर्याप्त है।