वेब पर कब्जा और परिवर्तित करने के लिए उपकरण

पीडीएफ दस्तावेजों से डेटा निकालना

पीडीएफ दस्तावेजों की सामग्री से डेटा स्क्रैप करना एचटीएमएल दस्तावेजों से ऐसा करने में उतना लचीला नहीं है, हालांकि अभी भी कई तरीके हैं जिनका उपयोग करके इसे प्राप्त किया जा सकता है GrabzIt के वेब खुरचनी। पीडीएफ सामग्री को खुरचने के लिए सबसे पहले आप इसका इस्तेमाल करते हैं PDF के बजाय कार्य करता है Page फ़ंक्शंस लेकिन अन्यथा फ़ंक्शंस आम तौर पर उसी तरह से काम करते हैं।

PDF डॉक्यूमेंट के लिए एक फ़िल्टर उससे कहीं अधिक सरल है, एक HTML डॉक्यूमेंट के लिए सबसे पहले आपको यह निर्दिष्ट करना होगा कि आप किस प्रकार की सामग्री को निकालना चाहते हैं: लिंक, चित्र या पाठ।

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

लिंक और छवियों के लिए आप अपनी स्थिति निर्दिष्ट करके किस छवि या लिंक को वापस कर सकते हैं।

PDF.getValue({"type":"image","position":"2"});

दस्तावेज़ में दूसरी छवि प्राप्त करता है। पाठ, चित्र और लिंक के लिए आप पृष्ठ संख्या निर्दिष्ट करके लौटाए गए डेटा को और प्रतिबंधित कर सकते हैं।

PDF.getValue({"type":"image","position":"2","page":"5"});

यह पांचवें पृष्ठ से दूसरी छवि लौटाएगा। पाठ पंक्ति संख्या के अतिरिक्त विकल्प के साथ आता है, हालाँकि पाठ स्थिति का समर्थन नहीं करता है।

PDF.getValue({"type":"text","page":"5","line":"10"});

इसे पांचवें पृष्ठ से दसवीं पंक्ति का पाठ मिलता है। इन फ़िल्टर विकल्प के अलावा PDF दस्तावेज़ों से डेटा खुरचने का अंतर बहुत समान तरीके से काम करता है HTML डॉक्यूमेंट्स का डेटा स्क्रैप करनाहालाँकि, क्योंकि आप एक पीडीएफ फ़िल्टर के साथ जो आप निकालते हैं, उसके लिए आप उतने विशिष्ट नहीं हो सकते, जितना आपको निर्दिष्ट करने की आवश्यकता हो सकती है पैटर्न पाठ से सही जानकारी निकालने के लिए।