पीडीएफ दस्तावेजों की सामग्री से डेटा स्क्रैप करना एचटीएमएल दस्तावेजों से ऐसा करने में उतना लचीला नहीं है, हालांकि अभी भी कई तरीके हैं जिनका उपयोग करके इसे प्राप्त किया जा सकता है GrabzIt के वेब खुरचनी। पीडीएफ सामग्री को खुरचने के लिए सबसे पहले आप इसका इस्तेमाल करते हैं PDF
के बजाय कार्य करता है Page
फ़ंक्शंस लेकिन अन्यथा फ़ंक्शंस आम तौर पर उसी तरह से काम करते हैं।
PDF डॉक्यूमेंट के लिए एक फ़िल्टर उससे कहीं अधिक सरल है, एक HTML डॉक्यूमेंट के लिए सबसे पहले आपको यह निर्दिष्ट करना होगा कि आप किस प्रकार की सामग्री को निकालना चाहते हैं: लिंक, चित्र या पाठ।
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
लिंक और छवियों के लिए आप अपनी स्थिति निर्दिष्ट करके किस छवि या लिंक को वापस कर सकते हैं।
PDF.getValue({"type":"image","position":"2"});
दस्तावेज़ में दूसरी छवि प्राप्त करता है। पाठ, चित्र और लिंक के लिए आप पृष्ठ संख्या निर्दिष्ट करके लौटाए गए डेटा को और प्रतिबंधित कर सकते हैं।
PDF.getValue({"type":"image","position":"2","page":"5"});
यह पांचवें पृष्ठ से दूसरी छवि लौटाएगा। पाठ पंक्ति संख्या के अतिरिक्त विकल्प के साथ आता है, हालाँकि पाठ स्थिति का समर्थन नहीं करता है।
PDF.getValue({"type":"text","page":"5","line":"10"});
इसे पांचवें पृष्ठ से दसवीं पंक्ति का पाठ मिलता है। इन फ़िल्टर विकल्प के अलावा PDF दस्तावेज़ों से डेटा खुरचने का अंतर बहुत समान तरीके से काम करता है HTML डॉक्यूमेंट्स का डेटा स्क्रैप करनाहालाँकि, क्योंकि आप एक पीडीएफ फ़िल्टर के साथ जो आप निकालते हैं, उसके लिए आप उतने विशिष्ट नहीं हो सकते, जितना आपको निर्दिष्ट करने की आवश्यकता हो सकती है पैटर्न पाठ से सही जानकारी निकालने के लिए।