सामान्य लिखित पाठ में बहुत सारी जानकारी शामिल हो सकती है जो आसानी से निकालने योग्य नहीं है। उदाहरण के लिए एक वाक्य शायद एक कंपनी के बारे में एक समीक्षा है लेकिन आप कैसे जानते हैं कि यह अच्छी या बुरी समीक्षा है?
एक सामान्य वेब स्क्रैपर इस जानकारी को निकालने में सक्षम नहीं होगा। हालांकि GrabzIt यह प्राकृतिक भाषा प्रसंस्करण क्षमताओं में बनाया गया है का उपयोग करके कर सकते हैं। जैसा कि नीचे दिए गए उदाहरण में दिखाया गया है, पृष्ठ पाठ का विश्लेषण किया गया है और निम्न मानों में से एक को बहुत नकारात्मक, नकारात्मक, तटस्थ, सकारात्मक और बहुत सकारात्मक लौटाता है।
Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');
हालांकि GrabzIt के वेब खुरचनी भाषा का पता लगाने, स्थानों के नाम, लोगों के नाम और संगठनों के नाम सहित पाठ से बहुत अधिक निकाल सकते हैं। जिसका उदाहरण नीचे दिखाया गया है।
//Language Detection Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language'); //Identify Geographic Locations Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations'); //Identify People's Names Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names'); //Identify Organizations Names Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');
आपको इन परिमार्जन निर्देशों में से कोई भी लिखने की आवश्यकता नहीं है, क्योंकि जब आप हमारे स्क्रैपर विज़ार्ड में लागू HTML तत्व का चयन करते हैं तो वे स्वतः दिखाई देंगे।