वेब पर कब्जा और परिवर्तित करने के लिए उपकरण

असंरचित पाठ से संरचित जानकारी को स्वचालित रूप से कैसे निकालें?

सामान्य लिखित पाठ में बहुत सारी जानकारी शामिल हो सकती है जो आसानी से निकालने योग्य नहीं है। उदाहरण के लिए एक वाक्य शायद एक कंपनी के बारे में एक समीक्षा है लेकिन आप कैसे जानते हैं कि यह अच्छी या बुरी समीक्षा है?

एक सामान्य वेब स्क्रैपर इस जानकारी को निकालने में सक्षम नहीं होगा। हालांकि GrabzIt यह प्राकृतिक भाषा प्रसंस्करण क्षमताओं में बनाया गया है का उपयोग करके कर सकते हैं। जैसा कि नीचे दिए गए उदाहरण में दिखाया गया है, पृष्ठ पाठ का विश्लेषण किया गया है और निम्न मानों में से एक को बहुत नकारात्मक, नकारात्मक, तटस्थ, सकारात्मक और बहुत सकारात्मक लौटाता है।

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

हालांकि GrabzIt के वेब खुरचनी भाषा का पता लगाने, स्थानों के नाम, लोगों के नाम और संगठनों के नाम सहित पाठ से बहुत अधिक निकाल सकते हैं। जिसका उदाहरण नीचे दिखाया गया है।

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

आपको इन परिमार्जन निर्देशों में से कोई भी लिखने की आवश्यकता नहीं है, क्योंकि जब आप हमारे स्क्रैपर विज़ार्ड में लागू HTML तत्व का चयन करते हैं तो वे स्वतः दिखाई देंगे।