Back to Question Center
0

यूमरेटर पर नमस्ते सचित्र - बहुत ही कूल वेब स्क्रैपिंग और डाटा एक्सट्रैक्शन टूल

1 answers:

यूमरेटर एक नया लेकिन प्रभावी वेब स्क्रैपिंग और डेटा निष्कर्षण टूल है। यूआरएलरटर का उपयोग करने के लिए, आपको उन सभी यूआरएल की एक सूची भी शामिल करनी होगी जिनकी सामग्री आपको दी गई टेम्प्लेट में ऑनलाइन परिमार्जन करना है। फिर आपको उस HTML तत्व को निर्दिष्ट करने की आवश्यकता है जिसे आप वेबपेज से निकालना चाहते हैं और सबमिट बटन पर क्लिक करें। यह बेहद आसान है। इस उपकरण के साथ, आपको अब कॉपी या ब्राउज़र से पेस्ट करने की आवश्यकता नहीं है।

एक्सपाथ एक ऐसी भाषा है जिसका इस्तेमाल एक्सएमएल फाइलों में जानकारी के लिए किया जाता है। यह एक्सएमएल फाइलों में नोड-सेट या नोड्स को चुनने के लिए कुछ अभिव्यक्ति का उपयोग करता है। एक्सपाथ समझने वाले भाव सामान्य कंप्यूटर फ़ाइलों या दस्तावेज़ों के साथ उपयोग किए जाने वाले समान हैं

हालांकि XPath कई प्रोग्रामिंग भाषाओं के साथ प्रयोग किया जाता है, यह उपकरण उन उपयोगकर्ताओं के लिए बनाया गया है जिनके पास कोई प्रोग्रामिंग ज्ञान नहीं है। इसलिए, आपको इसका उपयोग करने के लिए प्रोग्रामर होने की आवश्यकता नहीं है। इस उपकरण के साथ, आप कई एचटीएमएल और एक्सएमएल पृष्ठों से डेटा निकाल सकते हैं।

उपयोग की सादगी के लिए, अक्सर कई बार इस्तेमाल किए गए XPath अभिव्यक्ति को एक ड्रॉप-डाउन मेनू में पूर्वनिर्धारित किया गया है ताकि उपयोगकर्ताओं को उनके उद्देश्य के आधार पर उनमें से किसी को भी चुनना होगा। हालांकि, एक्सपाथ के अत्यधिक अनुभवी उपयोगकर्ताओं को जब भी चाहें अपने कस्टम अभिव्यक्ति का उपयोग करने की स्वतंत्रता होती है।.

उपकरण एक स्क्रैपिंग सत्र में 100 यूआरएल की क्षमता के साथ तैयार किया गया है, और इसे एक बार में अधिकतम 10 एक्सप्रेशन लेता है। दूसरे शब्दों में, यह एक समय में अधिकतम 100 यूआरऍल से डेटा स्क्रैप कर सकता है।

कुछ महत्वपूर्ण XPath कस्टम अभिव्यक्तियाँ जिन्हें संशोधित या जोड़ा जा सकता है, उन्हें सही नीचे दिया गया है:

1. // div [2] (2 9) - यह अभिव्यक्ति पदानुक्रमित दूसरे div का चयन करता है;

2. // लिंक [@ rel = 'canonical'] / @ href - यह अभिव्यक्ति उस टैग का स्थान (रेफरी) का चयन करता है जिसका इस्तेमाल कैनोनिकल के बराबर रिलेट एट्रिब्यूट सेट करें;

3. / html / सिर / मेटा [@ नाम = 'विवरण'] / @ सामग्री (2 9) - यह अभिव्यक्ति सामग्री का चयन करने के लिए प्रयोग की जाती है;

4. // * [@ वर्ग = 'वर्ग-नाम'] (2 9) - आप 'वर्ग-नाम' के साथ सभी तत्वों को चुनने के लिए इस अभिव्यक्ति का उपयोग कर सकते हैं सीएसएस वर्ग;

5. // एच 2 | // शीर्षक - यह अभिव्यक्ति का उपयोग पहले H2 और पृष्ठ शीर्षक दोनों को चुनने के लिए किया जा सकता है;

6. // * [नाम

= 'एच 1' या नाम

= 'शीर्षक'] (2 9) - यह अभिव्यक्ति ऊपर की तरह ठीक काम करती है। हालांकि, ऊपर प्रस्तुत अभिव्यक्ति बेहतर है क्योंकि यह छोटा है;

7. // * ((वर्ग, 'अंगूठे')] - यह अभिव्यक्ति प्रत्येक तत्व का चयन करता है जिसमें सीएसएस वर्ग होता है और इसमें 'अंगूठे' निष्कर्षण के लिए;

8. माता-पिता :: * [text

= 'वेलकम'] (2 9) - यह अभिव्यक्ति किसी भी तत्व के अभिभावक का चयन करती है जिसमें पाठ 'स्वागत है ';

यह उपकरण बीटा संस्करण है और अभी भी कुछ त्रुटियों के साथ काम कर सकता है। हालांकि, यह अभी भी बहुत कम या कोई प्रोग्रामिंग ज्ञान रखने वाले उपयोगकर्ताओं के लिए एक महान उपकरण नहीं है क्योंकि सभी बार इस्तेमाल किए जाने वाले एक्सप्रेशन को पहले से वर्णित मेनू में पूर्वनिर्धारित किया गया है।

4 days ago
यूमरेटर पर नमस्ते सचित्र - बहुत ही कूल वेब स्क्रैपिंग और डाटा एक्सट्रैक्शन टूल
Reply