सेमल्ट वेबसाइट्स से सूचना निकालने का एक आसान तरीका साझा करता है

वेब स्क्रैपिंग वेबसाइटों से सामग्री प्राप्त करने का एक लोकप्रिय तरीका है। एक विशेष रूप से क्रमादेशित एल्गोरिथ्म साइट के मुख्य पृष्ठ पर आता है और आपके द्वारा निर्दिष्ट divs के अंदरूनी हिस्सों को इकट्ठा करते हुए सभी आंतरिक लिंक का पालन करना शुरू करता है। परिणामस्वरूप - तैयार CSV फ़ाइल जिसमें सभी आवश्यक जानकारी एक सख्त क्रम में पड़ी हैं। परिणामी CSV का उपयोग भविष्य के लिए लगभग अद्वितीय सामग्री बनाने के लिए किया जा सकता है। और सामान्य तौर पर, एक तालिका के रूप में, ऐसा डेटा बहुत मूल्य का है। कल्पना करें कि एक निर्माण दुकान की पूरी उत्पाद सूची एक तालिका में प्रस्तुत की गई है। इसके अलावा, प्रत्येक उत्पाद के लिए, उत्पाद के प्रत्येक प्रकार और ब्रांड के लिए, सभी फ़ील्ड और विशेषताएँ भरी हुई हैं। ऑनलाइन स्टोर के लिए काम करने वाले किसी भी कॉपीराइटर को ऐसी CSV फाइल करने में खुशी होगी।

वेबसाइटों या वेब स्क्रैपिंग से डेटा निकालने के लिए बहुत सारे उपकरण हैं और चिंता न करें यदि आप किसी भी प्रोग्रामिंग भाषाओं से परिचित नहीं हैं, तो इस लेख में मैं सबसे आसान तरीकों में से एक दिखाऊंगा - स्क्रैपिंगहब का उपयोग करना।

सबसे पहले, scrapinghub.com पर जाएं, पंजीकरण करें, और लॉगिन करें।

आपके संगठन के बारे में अगला चरण बस छोड़ दिया जा सकता है।

फिर आप अपनी प्रोफाइल पर पहुंचें। आपको एक प्रोजेक्ट बनाने की आवश्यकता है।

यहां आपको एक एल्गोरिथ्म चुनने की आवश्यकता है (हम एल्गोरिथम "पोर्टिया" का उपयोग करेंगे) और परियोजना को एक नाम दें। चलो इसे किसी तरह असामान्य कहते हैं। उदाहरण के लिए, "111"।

अब हम एल्गोरिथ्म के कामकाजी स्थान पर पहुँचते हैं जहाँ आपको उस वेबसाइट का URL टाइप करना होता है जिससे आप डेटा निकालना चाहते हैं। फिर "न्यू स्पाइडर" पर क्लिक करें।

हम उस पृष्ठ पर जाएंगे जो एक उदाहरण के रूप में काम करने वाला है। पता हैडर में अपडेट किया गया है। "एनोटेट दिस पेज" पर क्लिक करें।

अपने माउस कर्सर को दाईं ओर ले जाएं जिससे मेनू दिखाई दे। यहां हम "निकाले गए आइटम" टैब में रुचि रखते हैं, जहां आपको "आइटम संपादित करें" पर क्लिक करने की आवश्यकता है।

फिर भी हमारे खेतों की खाली सूची प्रदर्शित होती है। "+ फ़ील्ड" पर क्लिक करें।

यहां सब कुछ सरल है: आपको फ़ील्ड की एक सूची बनाने की आवश्यकता है। प्रत्येक आइटम के लिए, आपको एक नाम दर्ज करने की आवश्यकता है (इस मामले में, एक शीर्षक और सामग्री), निर्दिष्ट करें कि क्या यह फ़ील्ड आवश्यक है ("आवश्यक") और क्या यह भिन्न हो सकता है ("वैरी")। यदि आप निर्दिष्ट करते हैं कि एक आइटम "आवश्यक" है, तो एल्गोरिथ्म केवल उन पृष्ठों को छोड़ देगा जहां यह इस फ़ील्ड को भरने में सक्षम नहीं होगा। यदि ध्वजांकित नहीं है, तो प्रक्रिया हमेशा के लिए रह सकती है।

अब बस उस फ़ील्ड पर क्लिक करें जिसकी हमें आवश्यकता है और यह इंगित करें कि यह क्या है:

किया हुआ? फिर वेबसाइट के हेडर में "सेव सैंपल" पर क्लिक करें। उसके बाद, आप काम की जगह पर लौट सकते हैं। अब एल्गोरिथ्म जानता है कि कुछ कैसे प्राप्त किया जाए, हमें इसके लिए एक कार्य निर्धारित करने की आवश्यकता है। ऐसा करने के लिए, "परिवर्तन बदलें" पर क्लिक करें।

टास्क बोर्ड पर जाएं, "रन स्पाइडर" पर क्लिक करें। वेबसाइट, प्राथमिकता चुनें और "रन" पर क्लिक करें।

खैर, स्क्रैपिंग अब प्रक्रिया में है। भेजे गए अनुरोधों की संख्या पर आपके कर्सर को इंगित करके इसकी गति दिखाई गई है:

CSV में तैयार तार प्राप्त करने की गति - एक और संख्या की ओर इशारा करते हुए।

पहले से बनी वस्तुओं की सूची देखने के लिए बस इस नंबर पर क्लिक करें। आपको कुछ ऐसा ही दिखाई देगा:

जब यह पूरा हो जाए, तो इस बटन पर क्लिक करके परिणाम को बचाया जा सकता है:

बस! अब आप प्रोग्रामिंग में किसी भी अनुभव के बिना वेबसाइटों से जानकारी निकाल सकते हैं।