يقترح Semalt 5 خطوات لكشط صفحات الويب

Scrapy هو مصدر مفتوح وإطار عمل لاستخراج المعلومات من موقع الويب المختلف. يستخدم واجهات برمجة التطبيقات وهو مكتوب بلغة Python. Scrapy تتم صيانته حاليًا بواسطة شركة كشط على الويب تسمى Scrapinghub Ltd.

إنه برنامج تعليمي بسيط حول كيفية كتابة زاحف الويب باستخدام Scrapy ، تحليل Craigslist وتخزين المعلومات بتنسيق CSV. الخطوات الخمس الرئيسية لهذا البرنامج التعليمي مذكورة أدناه:

1. إنشاء مشروع Scrapy جديد

2. اكتب عنكبوتًا للزحف إلى موقع ويب واستخراج البيانات

3. تصدير البيانات المسروقة باستخدام سطر الأوامر

4. تغيير العنكبوت لمتابعة الروابط

5. استخدام الحجج العنكبوتية

1. إنشاء مشروع

الخطوة الأولى هي إنشاء مشروع. سيكون عليك تنزيل وتثبيت Scrapy. في شريط البحث الخاص به ، يجب عليك إدخال اسم الدليل حيث تريد تخزين البيانات. يستخدم Scrapy عناكب مختلفة لاستخراج المعلومات ، وتقوم هذه العناكب بتقديم طلبات أولية لإنشاء أدلة. لتشغيل العنكبوت ، تحتاج إلى زيارة قائمة الدلائل وإدراج رمز معين هناك. راقب الملفات الموجودة في الدليل الحالي ولاحظ ملفين جديدين: quotes-a.html و quotes-b.html.

2. اكتب عنكبوتًا للزحف إلى موقع ويب واستخراج البيانات:

أفضل طريقة لكتابة عنكبوت واستخراج البيانات هي إنشاء محددات مختلفة في غلاف Scrapy. يجب عليك دائمًا تضمين عناوين URL بين علامتي اقتباس ؛ خلاف ذلك ، سيغير Scrapy طبيعة أو أسماء عناوين URL هذه على الفور. يجب عليك استخدام علامات اقتباس مزدوجة حول عنوان URL لكتابة عنكبوت بشكل مناسب. يجب عليك استخدام text.fract () وتجنب خطأ الفهرس.

3. تصدير البيانات المسروقة باستخدام سطر الأوامر:

من المهم تصدير البيانات المسحوبة باستخدام سطر الأوامر. إذا لم تقم بتصديره ، فلن تحصل على نتائج دقيقة. سيقوم العنكبوت بإنشاء أدلة مختلفة تحتوي على معلومات مفيدة. يجب عليك استخدام الكلمات الأساسية الخاصة بـ Python لتصدير هذه المعلومات بطريقة أفضل. من الممكن استيراد البيانات إلى ملفات JSON. ملفات JSON مفيدة للمبرمجين. أدوات مثل JQ تساعد على تصدير البيانات المسحوبة دون أي مشكلة.

4. تغيير العنكبوت لمتابعة الروابط:

في المشاريع الصغيرة ، يمكنك تغيير العناكب لمتابعة الروابط بشكل مناسب. ولكن هذا ليس ضروريًا مع مشاريع كشط البيانات الكبيرة الحجم. سيتم إعداد ملف عنصر نائب لخطوط أنابيب العنصر عند تغيير العنكبوت. يمكن وضع هذا الملف في قسم البرنامج التعليمي / pipelines.py. باستخدام Scrapy ، يمكنك بناء عناكب متطورة وتغيير موقعها في أي وقت. يمكنك استخراج مواقع متعددة في وقت واحد والقيام بمشاريع مختلفة لاستخراج البيانات.

5. استخدم حجج العنكبوت:

رد الاتصال parse_author هو وسيطة عنكبوت يمكن استخدامها لاستخراج البيانات من مواقع الويب الديناميكية. يمكنك أيضًا توفير وسيطات سطر الأوامر للعناكب برمز محدد. تصبح وسيطات العنكبوت سمات العنكبوت في وقت قصير وتغير المظهر العام لبياناتك.

في هذا البرنامج التعليمي ، تناولنا فقط أساسيات Scrapy. هناك الكثير من الميزات والخيارات لهذه الأداة. تحتاج فقط إلى تنزيل Scrapy وتنشيطه لمعرفة المزيد عن مواصفاته.