Semalt: خوبصورت سوپ کے ساتھ ویب صفحات سے یو آر ایل نکالنا

خوبصورت سوپ ایک اعلی سطح کا ازگر پیکج ہے جو XML اور HTML دستاویزات کی تجزیہ کے لئے استعمال ہوتا ہے۔ خوبصورت سوپ ازگر لائبریری ایک پارس درخت تیار کرتی ہے جسے ہائپر ٹیکسٹ مارک اپ لینگویج (HTML) سے مفید معلومات نکالنے کے لئے استعمال کیا جاتا ہے۔ یہ لائبریری ازگر 2 اور ازگر 3 ورژن دونوں کے لئے دستیاب ہے۔

زیادہ تر مثالوں میں ، آپ کو معلوم ہوتا ہے کہ آپ کے ٹارگٹ ڈیٹا تک صرف ویب صفحے کے حصے کے طور پر رسائی حاصل کی جا سکتی ہے۔ ایسی صورت میں ، آپ کو ویب سکریپنگ کی ایسی تکنیک استعمال کرنے کی ضرورت ہے جو ان فارمیٹس میں ڈیٹا نکال سکے جس کا تجزیہ کیا جاسکے۔ یہیں سے خوبصورت سوپ لائبریری آتی ہے۔

تقاضے

خوبصورت سوپ لائبریری کو استعمال کرنے کے ل You آپ کو صحیح ماڈیول کی ضرورت ہے۔ شروع کرنے کے لئے ، آپ کو اپنی مشین پر ازگر 2.7 پروگرامنگ کی زبان انسٹال کرنے کی ضرورت ہے۔ اس پوسٹ میں ، آپ یہ سیکھیں گے کہ کس طرح کسی ویب سائٹ کو کھرچنا ہے اور درخواستوں اور خوبصورت سوپ کا استعمال کرتے ہوئے تمام یو آر ایل کو نکالنا ہے۔

خوبصورت سوپ کیوں استعمال کریں؟

خوبصورت سوپ ایک اعلٰی درجے کا اڈھ والا پیکیج ہے جو 2004 سے ویب سائٹوں کو کھرچنے اور HTML ٹیگز کو پارس کرنے کے لئے استعمال ہوتا ہے۔ حال ہی میں ، خوبصورت سوپ 4 نے انڈسٹری میں خوبصورت سوپ 3 کو تبدیل کیا۔ نوٹ کریں کہ BS4 ازگر کے دونوں ورژن پر کام کرتا ہے جبکہ BS3 صرف ازگر 2.7 پر کام کرتا ہے۔ لائبریری میں درج ذیل ان بلٹ خصوصیات شامل ہیں:

  • انکوڈنگ کی اہلیت - ایک بار جب آپ اپنی مشین پر ضروری خوبصورت سوپ ماڈیولز انسٹال کرتے ہیں تو آپ کو انکوڈنگ کے بارے میں گھبرانے کی ضرورت نہیں ہے۔ لائبریری ان پٹ کو یونیکوڈ اور آؤٹ پٹ کو یو ٹی ایف -8 میں تبدیل کرنے کے لئے خودکار ہے۔
  • نیویگیشن کی اہلیت - خوبصورت سوپ تجزیہ کرنے والے درخت کی تلاش ، تشریف لانے اور اس میں ترمیم کرنے کے لئے آسان طریقے استعمال کرنے کی پیش کش کرتا ہے۔

خوبصورت سوپ لائبریری کا استعمال کیسے کریں؟

اپنی مشین پر خوبصورت سوپ انسٹال کرنے کے بعد ، آپ لائبریری کا استعمال شروع کرسکتے ہیں۔ شروع کرنے کے لئے ، اپنے ازگر کوڈ کے آغاز میں bs4 لائبریری درآمد کریں۔ سوپ آبجیکٹ بنانے کے ل content مواد یا URL کو خوبصورت سوپ پر منتقل کریں۔ تاہم ، لائبریری اپنے اوپر ہدف والا ویب صفحہ نہیں لاتی ہے۔ یہاں ، آپ کو یہ کام دستی طور پر کرنا ہے۔ آپ ازگر اور خوبصورت سوپ کے امتزاج کا استعمال کرکے آسانی سے ترجیحی ویب صفحات حاصل کرسکتے ہیں۔

درخواست لائبریری کے کردار

کسی صفحے کو کھرچنے کے ل you ، آپ کو پہلے اسے ڈاؤن لوڈ کرنے کی ضرورت ہے۔ آپ درخواست لائبریری کا استعمال کرکے ویب صفحات ڈاؤن لوڈ کرسکتے ہیں۔ درخواستوں کی لائبریری ویب سرورز کو "جی ای ٹی" کی درخواست دے کر کام کرتی ہے ، جو ، بدلے میں ، پسندیدہ ویب صفحے کے HTML مشمولات کو ڈاؤن لوڈ کرے گی۔

ویب صفحات سے یو آر ایل نکالنا

اب آپ کے پاس خوبصورت سوپ لائبریری سے متعلق تفصیلی معلومات ہیں۔ بی ایس 4 لائبریری اور ازگر کا ایک مجموعہ آپ کو ایک بہت جلد ویب پیج نکالنے میں مدد فراہم کرے گا۔ اپنے ٹارگٹ ویب پیج سے سارے یو آر ایل نکالنے کے ل "،" سب ڈھونڈیں "طریقہ استعمال کریں۔ یہ طریقہ آپ کو ٹیگ کے ساتھ عناصر کی ایک تالیف فراہم کرے گا۔ bs4 سے ، دونوں خوبصورت سوپ اور درخواستیں درآمد کریں۔ اپنے کوڈ کو چلائیں اور URLs کو نکالنے کے لئے ایک ویب سائٹ یا ویب صفحہ درج کریں۔

mass gmail