صفحة 1 من 1

منع الbots ومحركات البحث الشريره و المضره بموقعك

مرسل: 07 أكتوبر 2008, 10:36
بواسطة saanina

ليست محركات البحث فقط هي الوحيده التي تملك bot او مايمسى "بالمؤرشف" فهناك bots أخرى تمسى الbots الشريره "evil bots" . ونحتاج لتعطيل دخولها لمواقعنا وذلك لسببين :


  1. انها تقوم بسرقه محتويات موقعك كالبريد الألكتروني لإستخدامه بالدعايات.
  2. إضعاف موقعك وذلك لأنها تستهلك موارد قد تكون أكثر من أي مستخدم عادي.
    1. بالتسجيل عبثاً بموقعك.
    2. التعليق بأمور دعايه وروابط لتشهير مواقع أخرى.
    3. قد يكون السبب إنتقام من صاحب الموقع.



أيضا قد يندرج تحت السبب الثاني المذكور سلفاً بعض محركات التحميل الخاصه بالبرامج المختلفه التي تقوم بتحميل موقعك كاملا لتصفحه بطريقه غير مباشره "offline" والتي يقوم بعض اصحاب مواقع الانترنت "الغبيه" بإستخدامها لنسخ محتويات موقع آخر بالظبط وبالتالي يضيع مجهود الآخر .

المشكله هنا ان ملف robots.txt لن يصبح له اي داعي لان هذا الملف لم يوضع إلا لأهداف تنظيميه ولن يحترم هذا الملف الا محركات البحث المشهوره, اما المحركات الشريره هذه فلن تلقي له بالاً ...

الحل هو المنع , بإستخدام mod_rewrite في ملف .htaccess ولأن هذه المحركات يتم معرفتها من قبل HTTP_USER_AGENT الخاص بها فإننا نستطيع منعها بأسمائها ..

قم بوضع الكود التالي في ملف نصي وقم بتسميته .htaccess وقم برفعه على موقعك :

كود: تحديد الكل

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^attach [OR]
RewriteCond %{HTTP_USER_AGENT} ^BackWeb [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bandit [OR]
RewriteCond %{HTTP_USER_AGENT} ^BatchFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^Buddy [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Copier [OR]
RewriteCond %{HTTP_USER_AGENT} ^DA [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo\ Pump [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Wonder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Drip [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FileHound [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetSmart [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^gotit [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} ^HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^Iria [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC [OR]
RewriteCond %{HTTP_USER_AGENT} ^JustView [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^lftp [OR]
RewriteCond %{HTTP_USER_AGENT} ^likse [OR]
RewriteCond %{HTTP_USER_AGENT} ^Magnet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mag-Net [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Memo [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mirror [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZip [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pockey [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pump [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^Reaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Recorder [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Siphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^Snake [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpaceBison [OR]
RewriteCond %{HTTP_USER_AGENT} ^Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^Vacuum [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website [OR]
RewriteCond %{HTTP_USER_AGENT} ^Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Whacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon [OR]
RewriteCond %{HTTP_REFERER} ^http://www.iaea.org$
RewriteRule /*$ http://www.google.com [L,R]
سوف يتم تحويلها لموقع Google لو أردت موقع آخر قم بالتغيير
او تستطيع إعطاءها "خطأ 403" وهو مايعطيها رساله "دخول محظور" "Access Denied" قم بتغيير اخر سطر بـ :

كود: تحديد الكل

RewriteRule ^.* - [F,L] 
أيضا تستطيع إضافه أي bot مزعج وتستطيع رؤية سجلات الدخول "access logs" لمعرفتهن ..

لاتنسى أن بعض هذه الbots المعروضه قد تكون خاصه ببرامج التحميل لذا قم بإلقاء نظره على الbot الذي لاتعتقد انه يشكل خطراً عليك وإزالة السطر الخاص به ...


________
المصادر :
http://www.not-sexy.com/2007/03/08/blocking-evil-bots-from-your-website/

منع الbots ومحركات البحث الشريره و المضره بموقعك

مرسل: 30 يناير 2009, 20:19
بواسطة جواد النيل
موضوع رائع اخ عبد الرحمن
ولكن لدى استفسار هل اذا كان لدى اكثر من اسكربت على نفس الموقع فهل اضع الكود فى جميع الاسكربتات ام فى الفولدر الرئيسي للموقع فقط؟

منع الbots ومحركات البحث الشريره و المضره بموقعك

مرسل: 04 فبراير 2009, 06:34
بواسطة saanina
عزيزي جواد
بالرئيسي يكفي .. باذن الله

رد: منع الbots ومحركات البحث الشريره و المضره بموقعك

مرسل: 19 فبراير 2009, 12:22
بواسطة المحبوب
عيني عليك باردة

لاهنت,,

رد: منع الbots ومحركات البحث الشريره و المضره بموقعك

مرسل: 31 ديسمبر 2009, 11:40
بواسطة A.B.M.K
عزيزي عبدالرحمن هنا سؤال يحيرني دائماً هل اضع النقطة امام htaccess ام بعدها ؟ هل امام s ام قبل h

في موقع ارابيا يقولو قبل و في موقع زاجل يقولو بعد , فما هو الصحيح . حيث انني جربت و عملت نقطة قبلها فيظهر لي خطأ 550 خطأ داخلي في السرفر

شكراً مقدماً

رد: منع الbots ومحركات البحث الشريره و المضره بموقعك

مرسل: 03 يناير 2010, 07:19
بواسطة saanina
لو كنت ممن جربو اللنكس ستعرف ان ملفات او مجلدات الدوت هي ملفات نظام وتكون مخفية دائما

اي ان النقطة قبل وعندما يظهر خطأ 500 فيعني ان هناك خطأ داخل الملف او المود رايتر معطل

بالتوفيق

رد: منع الbots ومحركات البحث الشريره و المضره بموقعك

مرسل: 03 يناير 2010, 08:39
بواسطة A.B.M.K
شكراً لك اخي عبدالرحمن

انا استخدم ماك و النقطة قبل اسم الملف تحول الملف الى ملف مخفي فهذا اعرفه من الماك ;)

نعم اخي الكريم لقد كان هناك مشكلة ولم انتبه لها . الان اشتغل كل شي على ما يرام

شكراً مرة اخرى