Як Зупинити Веб-сканери та Ботів, Щоб Вони Не Сповільнювали Ваш Сайт

Опубліковано: від Ian Hernandez
Як Зупинити Веб-сканери та Ботів, Щоб Вони Не Сповільнювали Ваш Сайт thumbnail

Твій вебсайт схожий на кав’ярню. Люди заходять і переглядають меню. Деякі замовляють лате, сидять, п’ють та йдуть.

А що, якщо половина твоїх “клієнтів” просто займають столики, відволікають твоїх бариста і ніколи не купують каву?

Тим часом, реальні клієнти йдуть через відсутність столів та повільне обслуговування?

Ну, це світ веб-сканерів та ботів.

Ці автоматизовані програми пожирають твою пропускну здатність, сповільнюють твій сайт і відлякують реальних клієнтів.

Останні дослідження показують, що майже 51% інтернет-трафіку становлять Bot. Так воно і є — більш ніж половина твоїх цифрових відвідувачів можуть лише витрачати ресурси твого сервера.

Але не панікуй!

Цей посібник допоможе тобі виявити проблеми та контролювати продуктивність твого сайту, без необхідності програмувати чи телефонувати технічно обізнаному кузенові.

Швидке Оновлення Про Ботів

Боти — це автоматизовані програми, які виконують завдання в інтернеті без втручання людини. Вони:

  • Відвідувати вебсайти
  • Взаємодіяти з цифровим контентом
  • Та виконувати специфічні функції відповідно до їхнього програмування. 

Деякі боти аналізують та індексують твій сайт (потенційно покращуючи позиції у пошукових системах). Деякі проводять свій час, збираючи твій контент для навчальних датасетів ШІ — або гірше — розміщуючи спам, створюючи фальшиві відгуки, або шукаючи вразливості та діри у безпеці твого вебсайту.

Звичайно, не всі боти створені однаковими. Деякі є важливими для здоров’я та видимості твого сайту. Інші можна вважати нейтральними, а декілька — прямо шкідливими. Знання різниці — і вирішення, яких ботів блокувати, а яких допускати — є вирішальним для захисту твого сайту та його репутації.

Хороший Бот, Поганий Бот: Що Є Що?

Кругова діаграма веб-трафіку 2023, що показує Людина 49% (-1.4%), Поганий Бот 37% (+5%) та Добрий Бот 14% (-3.6%).

Боти складають інтернет.

Наприклад, бот Google відвідує кожну сторінку в інтернеті та додає її до своїх баз даних для ранжування. Цей бот допомагає забезпечувати цінний трафік пошуку, що є важливим для здоров’я твого вебсайту.

Але не кожен бот приносить користь, і деякі з них просто шкідливі. Ось що потрібно зберегти, а що блокувати.

VIP Боти (Залиште Цих)

  • Сканери пошукових систем, як Googlebot та Bingbot, є прикладами таких сканерів. Не блокуй їх, інакше станеш невидимим в інтернеті.
  • Боти аналітики збирають дані про продуктивність твого сайту, як, наприклад, бот Google Pagespeed Insights чи бот GTmetrix.

Ті, Хто Створює Проблеми (Потребують Керування)

  • Скрапери контенту, які крадуть ваш контент для використання в іншому місці
  • Спам-боти, які заповнюють ваші форми та коментарі сміттям
  • Зловмисники, які намагаються зламати акаунти або використовувати уразливості

Масштаби шкідливих ботів можуть тебе здивувати. У 2024 році передові боти складали 55% всього трафіку передових шкідливих ботів, тоді як хороші становили 44%.

Ці передові боти підступні — вони можуть імітувати людську поведінку, включаючи рухи миші та кліки, що робить їх важчими для виявлення.

Отримуйте вміст безпосередньо у свою скриньку

Підпишіться зараз, щоб отримувати всі останні оновлення безпосередньо у свою скриньку.

Чи Псують Боти Роботу Твого Сайту? Зверни Увагу На Ці Ознаки Попередження

Перш ніж перейти до рішень, давай переконаємося, що проблема дійсно в ботах. Ознайомся з ознаками нижче.

Червоні Прапорці у Твоїй Аналітиці

  • Різкий Приріст Трафіку Без Пояснень: Якщо кількість відвідувачів раптово зростає, але продажі не збільшуються, боти можуть бути винними.
  • Все З-А-М-А-Л-Ь-О-В-Л-Ю-Є-Т-Ь-С-Я: Сторінки завантажуються довше, що дратує реальних клієнтів, які можуть піти назавжди. Aberdeen показує, що 40% відвідувачів залишають сайти, які завантажуються більше трьох секунд, що призводить до…
  • Високі Показники Відмов: понад 90% часто вказують на активність ботів.
  • Дивні Схеми Сесій: Люди зазвичай не відвідують сайт лише на мілісекунди або не залишаються на одній сторінці годинами.
  • Ти Починаєш Отримувати Багато Незвичного Трафіку: Особливо з країн, де ти не ведеш бізнес. Це підозріло.
  • Надсилання Форми З Випадковим Текстом: Класична поведінка ботів.
  • Твій Сервер Перевантажений: Уяви, що в магазин зайшло 100 клієнтів одночасно, але 75 з них лише переглядають вітрини.

Перевір Свої Журнали Сервера

Журнали сервера твого вебсайту містять записи про кожного відвідувача.

Ось на що варто звернути увагу:

  • Занадто багато послідовних запитів з однієї IP-адреси
  • Дивні рядки user-agent (ідентифікація, яку надають боти)
  • Запити на незвичайні URL, яких немає на вашому сайті
Глосарій DreamHost

User Agent

User agent — це тип програмного забезпечення, яке отримує та відображає веб-контент, щоб користувачі могли взаємодіяти з ним. Найпоширеніші приклади — веб-браузери та поштові читачі.

Читати Далі

Легітимний запит Googlebot може виглядати так у твоїх журналах:

66.249.78.17 - - [13/Лип/2015:07:18:58 -0400] "GET /robots.txt HTTP/1.1" 200 0 "-" "Mozilla/5.0 (сумісний; Googlebot/2.1; +http://www.google.com/bot.html)"

Якщо ти бачиш взірці, які не відповідають звичайній поведінці людини під час перегляду, настав час вжити заходів.

Проблема GPTBot у зв’язку з зростанням ШІ сканерів

Нещодавно багато власників вебсайтів повідомляли про проблеми зі сканерами ШІ, які генерують ненормальні трафічні моделі.

За дослідженнями Imperva, GPTBot від OpenAI здійснив 569 мільйонів запитів за один місяць, тоді як бот Claude зробив 370 мільйонів на мережі Vercel.

Шукай:

  • Різкі збільшення помилок у журналах: Якщо ти раптом побачиш сотні чи тисячі помилок 404, перевір, чи це від сканерів ШІ.
  • Надзвичайно довгі, безглузді URL-адреси: ШІ боти можуть запитувати дивні URL-адреси, як наприклад наступні:
/Odonto-lieyectoresli-541.aspx/assets/js/plugins/Docs/Productos/assets/js/Docs/Productos/assets/js/assets/js/assets/js/vendor/images2021/Docs/...
  • Рекурсивні параметри: Шукай безкінечно повторювані параметри, наприклад:
amp;amp;amp;page=6&page=6
  • Сплески пропускної здатності: Readthedocs, відома компанія технічної документації, зазначила, що один сканер ШІ завантажив 73TB ZIP-файлів, з яких 10TB було завантажено за один день, що коштувало їм понад $5,000 на оплату пропускної здатності.

Ці шаблони можуть свідчити про сканери ШІ, які або не працюють належним чином, або були маніпульовані для створення проблем.

Коли звертатися за технічною допомогою

Якщо ти помітив ці ознаки, але не знаєш, що робити далі, настав час звернутись за професійною допомогою. Попроси свого розробника перевірити специфічні агенти користувачів, як от цей:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, як Gecko; сумісний; GPTBot/1.2; +https://openai.com/gptbot)

Існує багато записаних строк агентів користувача для інших штучних інтелектів сканерів, які ти можеш знайти в Google для блокування. Зверни увагу, що строки змінюються, що може призвести до досить великого списку з часом.

👉 Не маєш розробника на швидкому виклику? Команда DreamCare від DreamHost може проаналізувати твої журнали та впровадити заходи захисту. Вони вже стикалися з цими проблемами і точно знають, як їх вирішити.

Твій Інструмент Проти Ботів: 5 Простих Кроків, Щоб Відвоювати Контроль

Тепер до хорошої частини: як зупинити цих ботів, щоб вони не сповільнювали твій сайт. Загорни рукави і давай працювати.

1. Створи Належний Файл robots.txt

файл robots.txt від dreamhost.com, що показує директиви сканерів, які забороняють індексацію певних шляхів, надаючи при цьому розташування карти сайту.

Файл robots.txt є простим текстовим файлом, який розміщений у твоєму кореневому каталозі і повідомляє доброзичливим ботам, до яких частин твого сайту вони не мають доступу.

Ти можеш отримати доступ до файлу robots.txt практично будь-якого сайту, додавши /robots.txt до його домену. Наприклад, якщо ти хочеш побачити файл robots.txt для DreamHost, додай robots.txt в кінці домену таким чином: https://dreamhost.com/robots.txt

Немає зобов’язань для будь-яких ботів приймати правила.

Але ввічливі боти будуть дотримуватися цього, а проблемні можуть вирішити ігнорувати правила. Краще додати robots.txt, щоб хороші боти не почали індексувати сторінки входу в адміністративну панель, сторінки після покупки, сторінки подяки тощо.

Як Імплементувати

1. Створи звичайний текстовий файл з назвою robots.txt

2. Додай свої інструкції використовуючи цей формат:

User-agent: *          # Цей рядок стосується всіх ботів
Disallow: /admin/      # Не індексувати адміністративну зону
Disallow: /private/    # Не заходьте в приватні папки
Crawl-delay: 10        # Чекати 10 секунд між запитами
User-agent: Googlebot  # Особливі правила лише для Google
Allow: /               # Google має доступ до всього

3. Завантаж файл до кореневого каталогу свого веб-сайту (щоб він був за адресою yourdomain.com/robots.txt)

Директива “Crawl-delay” є твоєю секретною зброєю тут. Вона змушує ботів чекати між запитами, запобігаючи їхньому безперервному зверненню до твого сервера.

Більшість основних сканерів дотримуються цього, хоча Googlebot слідує своїй власній системі (якою ви можете керувати через Google Search Console).

Професійна порада: Перевір свій robots.txt за допомогою інструменту тестування robots.txt від Google, щоб переконатися, що ти випадково не заблокував важливий контент.

2. Налаштування Обмеження Швидкості

Обмеження частоти визначає, скільки запитів один відвідувач може зробити протягом певного періоду.

Він запобігає перевантаженню сервера ботами, тож звичайні люди можуть переглядати ваш сайт без перерв.

Як реалізувати

Якщо ти використовуєш Apache (поширено для сайтів WordPress), додай ці рядки до свого файлу .htaccess:

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{REQUEST_URI} !(.css|.js|.png|.jpg|.gif|robots.txt)$ [NC]
RewriteCond %{HTTP_USER_AGENT} !^Googlebot [NC]
RewriteCond %{HTTP_USER_AGENT} !^Bingbot [NC]
# Дозволити максимум 3 запити за 10 секунд на IP
RewriteCond %{REMOTE_ADDR} ^([0-9]+.[0-9]+.[0-9]+.[0-9]+)$
RewriteRule .* - [F,L]
</IfModule>
Глосарій DreamHost

.htaccess

u201c.htaccessu201d — це файл конфігурації, який використовує програмне забезпечення веб-сервера Apache. Файл .htaccess містить директиви (інструкції), які вказують Apache, як поводитися для певного вебсайту або директорії.

Читати більше

Якщо ти використовуєш Nginx, додай це до конфігурації свого сервера:

limit_req_zone $binary_remote_addr zone=one:10m rate=30r/m;
server {
    ...
    location / {
        limit_req zone=one burst=5;
        ...
    }
}

Багато панелей керування хостингом, такі як cPanel або Plesk, також пропонують інструменти обмеження частоти у своїх розділах безпеки.

Пов’язана стаття
NGINX vs. Apache: How to Choose the Best Web Server
Читати далі

Професійна порада: Почни з консервативних обмежень (наприклад, 30 запитів на хвилину) та спостерігай за своїм сайтом. Ти завжди можеш посилити обмеження, якщо трафік ботів продовжується.

3. Використовуйте Мережу Доставки Контенту (CDN)

CDNs роблять для тебе дві корисні речі:

  1. Розподіляйте контент по глобальних мережах серверів, щоб ваш сайт швидко завантажувався по всьому світу
  2. Фільтруйте трафік до того, як він потрапить на сайт, щоб блокувати небажані боти та атаки

Частина про «несуттєвих ботів» наразі є для нас важливою, але інші переваги також корисні. Більшість мереж CDN включають вбудоване управління ботами, яке ідентифікує та блокує підозрілих відвідувачів автоматично.

Як Імплементувати

  1. Зареєструйся на сервіс CDN, такий як DreamHost CDN, Cloudflare, Amazon CloudFront або Fastly.
  2. Дотримуйся інструкцій з налаштування (може знадобитися зміна імен серверів).
  3. Налаштуй параметри безпеки для активації захисту від ботів.

Якщо твій хостинг-сервіс за замовчуванням пропонує CDN, ти уникаєш всіх кроків, оскільки твій вебсайт автоматично буде розміщений на CDN.

Після налаштування, твій CDN буде:

  • Кешуй статичний контент, аби зменшити навантаження на сервер.
  • Фільтруй підозрілий трафік, перш ніж він потрапляє на твій сайт.
  • Застосовуй технологію машинного навчання, щоб відрізнити легітимні запити від шкідливих.
  • Автоматично блокуй відомих шкідливих акторів.

Професійна порада: Безкоштовний пакет Cloudflare включає базовий захист від ботів, який добре підходить для більшості малих бізнес-сайтів. Їхні платні плани пропонують більш розширені опції, якщо тобі це потрібно.

4. Додай CAPTCHA для Чутливих Дій

Перевірка CAPTCHA під час процесу оплати з полем поштового/зіп-коду, завданням із спотвореним текстом та кнопкою "Додати кредитну карту", що вказує на суму $58.39.

CAPTCHA – це маленькі головоломки, які просять тебе визначити світлофори або велосипеди. Вони дратують людей, але майже неможливі для більшості ботів, тому є ідеальними охоронцями для важливих зон твого сайту.

Як Реалізувати

  1. Зареєструйся на Google’s reCAPTCHA (безкоштовно) або hCaptcha.
  2. Додай код CAPTCHA до своїх чутливих форм:
    • Сторінки входу
    • Форми зворотного зв’язку
    • Процеси оформлення покупки
    • Розділи коментарів

Для користувачів WordPress, плагіни на кшталт Akismet можуть автоматично обробляти це для коментарів та відправлень форм.

Професійна порада: Сучасні невидимі CAPTCHA (наприклад, reCAPTCHA v3) працюють у фоновому режимі для більшості відвідувачів, показуючи виклики лише підозрілим користувачам. Використовуй цей метод, щоб отримати захист, не дратуючи законних клієнтів.

5. Розгляньте Новий Стандарт llms.txt

Документація API Zapier, яка показує кінцеві точки для отримання деталей дії, отримання попередньо заповнених варіантів, пошуку дій та створення ШІ дії з їх відповідними HTTP методами та описами.

Стандарт llms.txt — це недавній розвиток, який контролює взаємодію штучного інтелекту сканерів з твоїм контентом.

Це схоже на robots.txt, але спеціально для того, щоб повідомляти системам ШІ, яку інформацію вони можуть доступити та чого їм слід уникати.

Як Запровадити

1. Створи файл markdown під назвою llms.txt з такою структурою вмісту:

    # Назва Твого Вебсайту
    > Короткий опис твого сайту
    
    ## Основні Розділи Контенту
    - [Сторінки Продуктів](https://yoursite.com/products): Інформація про продукти
    - [Статті Блогу](https://yoursite.com/blog): Освітній контент
    
    ## Обмеження
    - Будь ласка, не використовуйте нашу інформацію про ціни у навчанні

    2. Завантажте його у ваш кореневий каталог (на yourdomain.com/llms.txt) → Зверніться до розробника, якщо у вас немає прямого доступу до сервера.

      Чи є llms.txt офіційним стандартом? Ще ні.

      Це стандарт, запропонований в кінці 2024 року Джеремі Говардом, який був прийнятий Zapier, Stripe, Cloudflare та багатьма іншими великими компаніями. Ось зростаючий список веб-сайтів, що приймають llms.txt.

      Отже, якщо хочеш приєднатися, вони мають офіційну документацію на GitHub з настановами щодо впровадження.

      Професійна порада: Після реалізації перевір, чи ChatGPT (з увімкненим веб-пошуком) може отримати доступ та зрозуміти файл llms.txt.

      Скріншот інтерфейсу AI помічника, який пояснює документацію API Zapier для AI Actions, включно з точками доступу для отримання деталей дій, пошуку дій та управління автентифікацією.

      Перевір, чи файл llms.txt доступний для цих ботів, запитавши у ChatGPT (або іншого LLM) «Перевір, чи можеш ти прочитати цю сторінку» або «Що каже сторінка».

      Ми не можемо знати, чи боти будуть поважати llms.txt найближчим часом. Однак, якщо пошукова система з ШІ вже зараз може читати і розуміти файл llms.txt, можливо, вони також почнуть його поважати в майбутньому.

      Моніторинг І Підтримка Захисту Від Ботів На Твоєму Сайті

      Отже, ти налаштував свої захисні механізми для бота — чудова робота!

      Май на увазі, що технології Bot постійно розвиваються, тому боти повертаються з новими трюками. Давай переконатися, що твій сайт залишатиметься захищеним надовго.

      • Плануй Регулярні Перевірки Безпеки: Раз на місяць переглядай журнали сервера на предмет чогось підозрілого та переконайся, що твої файли robots.txt і llms.txt оновлені новими посиланнями сторінок, які ти б хотів, щоб боти відвідували/не відвідували.
      • Тримай Свій Список Блокування Ботів Оновленим: Боти постійно змінюють свої маскування. Слідкуй за блогами про безпеку (або дозволь своєму провайдеру хостингу робити це за тебе) і оновлюй свої правила блокування регулярно.
      • Стеж За Швидкістю: Захист від ботів, який сповільнює твій сайт до повзучого стану, тобі не на користь. Слідкуй за часом завантаження своїх сторінок та налаштовуй захист, якщо речі починають сповільнюватись. Пам’ятай, справжні люди — нетерплячі істоти!
      • Розглянь Можливість Автоматизації: Якщо все це здається занадто складним (ми розуміємо, у тебе є бізнес, який треба вести!), розглянь автоматизовані рішення або керований хостинг, який займається безпекою за тебе. Іноді найкращий DIY — це DIFM — Зроби Це За Мене!

      Вебсайт Без Ботів Поки Ти Спиш? Так, Будь Ласка!

      Похвали себе. Ти вже багато чого досяг!

      Проте, навіть з нашою поетапною інструкцією, ці речі можуть бути досить технічними. (Що саме таке файл .htaccess?)

      І хоча самостійне управління ботами цілком можливе, ти можеш виявити, що твій час краще витратити на ведення бізнесу.

      DreamCare — це кнопка “ми все зробимо за тебе”, яку ти шукаєш.

      Наша команда захищає твій сайт за допомогою:

      • Цілодобовий моніторинг, який виявляє підозрілу діяльність, поки ти спиш
      • Регулярні перевірки безпеки, щоб бути на крок попереду нових загроз
      • Автоматичні оновлення програмного забезпечення, що усувають вразливості, перш ніж Bot-и зможуть їх використати
      • Комплексне сканування на Malware та його видалення, якщо щось прослизне

      Дивіться, боти залишаться з нами назавжди. І враховуючи їхній приріст за останні кілька років, можливо, незабаром ми побачимо більше ботів, ніж людей. Ніхто не знає.

      Але чому варто через це втрачати сон?

      Pro Послуги – Управління Сайтом

      Ми Подбаємо про Технічні Питання

      Забезпечте продуктивність і надійність підприємницького рівня для свого сайту. Залиште бэкэнд експертам – ви зосередьтеся на своєму бізнесі.

      Дізнатися більше

      Ця сторінка містить партнерські посилання. Це означає, що ми можемо отримати комісійну винагороду, якщо ти купиш послуги через наше посилання без додаткових витрат для тебе.