Сайт Романа ПарпалакаБлогКлючевые словаспам

спам

Статьи по этой теме:
Борьба с поисковым спамом


Подключил Akismet для борьбы со спамом

27 апреля 2025 года, 20:59

Когда-то давно я сделал в своем движке сайтов S2 защиту от спама на основе Javascript. В те времена она неплохо работала, потому что спамерские боты не выполняли js-код. А на форме комментария был определенный скрипт, который заполнял и скрывал специальное поле с дополнительным вопросом.

Со временем технологии развивались, и через selenium разработчики автоматизировали действия ботов через полноценные браузеры. Метод защиты с помощью Javascript стал фильтровать только самых тупых ботов.

Затем для борьбы со спамом я включил предарительную проверку комментариев перед публикацией. К этому времени поток комментариев на сайте как раз уменьшился. Немногочисленные нормальные комментарии легко одобрить вручную, особенно когда отвечаешь на них. Тогда же я запрограммировал обход предварительной проверки для залогиненных модераторов — пользователей, которые управляют отображением комментариев.

Чтобы облегчить себе жизнь по окончательному удалению спаммерских комментариев из очереди на модерацию, я задумался над тем, какова цель спаммеров? Конечная цель — разместить ссылки для манипуляции индексом цитирования и для привлечения посетителей. Если запретить оставлять ссылки, спаммерам не будет смысла оставлять комментарии без них. А если ссылку хочет разместить человек в хорошем комментарии, сайт скажет ему, чтобы он удалил http:// из ссылки. Запрет на ссылки принес свои плоды, но какие-то спаммерские комментарии всё равно пролезали даже без явных ссылок.

Сейчас я решил посмотреть, как привлечь новые технологии для фильтрации спама. Теоретически можно натренировать нейросеть на каком-то множестве спаммерских и хороших комментариев и делегировать ей задачу фильтрации. Идея реализации классификатора текстов описана в статье на хабре аж восьмилетней давности. Решил спросить у ChatGPT, что он предложит по поводу классификации. Решения с обучением нейросетей оказались не очень простыми, но кроме них он ещё предложил использовать готовый сервис Akismet.

Akismet — это система фильтрации спама в комментариях, разработанная авторами WordPress. В вордпрессе есть плагин, который обращается к API Akismet. Однако сам API открыт и может быть использован любым сайтом, для обращения нужен только лицензионный ключ. Лизензия для некоммерческого использования бесплатная.

Основная особенность Akismet заключается в том, что он используется на множестве сайтов. Таким образом можно быстро выявлять новые ip-адреса спамеров и изменения в поведении ботов, адаптировать алгоритмы защиты и распространять их сразу на все сайты.

Я подключил сервис и несколько дней его тестировал. По каждому комментарию Akismet возвращает свое решение: либо это хороший комментарий, либо спам, либо «вопиющий» (blatant) спам. В итоге остановился на следующем алгоритме фильтрации комментариев:

После внедрения за две недели пришло 62 комментария. Из них 60 спаммерских комментариев были отсеяны либо как вопиющий спам (21 комментарий), либо как спам с наличием ссылок в тексте. Остальные два комментария опубликованы: один хороший комментарий и один спаммерский со ссылкой на yotube.

Из-за низкого потока комментариев набрана небольшая статистика, и масштаб проблемы с опубликованным спаммерским комментарием неясен. Для окончательных выводов нужно подождать ещё. Или же приходите в комментарии, чтобы протестировать защиту от спама :)

Понятно, что у способа есть свои недостатки. Во-первых, появилась зависимость от внешнего сервиса. Правда, эта зависимость не критичная, так как при недоступности сервиса произойдет откат к старому алгоритму. Во-вторых, появилась минимальная задержка при сохранении комментария. Среднее время ответа Akismet у меня составило 150 мс с определенным разбросом, причем все ответы укладываются в 300 мс. На случай сетевых проблем я установил таймаут ожидания ответа по HTTP в 2 секунды. В целом пока всё выглядит так, что полученные преимущества перевешивают эти незначительные недостатки.

    2 комментария

E-mail в RSS

15 ноября 2009 года, 14:14

В RSS можно добавлять e-mail автора материала. Наверно, спамеры давно догадались об этом источнике адресов электронной почты. Действительно ли адреса активно собираются из RSS-лент? Есть ли вообще смысл указывать e-mail в RSS? Или он сразу же попадет в базы спамеров?

    2 комментария

Милый спам

27 сентября 2008 года, 10:12

Такой милый спам пришел, не могу не процитировать. Это же надо было такой текст сочинить!

привет

Еcть в нaличии XУДОЖEСТВЕHHЫЙ CEPИАЛ «KОЛОMБО»

Кoллеkция из 69 ceрий дeтekтивногo CEPИAЛA «КОЛОМБО» с П. Фальkом
Фоpмaт DivX/Mpeg4 на DVD. Эти фильмы повышают
дедyктивнoe мышлениe чeлoвekа, пoлoжительнoe влияние оkазывaют
на жизненный опыт, споcoбствyют opиeнтиpовaнию в сложныx
ситyациях, пoмoгyт набpатьcя oпытa сотpyдниkaм следcтвенныx органoв

О как! Даже сотрудников следственных органов мягко опустили.

Если спамеры будут и дальше так стараться, может и не так противно будет получать спам.

    Оставить комментарий

Противогазы

26 июля 2008 года, 01:29

В аську спам пришел.

414241167 (01:20:25 26/07/2008)
АППЕТИТНАЯ БЛОНДИНКА
воплотит ваши фантазии по телефону
звони: ******
стоимость 95 р/мин 18+

_________
Если вам мешает спам, поставьте антиспам-фильтр.

«Если вам мешает дым от сигарет, ходите в противогазах», ага.

    Оставить комментарий

Признак спама

16 декабря 2007 года, 23:14

Один из признаков спама, который прослеживается в самом начале письма:

Здравствуйте!!

Данное письмо НЕ является спамом. […]

Выглядит примерно так, как если бы ко мне подошел человек на улице и сказал: «Здравствуйте. Вы знаете, я не идиот…».

    Оставить комментарий

Спам в аське

15 декабря 2007 года, 16:07
Здравствуйте! Вот и новый год не за горами, а перед ним — сессия (экзамены, контрольные). Наверняка уже известны вопросы и билеты и вы уже готовите ответы к ним (но вам кажется что выучить все это практически нереально!?) С ICQ BOT Service это сделать РЕАЛЬНО!. Предлагаю в качестве подстраховки (вдруг отнимут шпаргалки) ICQ BOT сервис. Суть в том, что вы заранее мне даете вопросы и ответы и я конфигурирую бота. На экзамене заходите с мобилы в асю и посылаете команды, соответствующие вопросам и бот выдает ответ. Для подстраховки используйте 2 ой телефон. (если на экзамене отнимут первый телефон)
Стоимость данного сервиса — 4$ (100 руб.) за один предмет.

ICQ бот. «Я сижу в аське и отсылаю чувакам ответы на вопросы», да. Такого бота можно из любого знакомого сделать, посадив его за комп.

    2 комментария

Защита от спама

21 августа 2007 года, 02:00

О, сегодня пришел первый спаммерский комментарий после внедрения новой системы защиты. Один посторонний комментарий за полгода — очень неплохо :) Правда, в данном случае, как следует из логов (прогрузились CSS, JS, картинки), он был сделан не тупым спаммерским ботом, а полноценным браузером. Новая хитроумная система, обходящая любую защиту? На этот раз, к счастью, всё в порядке. Путь от запроса в Гугле к странице с комментариями мог проделать только человек.

Добавлено: появился еще один комментарий. Почерк такой же. Удалил оба. На этот раз пришли по запросу с Яндекса.

    Оставить комментарий

Спам в аське

19 мая 2007 года, 21:54

Приходит в аську спам:

Здравствуйте!
Предлагаю вам выгодное предложение. по всем вопросам обращаться на icq [censored]

А что, хорошая идея. Я сейчас ей воспользуюсь :)

Внимание, внимание!

Я предлагаю всем выгодное предложение. По любому вопросу ко мне можно не обращаться!

Внимание, фишинг!

16 мая 2007 года, 22:59

Сегодня утром мне пришло письмо следующего содержания:

Return-Path: <akstcwigramediatoolsmnsdgs@wigramediatools.ch>
[…]
Received: from mail.sigconsult.com (unknown [67.151.249.226])
by mail5.zoneedit.com (Postfix) with ESMTP id 0581950EF91
for <roman@parpalak.pp.ru>; Tue, 15 May 2007 18:13:56 -0400 (EDT)
Received: from 81.221.254.195 (HELO mail.messaging.ch)
by parpalak.pp.ru with esmtp ((;525L'+7>= -,50)
id <H9.?3-*1-6E@-1,
for roman@parpalak.pp.ru; Tue, 15 May 2007 22:05:20 +0500
Message-ID: <01c7973d$20baa2d0$6c822ecf@akstcwigramediatoolsmnsdgs>
From: «noreply@yandex.ru» <noreply@yandex.ru>
To: roman@parpalak.pp.ru
Subject: =?windows-1251?b?8ffl8iDn4OHr7uro8O7i4O0=?=
Date: Tue, 15 May 2007 22:05:20 +0500
MIME-Version: 1.0
Content-Type: text/plain;
format=flowed;
charset="windows-1251";
reply-type=original
Content-Transfer-Encoding: 8bit
X-Priority: 3
X-MSMail-Priority: Normal
X-Mailer: Microsoft Outlook Express 6.00.2900.2905
X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.2905

Уважаемый пользователь,

Согласно пункту 4.6.2.5. Соглашения об использовании Системы «Яндекс.Деньги» ,Ваш счет заблокирован.

Необходима реактивация счета в системе. Для реакцивации проследуйте по линку:
http://passport.yanclex.ru/passport/?mode=loginform&msg=money&type=[…]

Либо свяжитесь с одним из наших операторов:

ООО «ПС Яндекс.Деньги».
101000, г. Москва, ул. Вавилова, дом 40
тел.: +7 (495) 739-23-25

ООО «ПС Яндекс.Деньги», Петербургский филиал.
191123, г. Санкт-Петербург, ул. Радищева, д. 39,
тел.: +7 (812) 334-7750

Вероятно, не вполне проснувшись, я прошел по ссылке из письма, ввел свой логин и пароль, затем платежный пароль. Затем мне еще раз предложили ввести логин и пароль, после чего я оказался в своем кошельке, с которым всё было в порядке. Смотрю, от кого пришло письмо. Подумал, что это несерьезно, когда письма подобного содержания приходят с какого-то noreply@yandex.ru. И тут я понял, что сделал очень глупую ошибку и попал на удочку фишеров. Ведь ссылка была не на yandex.ru, а на yanclex.ru, зарегистрированный, кстати, совсем недавно.

К счастью, я успел имевшимися Яндекс.Деньгами оплатить хостинг, а потом и поменять пароли. А жаль, я к ним очень привык.

Как сообщила Вебпланета, описанное явление носило массовый характер.

Какие отсюда следуют выводы?

  1. Стандартный совет, быть как можно внимательнее. Правда, не всегда срабатывает, зачастую для выработки условного рефлекса нужно «обжечься».
  2. Можно сохранять пароли в браузере, тогда, если вас вдруг попросят ввести пароль, сразу можно заподозрить неладное. Правда, к компьютеру нужно ограничить доступ других лиц. Да и пароли можно украсть через дыры в браузере/ОС.
  3. Нужно сделать несколько почтовых ящиков и четко разделить их функциональность, например, для работы, для переписки с друзьями, для регистрации на сайтах/спама. Совет тривиальный и общеизвестный, но не всем удается ему следовать, особенно, новичкам, когда у них был один ящик, в который повалил спам, и когда проблематично сообщать адрес нового ящика.
    Оставить комментарий

Для главного бухгалтера

22 марта 2007 года, 08:27

Интересно, когда в спаме пишут «Для главного бухгалтера», находятся идиоты, которые действительно такие письма передают главному бухгалтеру?

    Оставить комментарий

Цена хостинга

24 февраля 2007 года, 18:24

В аську пришел спам.

Здравствуйте! Предлагаем Вам домен плюс хостинг на любой Вам удобный срок по самым низким ценам в сети

Наши цены $20 на 6 месяцев, $40 на 1год

Ага, самые низкие цены в сети. Всего 40 долларов в год.

    Оставить комментарий

О спаме в гостевых и комментариях

23 октября 2006 года, 20:14

Месяца два назад в мою гостевую повалил спам. Посмотрел логи сервера. Разумеется, IP-адрес, с которого рассылались сообщения, менялся из-за использования прокси-серверов, переменная User-agent тоже не была постоянной. Единственная зацепка, которую я смог найти: спамерский скрипт сразу отсылал POST-запрос, и всё. Выход из положения был такой: когда пользователь заходит на какую-либо страницу, создается сессия. Скрипт гостевой проверяет, действительно ли сессия была открыта, или это очередное сообщение спамеров.

Тогда я поленился всё это делать и изменил URL гостевой, а так же имена полей в форме ввода сообщения. Как оказалось, хорошо, что я поленился. Пару дней назад ко мне на сайт попали вот по такому запросу из Рамблера: гостевая. Интересно, они просматривали эти 2700 сайтов вручную, или это тоже был скрипт? И после в гостевой опять началось безобразие. Главная особенность — перед отправкой POST-запроса спамерский скрипт обращается к гостевой. Теперь уж точно программно отследить спамерские сообщения нереально. Опять поменял URL и имена полей.

Надо подумать о методе, позволяющем фильтровать спам. Способ CAPTCHA, в котором пользователю предлагается прочесть текст на картинке и написать его в специально отведенное поле ввода, конечно, хорош. Но слишком уж он неудобен для пользователя. Я его просто ненавижу.

Хорошо еще, что спамеры не добрались до комментариев к статьям и к записям в блоге. Тогда точно надо будет придумывать что-то кардинально новое.

    10 комментариев

Спамеры и сервисы бесплатной почты

10 октября 2006 года, 19:43

Статья, в которой рассказано об исследовании сервисов бесплатной почты, таких, как Новая почта, Почта.ру, Почта Яндекса, Mail.Ru и Rambler-почта, на предмет того, что сотрудники этих компаний передают адреса e-mail пользователей спамерам.

В ходе проекта на доменах почтовых служб были открыты тестовые почтовые ящики с именами в виде комбинации из 14 букв и цифр, отключенной функцией антиспам-фильтрации, а из пользовательского соглашения исключались пункты, позволяющие администрации пропускать рассылки партнеров.
Результаты исследования позволяют критически взглянуть на одну из «теорий заговора», которые так популярны у интернет-пользователей. Пяти крупнейшим отечественным «игрокам рынка» веб-почты можно поставить твердую «пятерку» за сохранность данных пользователей…

В чем я действительно сомневаюсь, так это в сервисе pochta.ru. У них находятся 5 моих ящиков (4 из которых заброшены). Спама на них — хоть отбавляй.

Ясно, что исследование весьма нехитрое, и его легко выполнить самостоятельно, чем я, наверно, и займусь.

    1 комментарий

Спамеры обнаглели

3 августа 2006 года, 13:13

Сегодня приходит некое письмо Expert Marketing Newsletter, #18 (очевидно, спам, поскольку я этот Newsletter ни у кого не просил), в котором мне рассказывают о новом законе «О рекламе».

Несмотря на законодательное закрепление норм, направленных на борьбу со спамом, с сожалением следует отметить, что значительного эффекта от практического применения данных норм ожидать в ближайшее время не приходится. Этому есть несколько причин.

Далее мне подробно объясняют, почему я должен терпеть весь этот fucking спам и почему деятельность спамеров останется безнаказанной.

Спамеры обнаглели.

    Оставить комментарий

О спаме

31 июля 2006 года, 12:09

Похоже, методы борьбы со спамом, использующие javascript, действительно хороши (подробности для интересующихся). На ящик, красующийся внизу каждой страницы, не пришло ни одного лишнего письма.

Но, видимо, спамеры не дремлют. Они пытаются отсылать письма на несуществующие адреса, например, на sale, buh, personal перед знаком @ и доменом. Пришлось отключить сбор почты на такие адреса.

    Оставить комментарий

Галоши за 50 $

23 февраля 2006 года, 01:14

В спаме рекламируют, конечно, всякое. Но такого я еще не видел:

Предлагаем необычный и практичный подарок на 23 февраля — VIP-галоши!
VIP-галоши отлично подойдут мужчинам, которые ходят на работу в хорошей классической обуви и хотят сохранить её чистой и сухой.
VIP-галоши изготовлены из тонкой высококачественной эластичной резины, легко снимаются и одеваются.
Заказать VIP-галоши по цене 1450 рублей за пару можно по телефону: [вырезано цензурой]
    Оставить комментарий
Поделиться
Записи