Принцип работы технологии Яндекс.Спамоборона

Аватар пользователя dev
Опубликовано вс, 07/05/2015 - 19:48 пользователем dev

«Спамооборона» обладает мощной системой анализа содержимого письма. Специальный анализатор (парсер) разделяет письмо на «чистую» составляющую, воспринимаемую человеком, и «грязную», содержащую, в частности, невидимый для пользователя текст и бессмысленные данные (информационный шум). Это позволяет эффективно бороться с трюками спамеров, выявляя характерные особенности оформления и содержимого писем.

Одновременно с этим происходит анализ технической информации о письме — проверяется достоверность информации об отправителе, анализируется подлинность заголовков письма, учитываются особенности настройки сетей и почтовых систем отправителей.
Поставщиком данных для системы правил является обновляемая база знаний, которая включает данные RBL, шинглы и наборы эвристик.

Решение «спам — не спам» принимается с учетом значимости сработавших правил, каждое из которых по отдельности не обладает достаточным весом.

«Шингл» — это специальным образом рассчитываемая метрика письма, позволяющая выявлять массовые рассылки. Алгоритм расчета шинглов основан на определении уникальных характеристик схожих сообщений. RBL (Realtime Blackhole List) — это список IP-адресов открытых почтовых релеев, прокси-серверов и неадминистрируемых сетей, с которых рассылается спам. Яндекс поддерживает собственный RBL.

Критериями оценки качества работы спам-фильтров являются полнота и точность фильтрации. Под полнотой подразумевается процент обнаруженного спама, точность — это количество ложных срабатываний. «Спамооборона» выявляет свыше 90% спама при единицах ложных срабатываний на 100 тыс. сообщений. Персональные настройки системы позволяют улучшить точность фильтрации.

Добавить комментарий

CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.