web-dev-qa-db-fra.com

Comment filtrer les messages avec emoji animé dans le sujet dans Gmail?

Je parcourais mon dossier de courrier indésirable (ce que je fais rarement, car Gmail a rarement des faux positifs) et j'ai remarqué quelque chose d'intéressant:

sample list of spam messages

Quelque chose comme plus de la moitié des messages contient au moins un emoji animé dans le sujet.

Aucun de mes amis n'utiliserait cette merde. Aucune entreprise valide avec laquelle je ferais affaire ne le ferait jamais non plus.

Comment puis-je créer un filtre pour supprimer éventuellement des messages contenant des emoji animés dans le sujet?

En utilisant l’indice ci-dessous de jamesmstone , j’ai tenté une recherche avec subject:=?UTF-8? et subject:"=?UTF-8?" et plusieurs autres permutations, mais aucune n’a fonctionné.

Voici un exemple d’en-têtes de l’une de ces piles:

Delivered-To: [redacted]@gmail.com
Received: by 10.107.28.200 with SMTP id c191csp1104992ioc;
        Sun, 24 Jan 2016 19:07:16 -0800 (PST)
X-Received: by 10.107.38.5 with SMTP id m5mr15068933iom.15.1453691236564;
        Sun, 24 Jan 2016 19:07:16 -0800 (PST)
Return-Path: <[email protected]>
Received: from mythirdxyz.xyz ([2a04:5b00:a2d0:3d74:37fd:ee71:efe6:6e11])
        by mx.google.com with ESMTP id o10si8722554igw.41.2016.01.24.19.07.15
        for <[redacted]@gmail.com>;
        Sun, 24 Jan 2016 19:07:16 -0800 (PST)
Received-SPF: pass (google.com: domain of [email protected] designates 2a04:5b00:a2d0:3d74:37fd:ee71:efe6:6e11 as permitted sender) client-ip=2a04:5b00:a2d0:3d74:37fd:ee71:efe6:6e11;
Authentication-Results: mx.google.com;
       spf=pass (google.com: domain of [email protected] designates 2a04:5b00:a2d0:3d74:37fd:ee71:efe6:6e11 as permitted sender) [email protected];
       dkim=pass [email protected];
       dmarc=pass (p=REJECT dis=NONE) header.from=mythirdxyz.xyz
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=mythirdxyz.xyz; 
 [email protected]; q=dns/txt; s=default; t=1453691229; 
 bh=GuM9JCP4yh7WfVbRBortR7UAr6DAtlgy0oTCna0iWQk=; h=MIME-Version : 
 Content-Type : Content-Transfer-Encoding : To : From : Subject : Date : 
 Message-ID : From : Subject : Date; 
 b=e/zS14UB4o5MhYlfbpsy0h2G/oZyoC5H3ouyhNh13zcSHSNXzI6uvJpIy9a+za2ng26Xe2
 NfAI7nenAMCdHJSGF4yfmtTi3+XrR2MqQPHQ1fzTXGhRy/ktCj4tEqt7DhSxnRCqkYFUNaLA
 wh3FMLr6IxPi2Z7xUXm3JBffhDcSU=
MIME-Version: 1.0
Content-Type: text/html; charset="utf-8"
Content-Transfer-Encoding: base64
To: [redacted]@gmail.com
From: "APPROVAL DEPARTMENT" <[email protected]>
Subject: =?utf-8?q?=F3=BE=93=A0_Personal_loan_as_soon_as_tomorrow_=F3=BE=93=A0?=
Date: Sun, 24 Jan 2016 19:07:09 -0800
Message-ID: <[email protected]>
27
ale

Réponse courte

Au lieu d'utiliser des filtres Gmail qui dépendent de la fonctionnalité de recherche Gmail pour rechercher les émojis codés dans les messages d'origine, créez un script à l'aide de la méthode GmailMessage :: getRawContent () du script Google Apps pour traiter les messages. .

Questions connexes

Vous trouverez ci-dessous des liens vers des réponses à des questions similaires sur ce site, notamment des scripts utilisant la méthode mentionnée.

10
Rubén

J'ai créé un script Google Apps à cette fin.

C'est sur Github: https://github.com/spamzero/spamzero

Il vous permet de créer toutes sortes de règles avancées que vous pouvez faire correspondre à votre dossier de courrier indésirable, afin que les messages qui sont définitivement du courrier indésirable soient automatiquement nettoyés.

4
Spam Zero

Ce n'est pas tout à fait ce que vous demandez (en filtrant les émoticônes eux-mêmes plutôt que les messages contenant des émoticônes), mais vous pouvez trouver une partie du contenu utile pour créer un meilleur filtre de messages.

Il existe maintenant un utilisateur open-source Greasemonkey/Tampermonkey/Violentmonkey pour se débarrasser de ces cafards visuels irritants (juste les personnages, pas les messages eux-mêmes):

Ligne Objet Gmail Emoji Roach Motel

En regardant la source de ce script , vous verrez qu'il existe deux types généraux de cafards émoticônes que vous trouverez dans les courriels de spécialistes du marketing abusifs (de nos jours, y compris eBay et Amazon):

  • Cafards à base d'images HTML (y compris les horribles animés) aka goomoji

  • Cafards Unicode: il existe encore de nombreux emoji (et autres séquences Unicode générant des images) que les spammeurs et autres spécialistes du marketing commencent à utiliser dans les lignes d'objet d'e-mail et que gmail ne se convertit pas en images HTML. Dans certains navigateurs, ceux-ci apparaissent en gras et en couleur, ce qui est presque aussi mauvais que l'animation. Les navigateurs pourraient également choisir de les animer, mais je ne sais pas s’il en existe. Ces séquences Unicode sont affichées par le navigateur sous forme de texte Unicode. L'apparence exacte (couleur ou non, animation ou non, ...) dépend du système de rendu du texte utilisé par le navigateur. L'apparence d'un emoji Unicode donné dépend également de tous les sélecteurs de variation Unicode et modificateurs emoji apparaissant à proximité de celui-ci dans la séquence de points de code Unicode. Contrairement au spam emoji basé sur une image, ces séquences peuvent être copiées et collées à partir du navigateur vers d'autres applications au format Unicode.

Pour ce dernier type, le script utilisateur inclut une expression régulière conçue pour capturer les séquences Unicode susceptibles d’être utilisées de manière abusive par les spécialistes du marketing. La regex ressemble à ceci dans Javascript ES6 (le script utilisateur traduit cela en une regex pré-ES6 largement supportée en utilisant l'incroyable ES6 Regex Transpiler ):

var re = /(\p{Emoji_Modifier_Base}\p{Emoji_Modifier}?|\p{Emoji_Presentation}|\p{Emoji}\uFE0F|[\u{2100}-\u{2BFF}\u{E000}-\u{F8FF}\u{1D000}-\u{1F5FF}\u{1F650}-\u{1FA6F}\u{F0000}-\u{FFFFF}\u{100000}-\u{10FFFF}])\s*/gu

// which includes the Unicode Emoji pattern from
//   https://github.com/tc39/proposal-regexp-unicode-property-escapes
// plus also these blocks frequently used for spammy emojis
// (see https://en.wikipedia.org/wiki/Unicode_block ):
//   U+2100..U+2BFF     Arrows, Dingbats, Box Drawing, ...
//   U+E000..U+F8FF     Private Use Area (gmail generates them for some emoji)
//   U+1D000..U+1F5FF   Musical Symbols, Playing Cards (sigh), Pictographs, ...
//   U+1F650..U+1FA6F   Ornamental Dingbats, Transport and Map symbols, ...
//   U+F0000..U+FFFFF   Supplementary Private Use Area-A
//   U+100000..U+10FFFF Supplementary Private Use Area-B
// plus any space AFTER the discovered emoji spam
1
Louis Semprini