Application du système de classification COMAR à 35 000 URL de phishing distinctes

Accueil > Observatoire & ressources > Papiers d’experts > Application du système de classification COMAR à 35 000 URL de phishing distinctes

Le 30/05/2022

Ce travail de recherche a été mené par l’Université de Grenoble Alpes en partenariat avec l’Afnic et SIDN Labs.

^{Cet article a été co-écrit par Benoit Ampeau (Directeur partenariats et innovation à l’Afnic), Marc van der Wal (Ingénieur R&D Afnic), Maciej Korczyński (Professeur Associé à l’Institut Polytechnique de Grenoble, Grenoble INP-UGA), Thymen Wabeke (Ingénieur de recherche, SIDN Labs) et Cristian Hasselman (Directeur SIDN Labs)}

Dans nos blogs précédents [1, 2], nous avons traité du classificateur COMAR, qui regroupe automatiquement les URL sur liste noire dans des noms de domaine compromis ou enregistrés de manière malveillante. Dans ce blog, nous nous concentrons sur l’application du classificateur COMAR aux URL sur liste noire desservant des pages de phishing. Nous étudions quatre caractéristiques sélectionnées des noms de domaine des URL malveillantes et analysons leur distribution à travers différents types de domaines de premier niveau (TLD, Top Level Domains). Sur la base des ensembles de données analysés, par exemple, nous constatons que 84 % des noms de domaine enregistrés de manière malveillante datent de moins d’un an et qu’environ 57 % des domaines compromis, exploités souvent au niveau du site Web, ont été enregistrés au moins six ans après que leurs URL correspondantes aient été mises sur liste noire. Comme COMAR est un système entièrement automatisé qui effectue une classification basée sur plusieurs caractéristiques, il est renforcé contre la manipulation (par exemple, le « vieillissement » du domaine).

Ce qu’il faut retenir

Nos principaux constats sont les suivants :

Environ un quart des domaines abusifs utilisés pour lancer des campagnes de phishing sont compromis et ne peuvent généralement pas être bloqués au niveau du DNS.
Alors que pour les Legacy gTLD et ccTLD, entre 26 % et 32 % des domaines sont bénins mais possiblement exploités au niveau du site Web, la grande majorité des nouveaux gTLD sont enregistrés de manière malveillante.
Les mots clés les plus utilisés dans les noms de domaine enregistrés par des acteurs malveillants pour inciter les victimes à fournir leurs informations d’identification sont : « en ligne », « banque », « service », « info », « support », « sécurisé » et « paypal ».
Pour 84 % des noms de domaine enregistrés de manière malveillante, la différence entre la date d’enregistrement du domaine et la date de mise sur liste noire est inférieure à un an, et pour 13 % d’entre eux, les domaines ont été mis sur liste noire le jour même de l’enregistrement du domaine.
Pas moins de 71,8 % des noms de domaine enregistrés de manière malveillante n’ont pas de technologie spécifique sur leur page d’accueil. En comparaison, 67,7 % des domaines compromis utilisent plus de six frameworks et plugins différents pour créer le site Web, ce qui les rend vulnérables aux attaques d’applications Web.

Présentation du système COMAR

COMAR (Classification of COmpromised versus MAliciously Registered domains) [3] est un système d’apprentissage automatique capable de faire la distinction entre les noms de domaine enregistrés par des cybercriminels uniquement à des fins frauduleuses et les noms de domaine bénins mais piratés exploités principalement au niveau de l’hébergement, souvent en profitant de vulnérabilités dans les applications Web. Dans les deux cas, les cybercriminels abusent de ces domaines pour distribuer des contenus malveillants, comme des logiciels malveillants ou des sites Web de phishing. Le classificateur COMAR est une méthode plus précise [3] pour réaliser cette distinction qu’un ensemble d’heuristiques, comme l’âge du nom de domaine, souvent utilisé par les praticiens. Notez qu’un site Web peut être piraté peu de temps après l’enregistrement d’un nom de domaine, ou que des cybercriminels peuvent enregistrer un nom de domaine et l’utiliser dans une campagne de phishing plusieurs mois après son enregistrement. Ces derniers pourraient donc générer de fausses évaluations concernant la malveillance du nom de domaine. COMAR ne souffre pas de ces limites, car le système ne s’appuie pas excessivement sur des caractéristiques individuelles comme une date d’enregistrement (qui n’est que l’une des 38 caractéristiques proposées) [3].

L’objectif du classificateur COMAR est d’aider les acteurs de l’enregistrement et de l’hébergement de noms de domaine à améliorer leurs processus anti-abus. Plus précisément, si COMAR classe un nom de domaine comme enregistré de manière malveillante, les registres et les bureaux d’enregistrement peuvent bloquer le nom de domaine^[1] et le fournisseur d’hébergement supprimer le contenu malveillant du serveur d’hébergement. Si COMAR classe un nom de domaine comme bénin mais compromis au niveau de l’hébergement, les registres et les bureaux d’enregistrement ne doivent pas le bloquer au niveau du DNS pour éviter des dommages collatéraux à ses utilisateurs légitimes (c’est-à-dire le titulaire du nom de domaine et les visiteurs du site Web). Au lieu de cela, selon que l’hébergement est non géré ou géré, le webmaster ou le fournisseur d’hébergement doit supprimer le contenu malveillant et corriger l’application vulnérable

Comme les noms de domaine signalés comme malveillants ou bénins mais compromis sont connus, nous pouvons également obtenir des informations plus exploitables sur le comportement des attaquants. Par exemple, COMAR peut aider à lister les termes populaires (par exemple, support, en ligne, banque) dans les domaines utilisés dans les attaques de phishing et classés comme enregistrés de manière malveillante. Une telle liste peut constituer la base de la création d’un système de surveillance de domaine proactif qui suit les domaines nouvellement enregistrés contenant de tels mots clés afin d’identifier d’éventuelles nouvelles activités de phishing.

Résultats du classement

Pour ce blog, nous avons analysé les URL de phishing que nous avons collectées au cours des six premiers mois de 2021. Nous avons évalué automatiquement 35 519 URL de phishing uniques (avec des noms de domaine sous-jacents uniques dans différents TLD) qui ont été collectées à partir de APWG et PhishTank.

La figure 1 montre les résultats globaux de la classification : 76 % des noms de domaine ont été enregistrés à des fins malveillantes uniquement, et 24 % classés comme enregistrés par des utilisateurs bénins mais compromis. Si ces noms de domaine ont été compromis au niveau de l’hébergement plutôt qu’au niveau du DNS, ils ne doivent pas être bloqués par les registres TLD ou les bureaux d’enregistrement.

Figure 1 : Résultats de la classification globale des URL de phishing

Figure 1 : Résultats de la classification globale des URL de phishing

La figure 2 montre les résultats de la classification des sites de phishing dans différents types de TLD :

Legacy gTLD (par exemple, .com, .net ou .org)
nouveaux gTLD (par exemple, .top, .report ou .xyz)
ccTLD (par exemple, .nl, .fr ou .br).

Figure 2 : Résultats du classement des URL de phishing : répartition par type de TLD

Figure 2 : Résultats du classement des URL de phishing : répartition par type de TLD

La figure 2 montre que près de 96 % des noms de domaine des URL de phishing sur liste noire dans les nouveaux gTLD sont susceptibles d’être enregistrés de manière malveillante, 69 % pour les anciens gTLD et environ 74 % pour les ccTLD. La question se pose : pourquoi la proportion de domaines enregistrés à des fins malveillantes dans les nouveaux gTLD par rapport à ceux compromis est-elle beaucoup plus élevée que dans les ccTLD et les Legacy gTLD ? Des études antérieures [4, 5] ont montré qu’en général, pour les nouveaux gTLD, une proportion relativement importante de noms de domaine sont soit parqués, soit ne contiennent aucun contenu (erreurs DNS ou HTTP), par rapport aux Legacy gTLD. Intuitivement, seuls les noms de domaine contenant du contenu sont susceptibles d’être vulnérables à certains types d’exploits et peuvent donc être exploités au niveau du site Web. Cela pourrait être une explication plausible de la raison pour laquelle seule une infime fraction des noms de domaine des nouveaux gTLD est susceptible d’être compromise. Cependant, cette hypothèse nécessite des recherches futures systématiques car aucune étude récente n’a mené une telle analyse comparative.

Les résultats présentés ne doivent être qu’un indicateur de tendances et peuvent être influencés par le biais de la liste noire ainsi que par les tendances à court terme affectant les choix faits par les attaquants. Par exemple, certaines listes noires peuvent être plus efficaces pour détecter les noms de domaine enregistrés de manière malveillante (par exemple, basées sur des mots-clés suspects), tandis que d’autres peuvent être plus efficaces pour détecter les sites compromis. Certains bureaux d’enregistrement, accrédités par un registre de TLD, peuvent proposer des prix d’enregistrement bas pendant une courte période pour attirer de nouveaux clients. Des acteurs malveillants peuvent profiter de ces offres spéciales et enregistrer des noms de domaine à grande échelle. Cela peut affecter les proportions observées entre les domaines compromis et enregistrés de manière malveillante.

Analyse de certaines caractéristiques des décisions de classification COMAR

Comme discuté dans notre blog précédent [2], les décisions de classification de COMAR sont basées sur ce des caractéristiques (38 à ce jour), qui capturent les caractéristiques d’une URL sur liste noire et les noms de domaine enregistrés. Dans ce blog, nous présentons comment les noms de domaine compromis et enregistrés de manière malveillante que COMAR distingue diffèrent suivant quatre caractéristiques sélectionnées : les termes populaires dans les noms de domaine, le nombre de technologies Web utilisées, l’âge du nom de domaine et l’utilisation des certificats HTTPS.

Les caractéristiques indiquant qu’un cybercriminel (plutôt qu’un utilisateur bénin) a enregistré un nom de domaine incluent des mots-clés spéciaux dans le nom de domaine, comme « vérification », « paiement » ou « assistance » ou des noms de marque (par exemple, paypal-online-support.com). La figure 3 présente l’analyse de la fréquence des mots dans l’ensemble de données de phishing pour les deux noms de domaine automatiquement classés comme enregistrés de manière malveillante (rouge) et compromis (bleu).

Figure 4 : Mots-clés populaires utilisés dans les noms de domaine de phishing

Figure 3 : Mots-clés populaires utilisés dans les noms de domaine de phishing

En effet, nous constatons que les cybercriminels ont tendance à incorporer ces mots dans les noms de domaine pour inciter les victimes à entrer leurs informations d’identification. Les mots clés les plus fréquemment utilisés par les acteurs malveillants sont « en ligne », « banque », « service », « info », « support », « sécurisé » et « paypal ». D’un autre côté, les parties de noms de domaine des sites compromis contiennent rarement de tels mots-clés spéciaux. Par conséquent, COMAR exploite des caractéristiques lexicales telles que « mot spécial dans le nom de domaine » ou « nom d’une marque connue dans le nom de domaine » dans la classification.

L’une des caractéristiques de COMAR est le « nombre de technologies Web » dans lesquelles on compte les frameworks et plugins JavaScript, Feuilles de style en cascade (CSS), ou Content Management System (CMS) utilisés pour construire la page d’accueil du nom enregistré et du nom de domaine. Les développeurs de sites Web de haut niveau conçus par des professionnels évitent généralement d’utiliser trop de bibliothèques et de frameworks. Cependant, ce n’est pas le cas pour les sites Web moins complexes. Le nombre de technologies utilisées pour développer un site Web peut refléter la quantité d’efforts et de temps que son concepteur a consacré à créer un site Web entièrement fonctionnel. La figure 4 montre les résultats pour les noms de domaine compromis et enregistrés de manière malveillante.

Figure 5 : Nombre de technologies pour les domaines de phishing enregistrés de manière malveillante et compromis.

Figure 4 : Nombre de technologies pour les domaines de phishing enregistrés de manière malveillante et compromis.

Pas moins de 67,7 % des domaines compromis utilisent plus de six technologies, frameworks et plugins différents pour créer le site Web. En comparaison, 71,8 % des noms de domaine enregistrés de manière malveillante n’ont pas de technologie spécifique sur leur page d’accueil. Nous avons remarqué que de nombreux domaines enregistrés de manière malveillante n’ont pas de page d’accueil (affichant l’index de répertoire par défaut servi par le serveur Web), redirigent vers un autre domaine (par exemple, la page de destination d’une attaque de phishing) ou affichent un message d’erreur personnalisé (par exemple, page interdite). Au lieu de cela, ils diffusent fréquemment la page de phishing soit sur un chemin d’URL, soit au niveau d’un sous-domaine.

Figure 6 : Âge du nom de domaine pour les domaines compromis et enregistrés de manière malveillante

Figure 5 : Âge du nom de domaine pour les domaines compromis et enregistrés de manière malveillante

L’âge d’un nom de domaine, défini comme le temps entre l’enregistrement d’un nom de domaine et son apparition sur la liste noire, est l’une des caractéristiques importantes du classificateur COMAR. Intuitivement, plus le nom de domaine est ancien, plus il est probable qu’il ait été enregistré par un utilisateur bénin mais qu’il ait été compromis. D’un autre côté, les cybercriminels ont tendance à abuser d’un nom de domaine peu de temps après l’enregistrement. Gardez à l’esprit que les acteurs malveillants peuvent également compromettre les domaines peu de temps après leur enregistrement [3]. Ou bien, certains criminels peuvent laisser vieillir les domaines enregistrés, attendre des semaines et parfois des mois avant d’en abuser. Cependant, comme COMAR est un système entièrement automatisé effectuant une classification basée sur plusieurs caractéristiques (l’âge du domaine n’est que l’une d’entre elles), il est renforcé contre la manipulation (par exemple, vieillissement du domaine).

La figure 5 montre l’âge des noms de domaine pour tous les TLD qui fournissent une date d’enregistrement dans le cadre de leurs données WHOIS. Dans la figure, « 0 » signifie que l’enregistrement et la mise sur liste noire ont eu lieu le même jour. « 1 » signifie que la différence entre la date d’enregistrement et la date de mise sur liste noire est d’au plus un an, et « > 6 » signifie que la différence entre la date d’enregistrement du domaine et la date de mise sur liste noire est d’au moins six ans. Pour 84 % des noms de domaine enregistrés de manière malveillante, la différence entre la date d’enregistrement du domaine et la date de mise sur liste noire est inférieure à un an, et pour 13 % d’entre eux, les domaines ont été mis sur liste noire le jour même de l’enregistrement du domaine. Pour les noms de domaine compromis, environ 57 % d’entre eux ont été enregistrés au moins six ans avant d’être placés sur liste noire. Une explication possible de ce phénomène est que les sites Web hébergés sur des noms de domaine plus anciens sont plus susceptibles d’utiliser des technologies ou des systèmes de gestion de contenu obsolètes (par exemple, des versions vulnérables de CMS tels que WordPress), ce qui les rend plus faciles à compromettre.

Figure 7 : Certificats TLS émis pour les domaines de phishing enregistrés de manière malveillante et compromis.

Figure 6 : Certificats TLS émis pour les domaines de phishing enregistrés de manière malveillante et compromis.

Une autre caractéristique intéressante mais, selon notre analyse [3], moins importante du classificateur COMAR est l’utilisation du protocole Transport Layer Security (TLS, pour sécurité de la couche de transport). D’après un rapport de PhishLabs [9], les trois quarts de tous les sites de phishing utilisaient HTTPS (HTTP sur TLS) en 2020 « pour ajouter une couche de légitimité, mieux imiter le site cible en question et réduire le fait d’être signalé ou bloqué par certains navigateurs ». Cependant, le rapport confond les noms de domaine compromis avec des noms de domaine enregistrés de manière malveillante. Par conséquent, pour déterminer si les cybercriminels utilisent de plus en plus les certificats TLS, nous devons faire la distinction entre les noms de domaine compromis et enregistrés de manière malveillante et analyser l’utilisation de TLS uniquement dans ce dernier groupe. Sinon, savoir si le certificat TLS a été délivré à la demande d’un criminel pour un domaine enregistré de manière malveillante afin d’améliorer la crédibilité du site Web ou à la demande d’un propriétaire de domaine légitime pour un nom de domaine bénin qui a ensuite été compromis et abusé par le criminel reste flou.

La figure 6 montre le pourcentage de certificats TLS émis pour des domaines malveillants et bénins (puis compromis) impliqués dans des attaques de phishing. L’utilisation de certificats TLS est moins répandue chez les hameçonneurs que les noms de domaine bénins (mais compromis). 75 % des attaques de phishing utilisant des domaines compromis profitent de certificats TLS délivrés à la demande de propriétaires de domaines bénins (par exemple, en affichant le cadenas vert dans la barre d’adresse des navigateurs), tandis que 64 % des domaines enregistrés de manière malveillante utilisent des certificats TLS délibérément déployés par des acteurs malveillants pour leurrer leurs victimes.

Conclusions

Ce blog a présenté les résultats de l’application de COMAR aux sites Web de phishing et de la classification des domaines enregistrés comme malveillants ou compromis. Nous avons appliqué COMAR aux URL malveillantes mises sur liste noire par des fournisseurs réputés : APWG et PhishTank, de janvier à juin 2021. Nous avons démontré que 76,2 % des noms de domaine étaient enregistrés de manière malveillante et 23,8 % étaient compromis. Nous avons également révélé que l’occurrence de certains mots clés dans le nom de domaine, l’âge du domaine et le nombre de technologies utilisées sont des facteurs discriminants importants entre les domaines compromis et ceux enregistrés de manière malveillante. Nous avons également constaté que les acteurs malveillants déploient des certificats TLS moins fréquemment que les propriétaires de noms de domaine légitimes (et compromis). COMAR, un système entièrement automatisé qui effectue une classification basée sur plusieurs fonctionnalités, est renforcé contre la manipulation (par exemple, le vieillissement du domaine), pratique et beaucoup plus précis que les méthodes heuristiques basées sur des règles. Ainsi, cela peut aider à rationaliser le processus d’atténuation des abus DNS par les différentes entités impliquées dans l’enregistrement et l’hébergement des noms de domaine.

Bilan du projet COMAR

Ce blog clôt le projet COMAR, démarré fin 2018 et financé par l’Afnic et SIDN. COMAR a mené à une Thèse de doctorat réussie à l’Université Grenoble Alpes et à un total de quatre articles scientifiques : un publié dans le IEEE European Symposium on Security and Privacy 2020 (forum de premier plan) [3], un dans l’ACM Internet Measurement Conference 2020 [6] (également forum de premier plan), un à Traffic Measurement and Analysis 2020 [7] (prix du meilleur article) et sa version étendue à IEEE Transactions on Network and Service Management 2021 [8]. L’Afnic et SIDN intègrent actuellement le prototype du classificateur COMAR que l’Université Grenoble Alpes a développé dans leurs systèmes de production pour faciliter le processus de réparation des noms de domaine enregistrés ou compromis qui servent des contenus malveillants.

Au plaisir de poursuivre la collaboration entre l’Université Grenoble Alpes, l’Afnic et SIDN !