detection

Distinguer les domaines détournés de ceux enregistrés aux fins d’actes malveillants avec COMAR

Accueil > Observatoire & ressources > Papiers d’experts > Distinguer les noms de domaine détournés des noms de domaine enregistrés aux fins d’actes de malveillance à l’aide de COMAR : principaux résultats et perspectives d’avenir
Le 15/04/2021

Par Sourena Maroofi (Université Grenoble Alpes), Maciej Korczyński (Université Grenoble Alpes), Thymen Wabeke (SIDN Labs), Cristian Hesselman (SIDN Labs), Benoît Ampeau (Afnic), Andrzej Duda (Université Grenoble Alpes)

Dans notre article précédent, nous présentions le projet de recherche franco-néerlandais portant sur la classification automatique des abus en matière de nom de domaine à l’aide de COMAR, évoquions l’importance et décrivions ses objectifs. Aujourd’hui, nous allons vous parler des principaux résultats obtenus jusqu’à présent et des perspectives de ce projet.

Qu’est-ce que COMAR ?

En bref, COMAR est un système capable de distinguer les noms de domaine enregistrés par les cybercriminels aux fins d’actes de malveillance des noms de domaine usurpés au moyen d’applications web vulnérables.

COMAR permet à divers intermédiaires tels que les bureaux d’enregistrement, les hébergeurs et les registres de domaines de premier niveau d’optimiser davantage leurs procédures de lutte contre les abus. Un nom de domaine identifié comme ayant été enregistré à des fins malveillantes peut être bloqué par le registre ou le bureau d’enregistrement, en fonction des politiques applicables, en retirant son nom du fichier de zone. Un nom de domaine légitime mais compromis ne devrait pas être bloqué. En revanche, le contenu malveillant devrait être supprimé par l’hébergeur ou le propriétaire du domaine (registrant).

La classification avec COMAR

COMAR effectue une classification automatique presque en temps réel, en s’appuyant sur des données publiques (WHOIS, DNS, données sur l’hébergement, etc.) sur des domaines dérivés de listes noires d’URL. Pour nos travaux de recherche, nous avons utilisé les ensembles de données OpenPhish community feed, PhishTank, APWG et URLhaus, mais le système peut également consulter d’autres types de listes noires comme les sites e-commerce contrefaits.

COMAR n’exploite pas les données brutes : ses décisions sont fondées sur les indicateurs qu’il en extrait, également appelés caractéristiques, que nous avons amplement étudiés. Par exemple, la présence de mots-clés spécifiques dans le nom de domaine, tels que « vérification », « compte » ou « support » (par ex. supportcompte-services.com), est une caractéristique indiquant qu’un nom de domaine a été enregistré par un cybercriminel.

Notre analyse approfondie de la fréquence des termes a montré que les cybercriminels avaient tendance à les intégrer au nom de domaine pour convaincre leurs victimes de saisir leurs informations de connexion (identifiant et mot de passe, etc.). À l’inverse le nombre de technologies (cadres, bibliothèques, etc.), comme les systèmes de gestion de contenu WordPress, utilisées pour créer un site Internet est une caractéristique indiquant qu’un nom de domaine a été enregistré par un utilisateur sans mauvaise intention, puis compromis.

Le raisonnement étant que les propriétaires légitimes de domaines font en sorte de créer des contenus susceptibles d’accroître l’intérêt des utilisateurs et donc la popularité du site, autrement dit le volume de trafic entrant. Ce n’est généralement pas nécessaire au bon fonctionnement des noms de domaine malveillants, qui utilisent généralement moins de technologies.

Au total, nous avons proposé 38 caractéristiques, réparties dans 7 catégories, que nous présentons en détail dans notre article de recherche publié en 2020 à l’occasion de l’IEEE European Symposium on Security and Privacy[1].

Principaux résultats

  • Nous avons soumis COMAR[1] à un nombre considérable de tests en utilisant des listes noires de phishing et de malwares, pour montrer qu’il atteint un niveau de précision élevée : 97 % des noms de domaine ont été classifiés correctement sans avoir recours à des données confidentielles ou privées, ce qui permet l’utilisation de l’outil par toutes sortes d’organisations.
  • Dans l’échantillon des domaines utilisés pour des attaques par phishing que nous avons classifiés manuellement, 58 % avaient été enregistrés à des fins malveillantes et 42 % avaient été compromis. Dans l’échantillon des noms de domaine utilisés pour diffuser des malwares, 57 % avaient été compromis et 43 % avaient été enregistrés par des cybercriminels [1].
  • Nous avons démontré que ce que nous appelons les caractéristiques relatives au contenu (nombre de technologies utilisées pour créer le site et le volume du contenu sur la page d’accueil du domaine, etc.) sont les plus efficaces pour évaluer le « niveau de bénignité » des noms de domaine[1].
  • Nous avons développé une nouvelle méthode visant à estimer la durée de création d’un domaine lorsqu’il n’est pas possible d’accéder aux informations de la base de données WHOIS, qui est plus efficace que les méthodes statistiques standard pour trouver les données manquantes[1].
  • Nous avons évoqué les différentes manières par lesquelles les attaquants pourraient contourner le système COMAR[1]. Les coûts et les efforts importants que cela demanderait pourraient suffire à décourager les acteurs malveillants.
  • Nous concluions que les principales méthodes heuristiques proposées dans l’enquête APWG sur le phishing, utilisées seules, risquent de ne pas être capables de classifier correctement les noms de domaine enregistrés à des fins malveillantes, en particulier s’ils ne contiennent ni nom de marque connu ni chaîne de caractères trompeuse ou s’ils n’ont pas été utilisés rapidement après l’enregistrement[1].
  • Des recherches antérieures ont montré que les cybercriminels enregistraient des noms de domaine et attendaient parfois plusieurs mois, afin d’améliorer leur réputation auprès des organismes de contrôle de la sécurité, avant de s’en servir pour lancer des attaques de phishing. Cette tactique est connue sous le nom de « vieillissement des domaines »[2, 3]. Nous montrons qu’environ 12 % des domaines de l’ensemble analysé ont été compromis dans les trois mois qui ont suivi leur enregistrement. Ces deux constats nous amènent à considérer que les systèmes d’évaluation de la réputation des domaines qui se fondent uniquement sur l’âge ne peuvent pas précisément distinguer les domaines enregistrés à des fins malveillantes de ceux qui ont été compromis[1].
  • Dans le cadre du projet, nous avons également étudié les techniques utilisées par les acteurs malveillants pour contourner les mécanismes de lutte contre le phishing. En visitant manuellement des sites malveillants, nous avons remarqué que les cybercriminels utilisaient souvent Google re-CAPTCHA[1] pour dissimuler le contenu réel des pages. Pour en savoir plus sur ces travaux, vous pouvez consulter notre article publié en 2020 à l’occasion de la ACM Internet Measurement Conference[4].

Perspectives d’avenir

La possibilité de distinguer les domaines malveillants des domaines compromis pourraient permettre de révéler les pratiques les plus courantes des attaquants, ainsi que leurs comportements visant à augmenter leurs profits. Ainsi, l’une des prochaines pistes de recherche portera sur l’étude séparée des schémas des noms de domaine malveillants et de ceux des noms de domaine compromis, afin de répondre notamment aux questions suivantes : en règle générale, les acteurs malveillants déploient-ils des certificats TLS pour les domaines enregistrés à des fins malveillantes afin de leur donner une apparence plus légitime ? Quelle est la proportion de domaines enregistrés à des fins malveillantes dans l’ensemble des domaines inscrits sur liste noire dans les différents écosystèmes DNS (domaines de premier niveau nationaux (ccTLD), extensions génériques (gTLD) anciennes et nouvelles, etc.) ? Cela aiderait les intermédiaires à identifier les méthodes d’exploitation de leurs écosystèmes de noms de domaine pour appliquer des mesures préventives plus efficaces.

L’API COMAR permet déjà de demander l’analyse et la classification d’URL malveillantes. Nous prévoyons d’évaluer la méthode a posteriori en classifiant manuellement les domaines .FR et .NL avant de vérifier si nos résultats correspondent à ceux obtenus automatiquement par COMAR. A terme, le projet COMAR a pour but le déploiement de l’outil dans les systèmes de l’Afnic et du SIDN – les registres de 2 extensions de premier niveau majeures en Europe – et la mise en place d’un système d’alerte précoce pour faciliter la réparation des URL mises sur liste noire.

Références

[1] « COMAR: Classification of Compromised versus Maliciously Registered Domains », Sourena Maroofi, Maciej Korczyński, Cristian Hesselman, Benoit Ampeau et Andrzej Duda, IEEE European Symposium on Security and Privacy (IEEE EuroS&P 2020), Conférence virtuelle, septembre 2020.

[2] « Global Phishing Survey: Trends and Domain Name Use in 2016 », Greg Aaron et Rod Rasmussen, juin 2017.

[3] « Cybercrime After the Sunrise: A Statistical Analysis of DNS Abuse in New gTLDs », Maciej Korczynski, Maarten Wullink, Samaneh Tajalizadehkhoob, Giovane C.M. Moura, Arman Noroozian, Drew Bagley, Cristian Hesselman, ACM Asia Conference on Computer and Communications Security (ACM AsiaCCS 2018), Corée du Sud, juin 2018.

[4] « Are You Human? Resilience of Phishing Detection to Evasion Techniques Based on Human Verification », Sourena Maroofi, Maciej Korczyński, et Andrzej Duda, ACM Internet Measurement Conference (ACM IMC 2020), Conférence virtuelle, octobre 2020.