DarkBERT, une IA générative entraînée à partir des contenus diffusés sur le dark web

Le 22 mai 2023 à 05h08
1 min
Sciences et espace
Sciences
Des chercheurs sud-coréens de l’Institut supérieur coréen des sciences et technologies (KAIST) et de la société S2W Inc, spécialisée dans l’analyse des données de cybersécurité pour le renseignement sur les cybermenaces, viennent de rendre public un grand modèle de langage (LLM) pré-entraîné sur les données du Dark Web, DarkBERT, rapporte Numerama.
Basée sur l’architecture RoBERTa de Meta, reposant sur BERT (Bidirectional Encoder Representations from Transformers) développé par Google en 2018, ce modèle « devrait servir aux experts en cybersécurité pour faciliter les recherches sur ce territoire comme la publication des données volées par des groupes de ransomwares », note Le Monde Informatique, qui évoque des résultats « encourageants ».
Le 22 mai 2023 à 05h08
Commentaires (9)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 22/05/2023 à 05h19
Un cas d’utilisation des LLM intéressant, profitant de leur capacité à indexer et synthétiser de la donnée pour la restituer.
Ce genre d’implémentation spécialisée va se répandre de plus en plus je pense.
Le 22/05/2023 à 06h12
C’est même tout l’objectif, un produit spécialisé dans le droit, un dans la médecine etc tu peux les facturer plus chère qu’un produit générique disponible à tous
Le 22/05/2023 à 07h05
Oui c’est malin, sur le darkweb ou rien n’est facilement indexé, après ici c’est uniquement le réseau Tor.
J’ai lu en diagonale le rapport, ils précisent qu’il filtrent les pages avec “Captcha error” entre autres > même sur Tor ils sont obligé de mettre des captchas contre les crawlers ?
Quand on voit la répartition du contenu avant préfiltrage p.13, c’est révélateur.
Le 22/05/2023 à 07h49
Je crois même que les pires captcha de la terre entière se trouvent sur TOR
Le 22/05/2023 à 10h00
Et en général qui dit Captcha dit souvent entraînement d’une IA à l’œil. La boucle est bouclée.
Le 22/05/2023 à 09h03
Le “such” qui change tout
“On ne sais bosser qu’avec Tor, mais on est au courant que c’est pas que ça, donc ajoute ce mot comme excuse.”
Le 22/05/2023 à 09h27
Quelqu’un a réussi à trouver leur modèle soi-disant rendu public ?
Le 22/05/2023 à 10h37
Dans la publi:
La conférence c’est la ACL’23 (July 9th to July 14th, 2023).
https://2023.aclweb.org
Le 22/05/2023 à 16h23
Clairement sur le droit oui l’intérêt est là. Aujourd’hui chercher sur Legifrance n’est pas forcément d’une très grande simplicité ou lisibilité.
Un modèle de langage spécialisé dans la lecture du code serait d’une grande aide et serait surtout en capacité de corréler les différents textes de lois éparpillés entre les codes (Code A qui fait référence entre au Code Pénal, et la référence aux Directives Européennes, etc.).