Publié dans Sciences et espace

9

DarkBERT, une IA générative entraînée à partir des contenus diffusés sur le dark web

DarkBERT, une IA générative entraînée à partir des contenus diffusés sur le dark web

Des chercheurs sud-coréens de l’Institut supérieur coréen des sciences et technologies (KAIST) et de la société S2W Inc, spécialisée dans l’analyse des données de cybersécurité pour le renseignement sur les cybermenaces, viennent de rendre public un grand modèle de langage (LLM) pré-entraîné sur les données du Dark Web, DarkBERT, rapporte Numerama.

Basée sur l’architecture RoBERTa de Meta, reposant sur BERT (Bidirectional Encoder Representations from Transformers) développé par Google en 2018, ce modèle « devrait servir aux experts en cybersécurité pour faciliter les recherches sur ce territoire comme la publication des données volées par des groupes de ransomwares », note Le Monde Informatique, qui évoque des résultats « encourageants ».

9

Tiens, en parlant de ça :

Un mélange entre une réunion d’Anonymous et de tête d’ampoules, pour le meilleur et le pire

652e édition des LIDD : Liens Intelligents Du Dimanche

Et bonne nuit les petits

00:04 Next 7
dessin de Flock

#Flock distribue des mandales tous azimuts

13:40 Flock 14
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #11 et résumé de la semaine

11:47 Next 40
Un mélange entre une réunion d’Anonymous et de tête d’ampoules, pour le meilleur et le pire

652e édition des LIDD : Liens Intelligents Du Dimanche

Next 7
dessin de Flock

#Flock distribue des mandales tous azimuts

Flock 14
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #11 et résumé de la semaine

Next 40
Carte graphique AMD GeForce

Cartes graphiques : 30 ans d’évolution des GPU

Hard 22

Google lance son opération de communications Gemini pour rivaliser avec OpenAI

IA 6
Ecran bleu de Windows

Linux : le composant systemd se dote d’un écran bleu de la mort

Soft 38
Une petite fille en train d'apprendre à programmer et hacker logiciels et appareils électroniques

Un roman graphique explique les logiciels libres aux enfants

SoftSociété 21
Nouveautés pour Messenger

Meta lance (enfin) le chiffrement de bout en bout de Messenger, entre autres

Socials 5

#LeBrief : cloud européen, OSIRIS-REx a frôlée la catastrophe, CPU AMD Ryzen 8040

Windows en 2024 : beaucoup d’IA, mais pas forcément un « 12 »

Soft 21
Einstein avec des qubits en arrière plan

Informatique quantique, qubits : avez-vous les bases ?

HardScience 9
Notifications iPhone

Surveillance des notifications : un sénateur américain demande la fin du secret

DroitSécu 17

En ligne, les promos foireuses restent d’actualité

DroitWeb 19

#LeBrief : modalité des amendes RGPD, cyberattaque agricole, hallucinations d’Amazon Q, 25 ans d’ISS

Logo Twitch

Citant des « coûts prohibitifs », Twitch quitte la Corée du Sud

ÉcoWeb 29
Formation aux cryptomonnaies par Binance à Pôle Emploi

Binance fait son marketing pendant des formations sur la blockchain destinées aux chômeurs

Éco 10
Consommation électrique du CERN

L’empreinte écologique CERN en 2022 : 1 215 GWh, 184 173 teqCO₂, 3 234 Ml…

Science 6
station électrique pour voitures

Voitures électriques : dans la jungle, terrible jungle, des bornes de recharge publiques

Société 78

#LeBrief : intelligence artificielle à tous les étages, fichier biométrique EURODAC

KDE Plasma 6

KDE Plasma 6 a sa première bêta, le tour des nouveautés

Soft 13
Un homme noir regarde la caméra. Sur son visage, des traits blancs suggèrent un traitement algorithmique.

AI Act et reconnaissance faciale : la France interpelée par 45 eurodéputés

DroitSociété 4
Api

La CNIL préconise l’utilisation des API pour le partage de données personnelles entre organismes

SécuSociété 3
Fouet de l’Arcep avec de la fibre

Orange sanctionnée sur la fibre : l’argumentaire de l’opérateur démonté par l’Arcep

DroitWeb 25
Bombes

Israël – Hamas : comment l’IA intensifie les attaques contre Gaza

IA 22

#LeBrief : bande-annonce GTA VI, guerre électronique, Spotify licencie massivement

Poing Dev

Le poing Dev – Round 7

Next 103
Logo de Gaia-X sour la forme d’un arbre, avec la légende : infrastructure de données en forme de réseau

Gaia-X « vit toujours » et « arrive à des étapes très concrètes »

WebSécu 7

Trois consoles portables en quelques semaines

Hard 37
Une tasse estampillée "Keep calm and carry on teaching"

Cyberrésilience : les compromis (provisoires) du trilogue européen

DroitSécu 3

#LeBrief : fuite de tests ADN 23andMe, le milliard pour Android Messages, il y a 30 ans Hubble voyait clair

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

9

Commentaires (9)


SebGF Abonné
Le 22/05/2023 à 05h19

Un cas d’utilisation des LLM intéressant, profitant de leur capacité à indexer et synthétiser de la donnée pour la restituer.



Ce genre d’implémentation spécialisée va se répandre de plus en plus je pense.


Firefly' Abonné
Le 22/05/2023 à 06h12

C’est même tout l’objectif, un produit spécialisé dans le droit, un dans la médecine etc tu peux les facturer plus chère qu’un produit générique disponible à tous


Xanatos Abonné
Le 22/05/2023 à 07h05

Oui c’est malin, sur le darkweb ou rien n’est facilement indexé, après ici c’est uniquement le réseau Tor.
J’ai lu en diagonale le rapport, ils précisent qu’il filtrent les pages avec “Captcha error” entre autres > même sur Tor ils sont obligé de mettre des captchas contre les crawlers ? :mad2:

Quand on voit la répartition du contenu avant préfiltrage p.13, c’est révélateur.


seboquoi
Le 22/05/2023 à 07h49

Xanatos

Oui c’est malin, sur le darkweb ou rien n’est facilement indexé, après ici c’est uniquement le réseau Tor. J’ai lu en diagonale le rapport, ils précisent qu’il filtrent les pages avec “Captcha error” entre autres > même sur Tor ils sont obligé de mettre des captchas contre les crawlers ? :mad2:
Quand on voit la répartition du contenu avant préfiltrage p.13, c’est révélateur.

Je crois même que les pires captcha de la terre entière se trouvent sur TOR :D


Ler van keeg
Le 22/05/2023 à 10h00

seboquoi

Je crois même que les pires captcha de la terre entière se trouvent sur TOR :D

Et en général qui dit Captcha dit souvent entraînement d’une IA à l’œil. La boucle est bouclée.


Dj Abonné
Le 22/05/2023 à 09h03

The Dark Web is a subset of the Internet that is not indexed by web search engines such as Google and is inaccessible through a standard web browser. To access the Dark Web, specialized overlay network applications such as Tor (The Onion Router) (Dingledine et al., 2004) are required.




Le “such” qui change tout :roll:



“On ne sais bosser qu’avec Tor, mais on est au courant que c’est pas que ça, donc ajoute ce mot comme excuse.”


Exagone313 Abonné
Le 22/05/2023 à 09h27

Quelqu’un a réussi à trouver leur modèle soi-disant rendu public ?


127.0.0.1
Le 22/05/2023 à 10h37

Exagone313 a dit:


Quelqu’un a réussi à trouver leur modèle soi-disant rendu public ?




Dans la publi:




We do not plan to publicly release the Dark Web text corpus used for pretraining DarkBERT.
We plan to only release the preprocessed version of DarkBERT in order to avoid any malpractices once the model is made publicly available (8).



(8) More information on the sharing of the datasets and the model itself will be released during the conference.




La conférence c’est la ACL’23 (July 9th to July 14th, 2023).
https://2023.aclweb.org


SebGF Abonné
Le 22/05/2023 à 16h23

(reply:2133717:Firefly’)




Clairement sur le droit oui l’intérêt est là. Aujourd’hui chercher sur Legifrance n’est pas forcément d’une très grande simplicité ou lisibilité.



Un modèle de langage spécialisé dans la lecture du code serait d’une grande aide et serait surtout en capacité de corréler les différents textes de lois éparpillés entre les codes (Code A qui fait référence entre au Code Pénal, et la référence aux Directives Européennes, etc.).