Abonnez-vous Connexion

Abonnez-vous

Nous suivre

À propos

Next, média indépendant, est soutenu par la société moji.

Elle lui assure une pérennité économique et lui permet de maintenir sa totale liberté éditoriale, d'expérimenter de nouvelles formes d'information et de garantir sa survie à long terme, sans dépendre d'annonceurs externes.

DarkBERT, une IA générative entraînée à partir des contenus diffusés sur le dark web

Par Sébastien Gavois

Le 22 Mai 2023 à 05h08

1 min 9

Des chercheurs sud-coréens de l’Institut supérieur coréen des sciences et technologies (KAIST) et de la société S2W Inc, spécialisée dans l’analyse des données de cybersécurité pour le renseignement sur les cybermenaces, viennent de rendre public un grand modèle de langage (LLM) pré-entraîné sur les données du Dark Web, DarkBERT, rapporte Numerama.

Basée sur l’architecture RoBERTa de Meta, reposant sur BERT (Bidirectional Encoder Representations from Transformers) développé par Google en 2018, ce modèle « devrait servir aux experts en cybersécurité pour faciliter les recherches sur ce territoire comme la publication des données volées par des groupes de ransomwares », note Le Monde Informatique, qui évoque des résultats « encourageants ».

Granite : IBM lance son pavé dans la mare des modèles de langage pour la génération de code

Stack Overflow signe avec OpenAI

La RATP expérimente sa vidéosurveillance algorithmique pour les concerts de Taylor Swift

FurMark débarque en version 2.3, avec la prise en charge des Raspberry Pi

Boeing Starliner n’a finalement toujours pas décollé…

Chang’e 6 fait route vers la Lune, avec l’instrument français DORN

Pass Monitor : Proton Pass comble (enfin) certaines lacunes

Dirty Stream : quand une application Android peut écraser les fichiers d’une autre

Raspberry Pi Compute Module 4S : jusqu’à 8 Go de mémoire, production jusqu’en 2034

Calendrier de publication d’Ubuntu 24.10 (Oracular Oriole)

Commentaires (9)

SebGF Abonné

Le 22/05/2023 à 05h19

Un cas d’utilisation des LLM intéressant, profitant de leur capacité à indexer et synthétiser de la donnée pour la restituer.

Ce genre d’implémentation spécialisée va se répandre de plus en plus je pense.

Firefly' Abonné

Le 22/05/2023 à 06h12

#1.1

C’est même tout l’objectif, un produit spécialisé dans le droit, un dans la médecine etc tu peux les facturer plus chère qu’un produit générique disponible à tous

Xanatos Abonné

Le 22/05/2023 à 07h05

#1.2

Oui c’est malin, sur le darkweb ou rien n’est facilement indexé, après ici c’est uniquement le réseau Tor.
J’ai lu en diagonale le rapport, ils précisent qu’il filtrent les pages avec “Captcha error” entre autres > même sur Tor ils sont obligé de mettre des captchas contre les crawlers ?

Quand on voit la répartition du contenu avant préfiltrage p.13, c’est révélateur.

seboquoi

Le 22/05/2023 à 07h49

#1.3

Xanatos

Je crois même que les pires captcha de la terre entière se trouvent sur TOR

Ler van keeg

Le 22/05/2023 à 10h00

#1.4

seboquoi

Je crois même que les pires captcha de la terre entière se trouvent sur TOR

Et en général qui dit Captcha dit souvent entraînement d’une IA à l’œil. La boucle est bouclée.

Dj Abonné

Le 22/05/2023 à 09h03

The Dark Web is a subset of the Internet that is not indexed by web search engines such as Google and is inaccessible through a standard web browser. To access the Dark Web, specialized overlay network applications such as Tor (The Onion Router) (Dingledine et al., 2004) are required.

Le “such” qui change tout

“On ne sais bosser qu’avec Tor, mais on est au courant que c’est pas que ça, donc ajoute ce mot comme excuse.”

Exagone313 Abonné

Le 22/05/2023 à 09h27

Quelqu’un a réussi à trouver leur modèle soi-disant rendu public ?

127.0.0.1

Le 22/05/2023 à 10h37

Exagone313 a dit:

Quelqu’un a réussi à trouver leur modèle soi-disant rendu public ?

Dans la publi:

We do not plan to publicly release the Dark Web text corpus used for pretraining DarkBERT.
We plan to only release the preprocessed version of DarkBERT in order to avoid any malpractices once the model is made publicly available (8).

(8) More information on the sharing of the datasets and the model itself will be released during the conference.

La conférence c’est la ACL’23 (July 9th to July 14th, 2023).
https://2023.aclweb.org

SebGF Abonné

Le 22/05/2023 à 16h23

(reply:2133717:Firefly’)

Clairement sur le droit oui l’intérêt est là. Aujourd’hui chercher sur Legifrance n’est pas forcément d’une très grande simplicité ou lisibilité.

Un modèle de langage spécialisé dans la lecture du code serait d’une grande aide et serait surtout en capacité de corréler les différents textes de lois éparpillés entre les codes (Code A qui fait référence entre au Code Pénal, et la référence aux Directives Européennes, etc.).

Fermer

❮

❯