à noter que PLOS ONE a publié ce mois-ci un article scientifique qui publie un jeu de données encore plus gros : https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0310330. Le jeu de données est ici : https://zenodo.org/records/11082879 et n'a pas encore été dépublié.
The dataset contains the complete post history of over 4M users (81% of all registered accounts), totaling 235M posts.
Cet “index” est très critiqué par la communauté scientifique. Voir le billet https://www.interconnects.ai/p/fmti-critique, écrit par des grands noms du machine learning comme Stella Biderman ou Nathan Lambert.
2 commentaires
Bluesky n’utilise pas les données pour entrainer ses IA, mais d’autres le peuvent
28/11/2024
Le 28/11/2024 à 15h 22
à noter que PLOS ONE a publié ce mois-ci un article scientifique qui publie un jeu de données encore plus gros : https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0310330. Le jeu de données est ici : https://zenodo.org/records/11082879 et n'a pas encore été dépublié.Stanford pointe le manque de transparence dans les grands modèles d’intelligence artificielle
02/11/2023
Le 03/11/2023 à 14h 18
Cet “index” est très critiqué par la communauté scientifique. Voir le billet https://www.interconnects.ai/p/fmti-critique, écrit par des grands noms du machine learning comme Stella Biderman ou Nathan Lambert.