Meta publie son modèle LLaMa 2 en open source

Meta publie son modèle LLaMa 2 en open source

Meta publie son modèle LLaMa 2 en open source

Meta a annoncé le 18 juillet rendre son grand modèle de langage LLaMa 2 open source et gratuit d’utilisation, tant pour la recherche que pour les usages commerciaux.

L’annonce a été faite lors d’un événement organisé par Microsoft, rapporte The Verge, Meta soulignant le support d’Azure et évoquant un partenariat croissant avec l’entreprise. Qualcomm a par ailleurs annoncé travailler à rendre LLaMa accessible pour les ordinateurs et les smartphones d’ici 2024.

Meta déclare ouvrir LLaMa à des fins d’amélioration de la sécurité et de la transparence du modèle – l’approche est clairement inverse à celle adoptée jusqu’ici par OpenAI, qui a refusé d’ouvrir ses modèles pour des raisons de sécurité, selon son patron Altman.

Meta indique avoir soumis son modèle à des exercices de red team internes comme externes. L’entreprise fournit aussi des explications sur les paramétrages et les méthodes d’évaluation utilisés pour pallier les problèmes présents dans le modèle, ainsi qu’un guide d’utilisation et de développement responsable.

Commentaires (21)


Pour info, le dépôt Github est ici : https://github.com/facebookresearch/llama


Question pour les pros IA : pourquoi LLaMa 2 n’est pas intégré à Pytorch ?



(reply:2143459:Boris Vassilieff)




parce que :)


Autre question : ça apporte quoi à Meta de mettre ça utilisable par tous gratuitement ?
Est-ce que tout est disponible pour en faire un chatbot, par exemple ?



Est-ce que tout est disponible pour en faire un chatbot, par exemple ?




oui, tu as un exemple de script ici :



https://github.com/facebookresearch/llama/blob/main/example_chat_completion.py



et là :



https://github.com/facebookresearch/llama/blob/main/example_text_completion.py



Le code n’a pas besoin de plus que ça. C’est pratiquement que du pytorch. J’ai vu qu’ils ont juste quelques couches custom (un transformer maison), mais c’est tout.



Il manque cependant les paramètres (les valeurs apprises”) dans le git, mais ils sont justement accessibles en téléchargement via le script download.sh. Je n’ai pas tenté de télécharger, car 7 à 70 milliards de paramètres, c’est quelque Go…



J’ai rapidement regardé, même si le code n’y est pas, techniquement, il ne manque pas grand-chose pour apprendre de novo si tu as la base de données d’apprentissage.


tazvld


Est-ce que tout est disponible pour en faire un chatbot, par exemple ?




oui, tu as un exemple de script ici :



https://github.com/facebookresearch/llama/blob/main/example_chat_completion.py



et là :



https://github.com/facebookresearch/llama/blob/main/example_text_completion.py



Le code n’a pas besoin de plus que ça. C’est pratiquement que du pytorch. J’ai vu qu’ils ont juste quelques couches custom (un transformer maison), mais c’est tout.



Il manque cependant les paramètres (les valeurs apprises”) dans le git, mais ils sont justement accessibles en téléchargement via le script download.sh. Je n’ai pas tenté de télécharger, car 7 à 70 milliards de paramètres, c’est quelque Go…



J’ai rapidement regardé, même si le code n’y est pas, techniquement, il ne manque pas grand-chose pour apprendre de novo si tu as la base de données d’apprentissage.


Merci. 😘



Gorom a dit:


Pour info, le dépôt Github est ici : https://github.com/facebookresearch/llama




Ca doit pas être le bon github, il y a juste 4 fichiers py



tazvld a dit:


Le code n’a pas besoin de plus que ça. C’est pratiquement que du pytorch. J’ai vu qu’ils ont juste quelques couches custom (un transformer maison), mais c’est tout.



Il manque cependant les paramètres (les valeurs apprises”) dans le git, mais ils sont justement accessibles en téléchargement via le script download.sh. Je n’ai pas tenté de télécharger, car 7 à 70 milliards de paramètres, c’est quelque Go…



J’ai rapidement regardé, même si le code n’y est pas, techniquement, il ne manque pas grand-chose pour apprendre de novo si tu as la base de données d’apprentissage.




Est-ce donc vraiment de l’open source si il faut s’inscrire et demander le droit pour avoir accès aux données nécessaires pour utiliser le programme ?



eliumnick a dit:


Est-ce donc vraiment de l’open source si il faut s’inscrire et demander le droit pour avoir accès aux données nécessaires pour utiliser le programme ?




Open-source ne signifie pas que tout le monde peut y accéder. Open-source signifie que celui qui reçoit dispose des 4 libertés fondamentales (étudier, exécuter, modifier, distribuer).



Après, dans le cas des algorithmes d’IA, il faut distinguer 2 choses :




  • l’algorithme utilisé (pour faire simple, la topologie du réseau de neurones)

  • le modèle en tant que tel (les différentes pondérations des neurones, c’est-à-dire le résultat à l’issu de l’entrainement).



Le premier est souvent libre. C’est souvent plus compliqué pour le second. J’avoue que je n’ai pas regardé en détail les clauses de la licence de LLima (qui est une licence sur mesure), mais j’ai cru voir des restrictions quant à son utilisation, donc, incompatible avec la définition d’une licence libre ou open-source. Elle semble toutefois s’en approcher pas mal malgré tout.


J’ai vu en particulier une clause qui dit que si tu as plus de 700 millions d’utilisateurs un mois donné, tu ne peux plus utiliser le produit de façon commerciale et que tu dois demander une licence à Meta qui peut te la refuser.



Le reste me semblait OK.


fred42

J’ai vu en particulier une clause qui dit que si tu as plus de 700 millions d’utilisateurs un mois donné, tu ne peux plus utiliser le produit de façon commerciale et que tu dois demander une licence à Meta qui peut te la refuser.



Le reste me semblait OK.


La clause indiquant que Llama ne peut pas être utilisé pour entrainer / améliorer d’autres modèles est aussi limitante et empêche de facto de considérer la licence comme open-source.


fdorin

La clause indiquant que Llama ne peut pas être utilisé pour entrainer / améliorer d’autres modèles est aussi limitante et empêche de facto de considérer la licence comme open-source.


Ah oui, je l’avais oubliée, celle-là.


fred42

Ah oui, je l’avais oubliée, celle-là.


Il y en a peut être d’autres. J’avoue que je n’ai que survolé la licence :D



eliumnick a dit:


Est-ce donc vraiment de l’open source si il faut s’inscrire et demander le droit pour avoir accès aux données nécessaires pour utiliser le programme ?




Si j’ai bien compris, les données pour refaire un apprentissage depuis zéro ne sont pas disponibles, mais tout est bien là pour utiliser le modèle déjà entrainé.



Il est aussi possible de faire du “fine-tuning” sur le modèle existant pour le spécialiser.



La première génération du modèle avait fuitée de manière accidentelle et il n’était pas possible de l’utiliser pour des projets commerciaux, alors que c’est possible avec cette version (avec tout de même des contraintes).


Ce serait bien un jour un récap sur ces sujets un jour sur Nxi ! Sauf si je l’ai loupé et qu’il existe :)
Pour ma part je ne sais pas ce que c’est LLaMa, ni trop LLM, ni pytorch que je vois dans les commentaires. Je suis un peu largué sur le sujet :D



(reply:2143561:dvr-x)





  • pytorch : une bibliothèque python (de Meta/Facebook) pour faire des réseaux de neurones artificiels et en particulier du deep learning.

  • Modele : dans le cadre de l’apprentissage automatique, c’est un ensemble contenant généralement l’algo, les hyperparamètre (les paramètre lié à l’algo lui-même), les paramètres (les valeurs qui sont modifiées durant l’apprentissage) en plus de petits trucs à côté (fonction de cout, optimiseur…).

  • LLM (large language model) : dans le traitement du langage naturel (en particulier), c’est la famille de modèle qui demande des monstres de machine pour pouvoir être exécuté. C’est tout ce qui est GPT, LLaMa, BERT…

  • LLaMa : le modèle de LLM de Meta (en partenariat avec Microsoft pour cette version).


:incline: :yaisse: :inpactitude:


Merci ! :yes:



tazvld a dit:




  • Modele : dans le cadre de l’apprentissage automatique, c’est un ensemble contenant généralement l’algo, les hyperparamètre (les paramètre lié à l’algo lui-même), les paramètres (les valeurs qui sont modifiées durant l’apprentissage) en plus de petits trucs à côté (fonction de cout, optimiseur…).




Perso je différencie le modèle et l’algo. Le modèle étant ce qui a été produit par l’algorithme.




  • model: la fonction f() qui génère une réponse à partir de question, i.e. output=f(input).

  • algorithm: règles pour créer/améliorer la fonction f().

  • hyperparams: paramètres de config de l’algorithme.

  • data set: données utilisées par l’algorithme pour créer/améliorer la fonction f().


La licence LLAMA 2 COMMUNITY LICENSE AGREEMENT ne semble absolument pas libre.



eliumnick a dit:


Est-ce donc vraiment de l’open source si il faut s’inscrire et demander le droit pour avoir accès aux données nécessaires pour utiliser le programme ?




Les paramètres qui viennent de l’apprentissage fait par Facebook ne sont que des données de travail, pas du code. Donc en soit, ce point là n’interdit pas l’open-source.

C’est le même principe qu’un moteur de jeu-video peut être open source sans que les jeux réalisés avec le soient, ou le noyau Linux qui est bien libre, même s’il ne sert a rien sans l’OS qui va avec.
Ça ne pose pas de problèmes au coté open-source ou libre tant qu’il n’y a rien qui empêcherait d’utiliser le logiciel avec ces propres données.



Par contre, comme d’autre l’ont fait remarquer, certaines restrictions d’usage me font dire que ça n’a pas vraiment l’air open-source/libre, juste que le code est accessible.


Fermer