MegaUpload hébergeait plus de 10 millions de fichiers légitimes

Légitime défense

Le 21 octobre 2013 à 07h20

3 min

Internet

Alors que d'anciens utilisateurs de MegaUpload attendent encore que la justice américaine les autorise à récupérer les fichiers qu’ils stockaient sur les serveurs de l'ancien hébergeur, une récente étude tend à démontrer qu’il y avait au moins 4 % de fichiers légitimes sur la plateforme fermée par les autorités américaines l’année dernière. Ce qui représenterait tout de même plus de 10 millions de fichiers.

Si les hébergeurs de fichiers tels que RapidShare, Uploaded ou DepositFiles servent régulièrement pour télécharger illégalement des œuvres protégées (films, musique, séries...), ces plateformes permettent également de partager avec d’autres internautes des fichiers légitimes et tout à fait licites, tels que des photos de vacances par exemple.

Mais quelle est exactement la part de fichiers légitimes stockés sur les serveurs de ces intermédiaires par rapport à tout ce qui y est hébergé ? Pour apporter un élément de réponse à cette question récurrente, une équipe internationale composée de six chercheurs s’est penchée sur le sujet. Cette dernière vient d’ailleurs de publier les conclusions de son étude (PDF), repérées par TorrentFreak.

Après avoir passé au peigne fin des données relatives à cinq hébergeurs de fichiers (FileFactory, Easy-share, Filesonic, Wupload et le défunt MegaUpload) ainsi que celles relatives au logiciel « anti-suppression de liens » Undeadlink, ces auteurs n’ont pas réussi à déterminer pour tous les fichiers hébergé s'ils étaient légitimes ou non. En effet, les chercheurs ont croisé les métadonnées (taille, nom, type de fichier...) relatives à 1 000 fichiers stockés sur chacune de ces plateformes. N’ayant téléchargé aucun des fichiers en question, certains d’entre eux n’ont pas pu être classés. Les auteurs de l’étude proposent donc des fourchettes à partir de seuils.

Au minimum 4,3 % de fichiers potentiellement légitimes chez MegaUpload

Pour MegaUpload, fermé pour rappel en janvier 2012 par le FBI, les chercheurs estiment qu’il hébergeait entre 4,3 et 69,3 % de fichiers légitimes. 30,7 % des fichiers stockés furent classés comme « potentiellement illicites ». En rapportant ce bas de la fourchette aux 250 millions de fichiers alors hébergés sur la plateforme de Kim DotCom, les auteurs de l’étude en arrivent à 10,75 millions - au moins - de fichiers légitimes.

En bas, les fichiers considérés comme illicites ; en haut, ceux classés comme légitimes.

Le taux de fichiers considérés comme « potentiellement illicites » est cependant relativement bas chez MegaUpload par rapport aux autres plateformes. On atteint en effet des taux avoisinant les 80 % chez Wupload et Undeadlink par exemple. Même du côté d’Easy-share et de Filesonic, ce pourcentage dépasse les 60 %, soit près du double de celui du prédécesseur de MEGA.

Une conclusion s’impose quoi qu’il en soit : « Ces résultats suggèrent des niveaux significatifs d’atteintes au copyright sur chacun de ces hébergeurs de fichiers », indiquent prudemment les chercheurs.

Commentaires (102)

Vilainkrauko Abonné

Le 21/10/2013 à 09h28

Faith a écrit :

Elle est justement particulièrement intéressante.

Mais il semble que la plupart des commentateur ait du mal à comprendre les statistiques qui ne se limitent pas à 30% OUI / 70% NON

Ici, on a justement une étude précise, impartiale (qui n’hésite pas à dire “je ne sais pas”, même si c’est pour une majorité de fichiers. “Je ne sais pas” est ce qu’il y a de plus difficile à dire au public: le public n’accepte que des résultats tranchés, il ne comprend pas qu’on sorte du manichéisme qu’on leur sert à la télé.

Ma remarque était humoristique : j’avais compris que la réponse était en résumé “Résultat a prendre avec des pincettes”

Pour info : j’ai pas la télé chez moi et ne compte pas l’avoir se si tot !

Faith a écrit :

Si 5 catégories sont trop compliquées pour toi, tu peux appliquer la règle suivante pour revenir à un simpliste sondage à 2 résultats: 50% des inconnus sont de chaque coté et 75% des “potentially illegal ” sont illégaux, et inversement pour les légaux. Tu obtiendras un chiffre “simple” (mais avec une marge d’erreur énorme).

Dans les 2 cas, la marge d’erreur est énorme …

La seule chose que je craint avec cette étude c’est que les ayant tout les droits vont prendre les chiffres qui les arrangent ! " />

Faith

Le 21/10/2013 à 09h28

yeagermach1 a écrit :

Ce qui m’embête c’est faire une conclusion sur la base d’un random. Après tout, 4:4:4:4:4:4:4 est une liste random de chiffre. Et a part déduire que 100% des échantillons sont le chiffre 4. Je vois mal ce que l’on peut en déduire d’autre.

C’est la base des lois des grands nombres…

D’une part “XXX%” n’est pas une donnée statistique: c’est une donnée médiatique.

En statistique, on donne une valeur avec un taux de confiance et un intervalle.

7 tirages (ce que tu viens de faire), ça donne un taux de confiance merdique. 1000 tirages, ça donne une confiance à 95% et un intervalle qui dépend de l’écart-type

A la rigueur, si ils avaient recommencé plusieurs fois l’XP et tombait toujours sur les mêmes chiffres, on pourrait en déduire quelque chose. La il se limite a 1 jet de 1000 par service et tirent une conclusion.

Faire 5 tirages n’ajoute que quelques pourcents de confiance. Quand on est à 95%, _ça ne change pas grand chose.

Mais, oui, ils auraient pu faire une analyse sur un peu plus de fichiers, mais l’enseignement tiré aurait été le même (ceux qui ne veulent pas y croire n’y croient pas)

Faith

Le 21/10/2013 à 09h30

Vilainkrauko a écrit :

La seule chose que je craint avec cette étude c’est que les ayant tout les droits vont prendre les chiffres qui les arrangent ! " />

Comme le font les consommateurs…

kade

Le 21/10/2013 à 09h31

D’après ma propre étude, 100% des fichiers étaient des films " />

Khalev

Le 21/10/2013 à 09h33

Faith a écrit :

Ca t’amuse de balancer des affirmations fausses ? Lire l’étude était trop compliqué pour toi, ou tu souhaitais juste cracher sur l’étude, peu importe si tu es dans le vrai ou pas ?

Il ne parlait pas du fait que le fichier soit accessible depuis un lien publique? Je ne sais pas comment fonctionnent les systèmes d’hébergement qu’ils ont testé mais je sais que sur certains il faut demander à ce qu’un lien publique soit généré, sinon c’est n’est pas accessible publiquement.

dematbreizh Abonné

Le 21/10/2013 à 09h35

Pr. Thibault a écrit :

C’est vrai qu’il y a beaucoup de monde qui devait uploader ses mp3 sur MegaUpload à des fins de backup :rolleyes:

C’est le genre de commentaires qui début 2012 ressemblaient à “de toute façon PERSONNE n’utilise megaupload de manière légal”.

même s’il y en a qu’un, ça fait déjà un.

Nilav

Le 21/10/2013 à 09h38

yeagermach1 a écrit :

Si j’ai bien compris le PDF, ils ont pris 1000 fichiers random sur chaque service. Et on regardé ces 1000 fichiers randoms.

Ce qui m’embête c’est faire une conclusion sur la base d’un random. Après tout, 4:4:4:4:4:4:4 est une liste random de chiffre. Et a part déduire que 100% des échantillons sont le chiffre 4. Je vois mal ce que l’on peut en déduire d’autre.

A la rigueur, si ils avaient recommencé plusieurs fois l’XP et tombait toujours sur les mêmes chiffres, on pourrait en déduire quelque chose. La il se limite a 1 jet de 1000 par service et tirent une conclusion.

J’ai peut être loupé quelque chose mais je ne vois pas quoi (ce qui est normal si je l’ai loupé me dira t on).

Non tu n’as pas compris, car un random qui obtiendrait 4:4:4:4:4:4:4 serait un mauvais échantillon. Ce qu’il faut comprendre, c’est qu’au bout d’un certain seuil, cela devient inutile de tester un plus grand échantillon. Toutefois, il y a des règles statistiques (regarde un peu le Wikipedia de mon premier commentaire) qui impose d’en avoir un certain nombre (risque alpha/risque beta). Dans leur cas, par rapport aux nombres de fichiers totaux à analyser, en prendre 1000 réellement aléatoirement (ça veut dire avec un vrai logiciel car les mecs n’ont pas pris au hasard dans un paquet de cartes hein…) suffisait. C’est tout.

Pour t’aider, je t’invite à lire ce document notamment la partie sur l’échantillonnage. C’est assez clair pour un débutant, du moins si tu aimes quand même un peu les maths ^^

EDIT : Pour compléter ce que dit Faith. Ce nombre de 1 000 dans cette étude est pertinent pour cette étude par rapport à la population totale. Pour d’autres études, ce nombre pourrait être de 10 000, 100 000, 1 000 000. A l’inverse, il y a des études qui pourraient se faire avec 20 fichiers et qui seraient pertinentes (genre tester la probabilité d’avoir une majorité de photos ou de vidéos parmi les fichiers contenus dans un appareil photo)

yeagermach1

Le 21/10/2013 à 09h44

Faith a écrit :

C’est la base des lois des grands nombres…

D’une part “XXX%” n’est pas une donnée statistique: c’est une donnée médiatique.

En statistique, on donne une valeur avec un taux de confiance et un intervalle.

7 tirages (ce que tu viens de faire), ça donne un taux de confiance merdique. 1000 tirages, ça donne une confiance à 95% et un intervalle qui dépend de l’écart-type

Faire 5 tirages n’ajoute que quelques pourcents de confiance. Quand on est à 95%, _ça ne change pas grand chose.

Mais, oui, ils auraient pu faire une analyse sur un peu plus de fichiers, mais l’enseignement tiré aurait été le même (ceux qui ne veulent pas y croire n’y croient pas)

Mais comment on arrive a dire qu’en faisant 1000 tirages, on arrive a 95% de confiance. C’est ca que j’arrive pas a comprendre. Si on reprend mon exemple, on pourrait très bien avoir 1000 fois le 4. Cela serait toujours un tirage random.

Pour un sondage, on fait des choix en fonction des categories professionnels et co pour arriver a un tirage que l’on considere correspondre a l’etat actuelle. Mais la on se contente d’un random.

Faith

Le 21/10/2013 à 09h58

yeagermach1 a écrit :

Pour un sondage, on fait des choix en fonction des categories professionnels et co pour arriver a un tirage que l’on considere correspondre a l’etat actuelle. Mais la on se contente d’un random.

C’est le contraire, justement: le but est d’obtenir un échantillon représentatif. Pour ça, la fonction random est la solution parfaite si on peut la faire sur la totalité de la population.

Dans les sondages, on n’a pas accès à la totalité de la population: on n’a accès qu’à ceux qui acceptent de répondre. C’est déjà un gros biais. Pour corriger ce biais, on construit des catégories, et on adapte ça à la population française.

Mais il ne faut pas se tromper: les sondages seraient beaucoup plus précis si on pouvait tirer au hasard des individus et les obliger à répondre sincèrement.

L3 G33K

Le 21/10/2013 à 09h58

Ben ça veut dire en gros que si tu tires 1000 fois le chiffre 4, c’est qu’il y a 95% de chances que le sac ne contienne que des 4.

indyiv

Le 21/10/2013 à 09h59

TBirdTheYuri a écrit :

C’est large comme estimation… Un peu comme l’agent EDF qui propose un RDV “entre 8h et 18h” pour son intervention " />

+1000

et qui ne comprend pas que tu râles …

indyiv

Le 21/10/2013 à 10h01

sinon, ca serait vraiment INteressant de savoir combien MEGA comporte de fichiers légitimes … " />

yeagermach1

Le 21/10/2013 à 10h03

TBirdTheYuri a écrit :

Ben ça veut dire en gros que si tu tires 1000 fois le chiffre 4, c’est qu’il y a 95% de chances que le sac ne contienne que des 4.

ou que tu as pas de bol (ou énormément en fonction du point de vue). 1000 4 d’affilé est une suite parfaitement random avec très peu de chance de se produire il est vrai.

C’est pour cela que je pense que réitérer le tirage permet de réduire cette probabilité. Un sondage sur les intentions de vote qui donne le FN en tète, c’est un épiphénomène, 42 sondages qui donnent le même résultat. On peut commencer a se poser des questions.

Faith

Le 21/10/2013 à 10h17

Khalev a écrit :

Il ne parlait pas du fait que le fichier soit accessible depuis un lien publique? Je ne sais pas comment fonctionnent les systèmes d’hébergement qu’ils ont testé mais je sais que sur certains il faut demander à ce qu’un lien publique soit généré, sinon c’est n’est pas accessible publiquement.

The methodology used in this work could discover files even if they were not

intended to be public

L’étude cible les OCH:

Hébergement de fichiers en un clic

Un site d’hébergement de fichiers en un clic (one-click hoster en anglais) permet à un internaute de mettre en ligne n’importe quel type de fichier. Le fichier est alors disponible pour n’importe quel internaute.

Bref, comme d’habitude, il faut lire une étude avant de la critiquer.

L’article de PCINpact est très mesuré et arrive à prendre cette étude pour ce qu’elle est, et pas à en fantasmer les contours.

Faith

Le 21/10/2013 à 10h18

yeagermach1 a écrit :

c’est qu’il y a 95% de chances que le sac ne contienne que des 4.

ou que tu as pas de bol.

Qu’est-ce que tu ne comprends pas dans “il y a 95% de chances” ?

Faith

Le 21/10/2013 à 10h23

yeagermach1 a écrit :

C’est pour cela que je pense que réitérer le tirage permet de réduire cette probabilité.

Pour diviser par deux l’imprécision, il faut multiplier par 4 la taille de l’échantillon. (grosso-modo)

Un sondage sur les intentions de vote qui donne le FN en tète

Comme expliqué précédemment, les sondages sont totalement nuls en matière de précision par rapport à un tirage statistique aléatoire.

(D’autant plus nuls concernant le FN que tu n’as jamais les résultats bruts, mais toujours des résultats redressés => le sondage donne presque autant l’avis du sondeur que des sondés)

Zerdligham

Le 21/10/2013 à 10h56

fusion_sadam a écrit :

Toi aussi tu as kiffé la dernière étude de Séralini " />

Mon allusion subtile ne serait pas si subtile que ça???

Zerdligham

Le 21/10/2013 à 11h00

Texas Ranger a écrit :

parce que moi j’ai un stock non vendu de prise fonctionnant à 80% niveau protection " />

C’est surtout une histoire de sous.

On évalue combien coûte l’augmentation de x% de la fiabilité, combien coûte le fait de laisser sortir x% de produits défectueux et on fait le moins cher. Pour les prises, avoir une fiabilité super-élevé est important et pas si cher. Pour un sondage c’est généralement le contraire.

Mais rassures-toi, pour les prises non plus on n’est pas à 100%, c’est tout simplement impossible.

Faith

Le 21/10/2013 à 11h04

Texas Ranger a écrit :

quand tu branches des prises électriques, ça t’arrivent de te faire électrocuter et mourir ou pas ? " />

Pour continuer la blague, je me suis déjà mangé quelques chataignes, et je n’ai pourtant pas manipulé des centaines de prises différentes depuis que je suis né ;)

Mais je comprends yeagermach1 , on prend 1000 fichiers sur 100 millions, et on dit qu’on a une précision de 95%. c’est totalement con pour moi aussi " />

Mais c’est pourtant parfaitement exact.

thelodger

Le 21/10/2013 à 11h08

TBirdTheYuri a écrit :

C’est large comme estimation… Un peu comme l’agent EDF qui propose un RDV “entre 8h et 18h” pour son intervention " />

Le fameux agent ERDF qui arrive en rigolant sur le fait qu’il ne sait pas pourquoi il est là #vécu #" />

Khalev

Le 21/10/2013 à 11h11

Faith a écrit :

Bref, comme d’habitude, il faut lire une étude avant de la critiquer.

Je suis dans les commentaires de l’article, je commente donc l’article. Désolé de ne pas avoir la possibilité de lire toutes les sources que cite PCI à chaque article avant de commencer à commenter. Ce n’était pas précisé dans l’article que ça ne ciblait que les OCH.

De plus je ne faisais que pointer le fait que tu n’avais peut-être pas envisagé les autres interprétations possibles de sa phrase et que donc ta réponse était agressive sans vraie raison d’être. Tu aurais pu juste citer la source, ça aurait été aussi efficace et tu serais pas passé pour un gros con (surtout que si on reste dans mon interprétation de ce qu’il voulait dire, il dit la vérité même s’il énonce une évidence).

Bref, pète un coup, ça ira mieux.

WereWindle

Le 21/10/2013 à 11h13

thelodger a écrit :

Le fameux agent ERDF qui arrive en rigolant sur le fait qu’il ne sait pas pourquoi il est là #vécu #" />

je relance de deux :

l’agent ERDF qui vient chez toi pour faire une intervention dont il sait qu’elle n’est pas adéquate, dont la feuille de demande de travaux indique que le client avait précisé que ladite intervention était a priori inutile, qui fait son intervention puis la manip inverse dans la foulée… #compassion

psn00ps

Le 21/10/2013 à 11h19

Vilainkrauko a écrit :

Dans les 2 cas, la marge d’erreur est énorme …

La seule chose que je craint avec cette étude c’est que les ayant tout les droits vont prendre les chiffres qui les arrangent ! " />

Les pirates aussi, c’est déjà fait " />

Faith

Le 21/10/2013 à 11h21

Khalev a écrit :

tu serais pas passé pour un gros con

Oh, tu sais, on est tous le con d’un autre, et être le con d’un parfait inconnu n’a pas grande importance…

Jarodd Abonné

Le 21/10/2013 à 11h33

Faith a écrit :

En effet ;)

Les rayures sont dans le sens inverse !

Exact, c’est 80% de “infringing” (contrefaçon). Merci pour la précision. Je vais prendre mon café " />

Khalev

Le 21/10/2013 à 11h39

Faith a écrit :

Et 99.999% ? " />

Tu vas me faire croire que tu utilises des capteurs disposant d’une précision de 0.001% ? Quel genre ?

Et des servo moteurs précis à 0.0036° ? Lesquels ?

Il parle peut-être de ce genre de probas (regarde le tableau des PFH, Probability of Failure per Hour) :

Wikipedia

Mais du coup c’est totalement différent. On essaie pas de déterminer la répartition probable d’une population selon certains critères, on cherche à calculer la probabilité qu’un évènement, une suite d’évènement ou un groupe d’évènement se produise dans un système où on connaît les caractéristiques de chacun des éléments.

Khalev

Le 21/10/2013 à 12h00

Faith a écrit :

Et 99.999% ? " />

Tu vas me faire croire que tu utilises des capteurs disposant d’une précision de 0.001% ? Quel genre ?

Et des servo moteurs précis à 0.0036° ? Lesquels ?

Double post mais j’ai mis trop de temps à répondre " />

Il ne faut pas prendre un élément tout seul, mais le système dans son ensemble.

Si j’ai une marge d’erreur de 0,6°, que le servomoteur a une marge d’erreur de 1° mais tout de même 70% de chance d’être dans les 0,5° et que j’ai fait en sorte qu’il soit possible de répéter plusieurs fois le positionnement, je peux coller un capteur avec une précision à 0,1° je serai en mesure de détecter si l’angle est bon ou pas, du coup il me suffit de replacer le servomoteur s’il est hors position.

Si je me laisse 5 essais pour être bien placé alors la proba d’évènement redouté n’est plus de 30% mais de 5 essais de suite avec un angle > à 0,5°, soit une proba de : 0.3^5 = 0,0024.

(calcul fait à la va-vite, j’espère que je n’ai rien laissé passé, mais dans l’idée ça marche comme ça)

L3 G33K

Le 21/10/2013 à 12h21

Khalev a écrit :

Double post mais j’ai mis trop de temps à répondre " />

Il ne faut pas prendre un élément tout seul, mais le système dans son ensemble.

Si j’ai une marge d’erreur de 0,6°, que le servomoteur a une marge d’erreur de 1° mais tout de même 70% de chance d’être dans les 0,5° et que j’ai fait en sorte qu’il soit possible de répéter plusieurs fois le positionnement, je peux coller un capteur avec une précision à 0,1° je serai en mesure de détecter si l’angle est bon ou pas, du coup il me suffit de replacer le servomoteur s’il est hors position.

Si je me laisse 5 essais pour être bien placé alors la proba d’évènement redouté n’est plus de 30% mais de 5 essais de suite avec un angle > à 0,5°, soit une proba de : 0.3^5 = 0,0024.

(calcul fait à la va-vite, j’espère que je n’ai rien laissé passé, mais dans l’idée ça marche comme ça)

Avec un codeur 5000 points par tour, et un réducteur sans jeu 20:1 au cul du moteur, on obtient les 100000 points par tour sur l’arbre de sortie, et donc les 0.0036° visés :)

Autre exemple, sur un axe linéaire de 10 mètres, avec un motoréducteur qui fait 1cm de course par tour, on a 1000 rotations sur la totalité de la course. Un codeur 1000 ppt sur le moteur permet d’obtenir une précision de 10 µm sur l’axe linéaire, rapporté aux 10 mètres de l’axe on est à 0.0001% de précision.

Khalev

Le 21/10/2013 à 12h30

TBirdTheYuri a écrit :

Avec un codeur 5000 points par tour, et un réducteur sans jeu 20:1 au cul du moteur, on obtient les 100000 points par tour sur l’arbre de sortie, et donc les 0.0036° visés :)

Autre exemple, sur un axe linéaire de 10 mètres, avec un motoréducteur qui fait 1cm de course par tour, on a 1000 rotations sur la totalité de la course. Un codeur 1000 ppt sur le moteur permet d’obtenir une précision de 10 µm sur l’axe linéaire, rapporté aux 10 mètres de l’axe on est à 0.0001% de précision.

Ouai voilà quoi :P

J’ai pas bossé sur les servomoteurs donc j’aurais eu du mal à sortir un truc aussi précis, mon truc c’était plutôt la détection de mouvements où tu multipliais les sources pour pallier aux défauts des différentes technologies.

Où comment faire un système à 10^-9 PFH à partir de systèmes avec plus de 1% de marge d’erreur tout en restant moins cher que les équipements certifié 10^-9.

RaoulC

Le 21/10/2013 à 12h31

TBirdTheYuri a écrit :

Avec un codeur 5000 points par tour, et un réducteur sans jeu 20:1 au cul du moteur, on obtient les 100000 points par tour sur l’arbre de sortie, et donc les 0.0036° visés :)

Autre exemple, sur un axe linéaire de 10 mètres, avec un motoréducteur qui fait 1cm de course par tour, on a 1000 rotations sur la totalité de la course. Un codeur 1000 ppt sur le moteur permet d’obtenir une précision de 10 µm sur l’axe linéaire, rapporté aux 10 mètres de l’axe on est à 0.0001% de précision.

Hum

L3 G33K

Le 21/10/2013 à 13h10

C’est juste des exemples pour montrer que ces taux de précision sont loin d’être inatteignables.

StackOverflowError

Le 21/10/2013 à 13h17

yeagermach1 a écrit :

Ça c’est de la recherche précise : entre 4 et 70 % de fichier légitime " />

Et comment ont été sélectionné les 1000 fichiers sur chacun des serveurs ?

Ca me fait penser à l’épisode de true blood où ils recherchent 4 jeunes filles caucasiennes, entre 10 et 50 ans, entre 1m20 et 1m90 " />

yeagermach1

Le 21/10/2013 à 07h24

Ça c’est de la recherche précise : entre 4 et 70 % de fichier légitime " />

Et comment ont été sélectionné les 1000 fichiers sur chacun des serveurs ?

sebtx Abonné

Le 21/10/2013 à 07h33

Il faudrait revoir le terme légitime, car si par exemple j’achète légalement un mp3 et que je le mets sur Mega sans le partager, donc à des fins de sauvegarde, doit-il être considéré comme un fichier non légitime ?

Encore une fois ils font des stats au doigt mouillé…

L3 G33K

Le 21/10/2013 à 07h35

C’est large comme estimation… Un peu comme l’agent EDF qui propose un RDV “entre 8h et 18h” pour son intervention " />

John Shaft

Le 21/10/2013 à 07h35

yeagermach1 a écrit :

Ça c’est de la recherche précise : entre 4 et 70 % de fichier légitime " />

Et comment ont été sélectionné les 1000 fichiers sur chacun des serveurs ?

Tu noteras que c’est un poil plus précis que “entre 0 et 100%” " />

Avec un peu de chance la prochaine fournée de stats ce sera “entre 5 et 65%”

WereWindle

Le 21/10/2013 à 07h35

sebtx a écrit :

Il faudrait revoir le terme légitime, car si par exemple j’achète légalement un mp3 et que je le mets sur Mega sans le partager, donc à des fins de sauvegarde, doit-il être considéré comme un fichier non légitime ?

Encore une fois ils font des stats au doigt mouillé…

s’il était possible de faire des stat précises, le concept même d’illégitime sur le net n’existerait pas…

yeagermach1

Le 21/10/2013 à 07h37

TBirdTheYuri a écrit :

C’est large comme estimation… Un peu comme l’agent EDF qui propose un RDV “entre 8h et 18h” pour son intervention " />

Ah non je ne te permet pas. L’agent EDF on sait qu’il arrivera le surlendemain vers 20h. Donc c’est totalement précis.

Faith

Le 21/10/2013 à 13h18

TBirdTheYuri a écrit :

Avec un codeur 5000 points par tour, et un réducteur sans jeu 20:1 au cul du moteur, on obtient les 100000 points par tour sur l’arbre de sortie, et donc les 0.0036° visés :)

TBirdTheYuri a écrit :

C’est juste des exemples pour montrer que ces taux de précision sont loin d’être inatteignables.

Je ne vais pas détailler car ce n’est pas un domaine que je maitrise, mais j’ai l’impression d’une confusion entre nombre de découpe et précision (par exemple sur les imprimantes 3D plastique à domicile, le pas est parfois/souvent plus petit que la précision " /> )

Si tu veux poursuivre ton exemple, il faut que tu nous donne la précision de ton codeur et le taux d’erreur de ton réducteur (qui ne peut pas être 100% “sans jeu”)

En tout cas, la question n’est pas que ce soit “inatteignable”, mais que ce soit “souvent inutile” et très souvent “pas rentable, donc dispensable”.

Et en l’occurrence: la recherche de licéité d’une liste de fichiers, 95% sont largement suffisants, et d’autant plus suffisants que le résultât est parfaitement compatible avec tout ce qui est attendu jusque là.

matroska

Le 21/10/2013 à 13h30

“Emile Louis peut revenir en France, seulement s’il accepte de ne plus télécharger illégalement de médias, ainsi que l’interdiction de les visionner dans un mini-bus.”

" />

L3 G33K

Le 21/10/2013 à 14h48

Faith a écrit :

Je ne vais pas détailler car ce n’est pas un domaine que je maitrise, mais j’ai l’impression d’une confusion entre nombre de découpe et précision (par exemple sur les imprimantes 3D plastique à domicile, le pas est parfois/souvent plus petit que la précision " /> )

Si tu veux poursuivre ton exemple, il faut que tu nous donne la précision de ton codeur et le taux d’erreur de ton réducteur (qui ne peut pas être 100% “sans jeu”)

En tout cas, la question n’est pas que ce soit “inatteignable”, mais que ce soit “souvent inutile” et très souvent “pas rentable, donc dispensable”.

Et en l’occurrence: la recherche de licéité d’une liste de fichiers, 95% sont largement suffisants, et d’autant plus suffisants que le résultât est parfaitement compatible avec tout ce qui est attendu jusque là.

La précision angulaire d’un codeur est égale à 360 / nombre de points. C’est une valeur identique à sa résolution.

Un codeur 6000 ppt à une précision de 0.06° par exemple (±0.03° par rapport à la valeur mesurée).

Pour le réducteur c’est le job des mécanos ça, mais c’est au moins aussi bon que la précision du codeur (sinon on ne mettrai pas des codeurs aussi précis sur l’arbre moteur)

M’enfin c’est un peu hors sujet là " />

Faith

Le 21/10/2013 à 15h02

TBirdTheYuri a écrit :

mais c’est au moins aussi bon que la précision du codeu

Si ton codeur est déjà imprécis à +/-0.03°, tu ne pourras pas améliorer cette erreur, quoi que tu rajoutes derrière.

Si tu cumules deux erreur à 0.03°, ça donne une imprécision globale de 0.06°

On est donc loin de la précision à 0.0036° citée précédemment.

Zeurf

Le 21/10/2013 à 17h10

Tim-timmy a écrit :

sauf que ce soint des fichiers accessibles publiquement sans mot de passe, donc non, même dans ce cas, l’uploader enfreint la loi… et aucun droit n’autorise à télécharger illégalement pour se faire une copie de sauvegarde non plus. Mais c’est plus simple de dire n’importe quoi pour se justifier que d’admettre ses actes…

Non, mais ceux qui doivent justifier leurs actes, c’est le FBI qui a lancé un raid parfaitement illégal contre le ranch de Dotcom.

Ils ont lancé la guerre des ayant-droits contre Internet. À moins qu’il eu s’agit de faire le sale travail de la NSA, qui a l’air de mal supporter de ne pas pouvoir contrôler tous les services du net (les terroristes sont partout! Ptêtre même à la Maison Blanche, mais chut).

-Blague: Comment savoir si un service est secure?

S’il l’est, alors la NSA l’a fait fermer " /> -

Si Dotcom est irréprochable -il a même reçut le soutien de toute la faune hollywoodienne pour son clip promotionnel, juste avant les faits- ses clients n’ont rien a se reprocher non plus:

Tous les fichiers partagés dans un cadre non-commercial le sont conformément aux droits d’auteurs, même en absence de Licence Globale.

Les-dits ayants-droits se sont fait voter des taxes pour compenser ces usages précédemment illégaux, les légalisant ainsi de fait " />

gallean

Le 21/10/2013 à 17h40

perso j’y ai stocké mes office (2010 pro et 2011) histoire d’être tranquille si jamais je raye mes dvd originaux….on est jamais trop prudent

thelodger

Le 21/10/2013 à 17h53

WereWindle a écrit :

je relance de deux :

l’agent ERDF qui vient chez toi pour faire une intervention dont il sait qu’elle n’est pas adéquate, dont la feuille de demande de travaux indique que le client avait précisé que ladite intervention était a priori inutile, qui fait son intervention puis la manip inverse dans la foulée… #compassion

Et puis tant qu’à faire il te réduit la puissance électrique de ton domicile en te prévenant après l’opération " />

On a tous des anecdotes pittoresques à ce sujet " />

Mihashi Abonné

Le 21/10/2013 à 18h23

yeagermach1 a écrit :

Suffit de mettre le prix. Mais la n’est pas la question, si le système que je crée marche correctement 95% du temps, on me demandera les 4.999% qui restent. Se contenter de 95% du temps cela fonctionne correctement n’est pas admissible. A part dans les mondes des stats et des sondages, si on te croit.

Tu ne serais pas du genre à utiliser un bazooka pour abattre une mouche ?

Faut adapter tes outils et la qualité de tes résultats à ce que tu recherche.

Avoir une précision de folie sur de l’embarqué, c’est peut être important (sinon le système risque vite de se prendre un mur).

Mais il y a vraiment quelqu’un qui en a quelque chose à foutre qu’il y ai 4% plutôt que 5% de fichiers licites sur MU?

matroska

Le 21/10/2013 à 18h25

Mais que fait la Police MFM !

" />

Gorkk

Le 21/10/2013 à 19h22

yeagermach1 a écrit :

Ça c’est de la recherche précise : entre 4 et 70 % de fichier légitime " />

Et comment ont été sélectionné les 1000 fichiers sur chacun des serveurs ?

Ce qu’ils disent a priori c’est juste qu’ils sont sûrs qu’il y a au moins 4% de légitime, et sûr qu’il y a au moins 30% d’illégitimes (selon leur définition), et que pour les 66% qui restent, ils savent pas, ça peut être l’un ou l’autre.

C’est quand même relativement honnête de dire ce qu’ils ne savent pas non ?

Après la méthodologie, ça c’est une autre histoire.

WereWindle

Le 22/10/2013 à 04h44

thelodger a écrit :

Et puis tant qu’à faire il te réduit la puissance électrique de ton domicile en te prévenant après l’opération " />

On a tous des anecdotes pittoresques à ce sujet " />

bah c’était très exactement la manip dont je parlais " />

Du coup je lui ai demandé (étant nul en électricité mais sachant faire 2+2) s’il acceptait de venir à chaque fois pour débrancher le frigo et brancher la plaque chauffante quand je voudrais me faire à manger) " />

Texas Ranger

Le 22/10/2013 à 12h39

Zerdligham a écrit :

Mais rassures-toi, pour les prises non plus on n’est pas à 100%, c’est tout simplement impossible.

bah écoute, j’aimerai bien voir du courant 220v/16A traverser 5 à 9mm de plastique " />

thelodger

Le 22/10/2013 à 12h40

WereWindle a écrit :

bah c’était très exactement la manip dont je parlais " />

Du coup je lui ai demandé (étant nul en électricité mais sachant faire 2+2) s’il acceptait de venir à chaque fois pour débrancher le frigo et brancher la plaque chauffante quand je voudrais me faire à manger) " />

" />

Zerdligham

Le 22/10/2013 à 12h54

Texas Ranger a écrit :

bah écoute, j’aimerai bien voir du courant 220v/16A traverser 5 à 9mm de plastique " />

Le risque n’est pas que les 5 à 9 mm de plastique deviennent conducteurs, c’est plutôt que suite à une défaillance de la chaîne de prod, la pièce en plastique arrive cassée, ou n’arrive pas du tout.

Peu probable, et d’autant moins probable qu’il y a des contrôles qualité derrière, mais jamais totalement impossible.

L3 G33K

Le 22/10/2013 à 15h39

Faith a écrit :

Si ton codeur est déjà imprécis à +/-0.03°, tu ne pourras pas améliorer cette erreur, quoi que tu rajoutes derrière.

Si tu cumules deux erreur à 0.03°, ça donne une imprécision globale de 0.06°

On est donc loin de la précision à 0.0036° citée précédemment.

Si, car le réducteur augmente la précision en même temps qu’il diminue la vitesse.

0.06° sur l’arbre moteur, ça donne 0.006° avec un réducteur 10:1, ou encore 0.0006° avec un réducteur 100:1.

jmc007

Le 22/10/2013 à 20h58

Battu par la NSA eux c’est des Milliards mais illégitimes…" />

En meme temp NSA c’est Nouveau Système Archivage, un CLOUD mondial…" />

" />

Pr. Thibault

Le 21/10/2013 à 07h37

sebtx a écrit :

Il faudrait revoir le terme légitime, car si par exemple j’achète légalement un mp3 et que je le mets sur Mega sans le partager, donc à des fins de sauvegarde, doit-il être considéré comme un fichier non légitime ?

Encore une fois ils font des stats au doigt mouillé…

C’est vrai qu’il y a beaucoup de monde qui devait uploader ses mp3 sur MegaUpload à des fins de backup :rolleyes:

yeagermach1

Le 21/10/2013 à 07h39

John Shaft a écrit :

Tu noteras que c’est un poil plus précis que “entre 0 et 100%” " />

Avec un peu de chance la prochaine fournée de stats ce sera “entre 5 et 65%”

Moi c’est le coté étude qui me choque. Regarder 1000 fichiers sans même les dl, juste en se basant sur le nom, cela me semble très léger comme méthodologie.

Et puis comment ont été choisi les fichiers ? Pourquoi se limiter a 1000 ? …

John Shaft

Le 21/10/2013 à 07h43

yeagermach1 a écrit :

Moi c’est le coté étude qui me choque. Regarder 1000 fichiers sans même les dl, juste en se basant sur le nom, cela me semble très léger comme méthodologie.

Et puis comment ont été choisi les fichiers ? Pourquoi se limiter a 1000 ? …

D’où les résultats pourris pour MU. Cette étude n’aurait pas du être publiée au vu des résultats pourraves. Les chercheurs auraient effectivement du se poser ds questions sur leur méthodo " />

goodwhitegod

Le 21/10/2013 à 07h45

Ne pas oublier non plus que certain des autres fichiers partagés illégalement, étaient téléchargés par des personnes qui possédaient l’œuvre légalement et qui le voulaient en dématérialiser, un double mais sans DRM tout simplement (ex: CD/DVD cassé) ou pour “pré-écouter/visionner avant de l’acquérir en étant certain de le vouloir.

En conclusion, ce sont les autorités et les majors qui sont les plus malhonnête !

Perso, j’aimerais que les tarifs finaux redeviennent honnête pour pouvoir re-consommer normalement…

spidy

Le 21/10/2013 à 07h54

TBirdTheYuri a écrit :

C’est large comme estimation… Un peu comme le technicien OVH qui propose un RDV “entre 10h et 16h30” pour son intervention " />

" />

Vilainkrauko Abonné

Le 21/10/2013 à 08h00

Bonjour la précision de l’étude !!! " />

Cette étude a été sponsorisée par les major ? " />

Tim-timmy

Le 21/10/2013 à 08h01

30,7 % des fichiers stockés furent classés comme « potentiellement illicites ».

marrant le rajout du potentiellement, le schéma marque bien “illicite” .. on monte à 50% si on veut vraiment faire le “a priori illicite” .. culture de l’excuse quand tu nous tiens … bizarre que pour MU, beaucoup de fichiers soient unknown, ça sent le renommage/découpage de fichiers pour justement éviter que ce ne soit cataloguable trop facilement par ce genre d’études très partielles …

goodwhitegod a écrit :

Ne pas oublier non plus que certain des autres fichiers partagés illégalement, étaient téléchargés par des personnes qui possédaient l’œuvre légalement et qui le voulaient en dématérialiser, un double mais sans DRM tout simplement (ex: CD/DVD cassé) ou pour “pré-écouter/visionner avant de l’acquérir en étant certain de le vouloir.

En conclusion, ce sont les autorités et les majors qui sont les plus malhonnête !

Perso, j’aimerais que les tarifs finaux redeviennent honnête pour pouvoir re-consommer normalement…

sauf que ce soint des fichiers accessibles publiquement sans mot de passe, donc non, même dans ce cas, l’uploader enfreint la loi… et aucun droit n’autorise à télécharger illégalement pour se faire une copie de sauvegarde non plus. Mais c’est plus simple de dire n’importe quoi pour se justifier que d’admettre ses actes…

goodwhitegod

Le 21/10/2013 à 08h04

Tim-timmy a écrit :

sauf que ce soint des fichiers accessibles publiquement sans mot de passe, donc non, même dans ce cas, l’uploader enfreint la loi… et aucun droit n’autorise à télécharger illégalement pour se faire une copie de sauvegarde non plus. Mais c’est plus simple de dire n’importe quoi pour se justifier que d’admettre ses actes…

Tu as le droit de penser ce que tu as envie de penser à tort ou à raison." />

Faith

Le 21/10/2013 à 08h19

Vilainkrauko a écrit :

Bonjour la précision de l’étude !!! " />

Elle est justement particulièrement intéressante.

Mais il semble que la plupart des commentateur ait du mal à comprendre les statistiques qui ne se limitent pas à 30% OUI / 70% NON

Ici, on a justement une étude précise, impartiale (qui n’hésite pas à dire “je ne sais pas”, même si c’est pour une majorité de fichiers. “Je ne sais pas” est ce qu’il y a de plus difficile à dire au public: le public n’accepte que des résultats tranchés, il ne comprend pas qu’on sorte du manichéisme qu’on leur sert à la télé.

Si 5 catégories sont trop compliquées pour toi, tu peux appliquer la règle suivante pour revenir à un simpliste sondage à 2 résultats: 50% des inconnus sont de chaque coté et 75% des “potentially illegal ” sont illégaux, et inversement pour les légaux. Tu obtiendras un chiffre “simple” (mais avec une marge d’erreur énorme).

SFX-ZeuS

Le 21/10/2013 à 08h22

TBirdTheYuri a écrit :

C’est large comme estimation… Un peu comme l’agent EDF qui propose un RDV “entre 8h et 18h” pour son intervention " />

En ayant fait l’expérience dernièrement avec erdf je dirais “plage entre 8h et 18h avec jour aléatoire et présence obligatoire”

fitfat

Le 21/10/2013 à 08h26

Tim-timmy a écrit :

Mais c’est plus simple de dire n’importe quoi pour se justifier la loi que d’admettre ses actes s’adapter aux pratiques…

" />

goodwhitegod

Le 21/10/2013 à 08h28

fitfat a écrit :

" />

" />

Tim-timmy

Le 21/10/2013 à 08h28

fitfat a écrit :

" />

exactement .. comme la fraude fiscale .. comme c’est répandu, il faut la légaliser pour tous " />

CUlater

Le 21/10/2013 à 08h30

Etude qui ne prend en compte que les contenus linkés publiquement, aucunement ceux privés/diffusés restrictivement, qui sont, dans la majorité, licites." />

fitfat

Le 21/10/2013 à 08h31

Tim-timmy>Qui parle de légalisation ? Moi je lis adaptation " />

animehq

Le 21/10/2013 à 08h32

SFX-ZeuS a écrit :

En ayant fait l’expérience dernièrement avec erdf je dirais “plage entre 8h et 18h avec jour aléatoire et présence obligatoire”

Ça va ils sont correcte par chez vous moi le dernier a juste balancer l’avis de passage au milieu du terrain sans descendre de son véhicule " />

WereWindle

Le 21/10/2013 à 08h34

animehq a écrit :

Ça va ils sont correcte par chez vous moi le dernier a juste balancer l’avis de passage au milieu du terrain sans descendre de son véhicule " />

déformation professionnelle : il devait être gamin-livreur-de-journaux-dans-une-sitcom-des-années-80 avant " />

taralafifi

Le 21/10/2013 à 08h36

Il y aurait entre 0 et 100% de fichier légitime " />

Faith

Le 21/10/2013 à 08h37

CUlater a écrit :

Etude qui ne prend en compte que les contenus linkés publiquement,

Ca t’amuse de balancer des affirmations fausses ? Lire l’étude était trop compliqué pour toi, ou tu souhaitais juste cracher sur l’étude, peu importe si tu es dans le vrai ou pas ?

To obtain lists with les uploaded to OCHs, we followed the methodology

introduced by Nikiforakis et al. and applied it with some variations to ve

medium-sized and large OCHs. Filefactory, Easy-share, Filesonic and Wupload

used sequential le identiers with optional le names and were subject to

enumeration of identiers. Megaupload used random le identiers and we

discovered les by guessing identiers.

caoua

Le 21/10/2013 à 08h37

goodwhitegod a écrit :

Ne pas oublier non plus que certain des autres fichiers partagés illégalement, étaient téléchargés par des personnes qui possédaient l’œuvre légalement et qui le voulaient en dématérialiser, un double mais sans DRM tout simplement (ex: CD/DVD cassé) ou pour “pré-écouter/visionner avant de l’acquérir en étant certain de le vouloir.

En conclusion, ce sont les autorités et les majors qui sont les plus malhonnête !

Perso, j’aimerais que les tarifs finaux redeviennent honnête pour pouvoir re-consommer normalement…

je me permet un +1 car ton post mérite d’être martelé aux oreilles de nos représentants.

CUlater

Le 21/10/2013 à 08h47

Faith a écrit :

Ca t’amuse de balancer des affirmations fausses ? Lire l’étude était trop compliqué pour toi, ou tu souhaitais juste cracher sur l’étude, peu importe si tu es dans le vrai ou pas ?

Allez juste pour te donner raison –> " />

Lady Komandeman

Le 21/10/2013 à 08h48

goodwhitegod a écrit :

Ne pas oublier non plus que certain des autres fichiers partagés illégalement, étaient téléchargés par des personnes qui possédaient l’œuvre légalement et qui le voulaient en dématérialiser, un double mais sans DRM tout simplement (ex: CD/DVD cassé) ou pour “pré-écouter/visionner avant de l’acquérir en étant certain de le vouloir.

En conclusion, ce sont les autorités et les majors qui sont les plus malhonnête !

Perso, j’aimerais que les tarifs finaux redeviennent honnête pour pouvoir re-consommer normalement…

C’est ce que disent tous les sites de téléchargement “ne téléchargez que si vous avez l’original ; nous, nous sommes légaux”.

Mais je n’ai toujours pas compris comment il expliquaient les CAM/TS qui ne sont pas vendues dans le commerce. " />

cyrilleberger

Le 21/10/2013 à 08h50

goodwhitegod a écrit :

Ne pas oublier non plus que certain des autres fichiers partagés illégalement, étaient téléchargés par des personnes qui possédaient l’œuvre légalement et qui le voulaient en dématérialiser, un double mais sans DRM tout simplement (ex: CD/DVD cassé) ou pour “pré-écouter/visionner avant de l’acquérir en étant certain de le vouloir.

En conclusion, ce sont les autorités et les majors qui sont les plus malhonnête !

Perso, j’aimerais que les tarifs finaux redeviennent honnête pour pouvoir re-consommer normalement…

Ça ne rend pas légale le partage de ces fichiers. Ici, on parle de “légitime” au sens juridique, et non au sens “justifié”.

Nilav

Le 21/10/2013 à 08h59

yeagermach1 a écrit :

Moi c’est le coté étude qui me choque. Regarder 1000 fichiers sans même les dl, juste en se basant sur le nom, cela me semble très léger comme méthodologie.

Et puis comment ont été choisi les fichiers ? Pourquoi se limiter a 1000 ? …

Ils n’ont sélectionné que 1 000 fichiers (6 000 au total) car ils les ont épluché à la main ensuite, ce qui devait déjà être un travail assez lourd.

De plus, l’objet de leur étude n’était pas de savoir avec exactitude la part de fichiers légitimes/illégitimes mais de pouvoir s’avancer sur un minimum et un maximum, une première étape qui est déjà intéressante.

Enfin, 1 000 fichiers leur suffisait pour que leur échantillon soit sûr à 95% (risque alpha) (Test d’hypothèse) - partie 4.3 p9 de leur étude pour tous les détails

Une meilleure lecture de leur étude serait de dire qu’il y a au moins 4.3% de fichiers légitimes et que derrière, il y a facile 50% de fichiers dont ils n’ont aucune idée de leur légitimité (parce qu’ils ne les ont pas dl) avec en complément +/- 5% de fichiers potentiellement légitimes et +/-10% de fichiers potentiellement illégitimes. (soit 65% de fichiers sur lesquels ils ne se prononcent pas vraiment, les 69.3% que cite PCI)

Après, il faut bien réfléchir à ce qu’ils voulaient prouver et ce que nous aurions voulu apprendre. Par rapport aux objectifs qu’ils se sont donnés, leur étude et leur méthodologie sont bonnes.

yeagermach1

Le 21/10/2013 à 09h02

Nilav a écrit :

Ils n’ont sélectionné que 1 000 fichiers (6 000 au total) car ils les ont épluché à la main ensuite, ce qui devait déjà être un travail assez lourd.

De plus, l’objet de leur étude n’était pas de savoir avec exactitude la part de fichiers légitimes/illégitimes mais de pouvoir s’avancer sur un minimum et un maximum, une première étape qui est déjà intéressante.

Enfin, 1 000 fichiers leur suffisait pour que leur échantillon soit sûr à 95% (risque alpha) (Test d’hypothèse) - partie 4.3 p9 de leur étude pour tous les détails

Une meilleure lecture de leur étude serait de dire qu’il y a au moins 4.3% de fichiers légitimes et que derrière, il y a facile 50% de fichiers dont ils n’ont aucune idée de leur légitimité avec en complément +/- 5% de fichiers potentiellement légitimes et +/-10% de fichiers potentiellement illégitimes. (soit 65% de fichiers sur lesquels ils ne se prononcent pas vraiment, les 69.3% que cite PCI)

Après, il faut bien réfléchir à ce qu’ils voulaient prouver et ce que nous aurions voulu apprendre. Par rapport aux objectifs qu’ils se sont donnés, leur étude et leur méthodologie sont bonnes.

euh 1000 fichiers, c’est juste que dalle. Surtout qu’ils ont pas telechargé, juste regarder le nom pour determiner si legale ou pas (enfin un des 5 etats). Un etudiant doit pouvoir boucler cela en grand max une demi journée de travail.

DUNplus Abonné

Le 21/10/2013 à 09h03

yeagermach1 a écrit :

Pourquoi se limiter a 1000 ? …

Deja qu’ils ont du mal avec 1000, alors plus ?" />

" />

Nilav

Le 21/10/2013 à 09h08

yeagermach1 a écrit :

euh 1000 fichiers, c’est juste que dalle. Surtout qu’ils ont pas telechargé, juste regarder le nom pour determiner si legale ou pas (enfin un des 5 etats). Un etudiant doit pouvoir boucler cela en grand max une demi journée de travail.

En statistiques, on s’en fout de la valeur brute de l’échantillon (1 000 fichiers), ce qui compte, c’est si cet échantillon est pertinent par rapport au groupe. Et là, leur échantillon est sûr à 95% ce qui est très bien !

Lance une pièce 1 000 ou 10 000 fois pour voir dans quelle proportion elle tombe sur pile ou face, tu verras que tes résultats entre tes deux tests sont sensiblement les mêmes. Ici c’est pareil, par rapport à ce qu’ils attendaient de leur étude, tester 1 000 ou 10 000 fichiers n’aurait pas apporté grand chose (au mieux ils auraient réduit leur risque alpha). Le problème n’étant pas dans le nombre mais l’impossibilité de vérifier la contenance du fichier en détail.

fred131

Le 21/10/2013 à 09h15

Aux states ça doit chatouiller la class-action et des dommages et intérets pharamineux, pour ceux qui avaient du légal dessus.

Surtout que, si je me souviens bien, il y avait des stars du cinéma et de la chanson dans le tas qui utilisaient ce service pour communiquer avec leur équipe pour des projets en cours….

Si un café chaud peut rapporter moult brouzouf à une inconnue qui s’est brûlée les cuisses en le plaçant entre ses jambes, alors pour une star qui a une armée d’avocats qui s’est fait ruiner ou retarder un projet…

malock

Le 21/10/2013 à 09h15

yeagermach1 a écrit :

[…]Un etudiant doit pouvoir boucler cela en grand max une demi journée de travail.

Quel trolleur !

yeagermach1

Le 21/10/2013 à 09h16

Nilav a écrit :

En statistiques, on s’en fout de la valeur brute de l’échantillon (1 000 fichiers), ce qui compte, c’est si cet échantillon est pertinent par rapport au groupe. Et là, leur échantillon est sûr à 95% ce qui est très bien !

Lance une pièce 1 000 ou 10 000 fois pour voir dans quelle proportion elle tombe sur pile ou face, tu verras que tes résultats entre tes deux tests sont sensiblement les mêmes. Ici c’est pareil, par rapport à ce qu’ils attendaient de leur étude, tester 1 000 ou 10 000 fichiers n’aurait pas apporté grand chose (au mieux ils auraient réduit leur risque alpha). Le problème n’étant pas dans le nombre mais l’impossibilité de vérifier la contenance du fichier en détail.

Si j’ai bien compris le PDF, ils ont pris 1000 fichiers random sur chaque service. Et on regardé ces 1000 fichiers randoms.

Ce qui m’embête c’est faire une conclusion sur la base d’un random. Après tout, 4:4:4:4:4:4:4 est une liste random de chiffre. Et a part déduire que 100% des échantillons sont le chiffre 4. Je vois mal ce que l’on peut en déduire d’autre.

A la rigueur, si ils avaient recommencé plusieurs fois l’XP et tombait toujours sur les mêmes chiffres, on pourrait en déduire quelque chose. La il se limite a 1 jet de 1000 par service et tirent une conclusion.

J’ai peut être loupé quelque chose mais je ne vois pas quoi (ce qui est normal si je l’ai loupé me dira t on).

yeagermach1

Le 21/10/2013 à 09h18

malock a écrit :

Quel trolleur !

En quoi ? Cela ne t’es jamais arrivé de faire du tri dans tes fichiers sur ton ordi ? Perso cela m’arrive souvent et trier 1000 fichiers, c’est franchement rapide. Mais en en examinant le contenu comme par exemple quand on trie des photos.

malock

Le 21/10/2013 à 09h27

yeagermach1 a écrit :

En quoi ? Cela ne t’es jamais arrivé de faire du tri dans tes fichiers sur ton ordi ? Perso cela m’arrive souvent et trier 1000 fichiers, c’est franchement rapide. Mais en en examinant le contenu comme par exemple quand on trie des photos.

On parle de valider chaque métadonnée (titre, taille…), à la main…. 1000 fichiers (seulement pour un service, il y en a 5 autres) en 4h de travail, c’est 15 secondes par fichier… ça ne passe pas non en “grand max une demi journée”… (il faut en plier 6000 n’est-ce pas ?)

Peu importe, ça sonnait comme un troll, je réagis mais on s’en fiche…

Ce qui m’agace, c’est que tu sembles pourrir le travail des autres (qui vaut ce qu’il vaut) avant même d’avoir réellement piger ce qu’ils (en) font… non ?

yeagermach1

Le 21/10/2013 à 10h26

Faith a écrit :

Pour diviser par deux l’imprécision, il faut multiplier par 4 la taille de l’échantillon. (grosso-modo)

Comme expliqué précédemment, les sondages sont totalement nuls en matière de précision par rapport à un tirage statistique aléatoire.

(D’autant plus nuls concernant le FN que tu n’as jamais les résultats bruts, mais toujours des résultats redressés => le sondage donne presque autant l’avis du sondeur que des sondés)

Ben c’est peut etre une déformation professionnel mais moi perso en dessous de 99,999% on me demande de revoir ma copie. Seulement 95% de chance me semble être totalement inimaginable.

psn00ps

Le 21/10/2013 à 10h31

Le taux de fichiers considérés comme « potentiellement illicites » est cependant relativement bas chez MegaUpload par rapport aux autres plateformes.

Sur le taux, ok, mais vu la taille de Mega, ça fait tou de suite plus de fichiers. " />

Faith

Le 21/10/2013 à 10h32

yeagermach1 a écrit :

Ben c’est peut etre une déformation professionnel mais moi perso en dessous de 99,999% on me demande de revoir ma copie.

Je doute que tu aies un boulot ayant le moindre rapport avec le monde physique alors. Tu peux nous en dire plus sur ton emploi ?

yeagermach1

Le 21/10/2013 à 10h33

Faith a écrit :

Je doute que tu aies un boulot ayant le moindre rapport avec le monde physique alors. Tu peux nous en dire plus sur ton emploi ?

Système embarqué, système temps réel.

Faith

Le 21/10/2013 à 10h34

psn00ps a écrit :

Le taux de fichiers considérés comme « potentiellement illicites » est cependant relativement bas chez MegaUpload par rapport aux autres plateformes.

Sur le taux, ok, mais vu la taille de Mega, ça fait tou de suite plus de fichiers. " />

En fait c’est surtout dû au fait que MU était l’une des cibles privilégiées par les ayants droits. Les noms de fichiers sont donc souvent “randomisés” (ou au moins non explicites), ce qui explique également l’énorme proportion de fichiers “unknown”

psn00ps

Le 21/10/2013 à 10h35

CUlater a écrit :

Etude qui ne prend en compte que les contenus linkés publiquement, aucunement ceux privés/diffusés restrictivement, qui sont, dans la majorité, licites." />

" /> Boule de cristal INside " />

Faith

Le 21/10/2013 à 10h38

yeagermach1 a écrit :

Système embarqué, système temps réel.

Et 99.999% ? " />

Tu vas me faire croire que tu utilises des capteurs disposant d’une précision de 0.001% ? Quel genre ?

Et des servo moteurs précis à 0.0036° ? Lesquels ?

yeagermach1

Le 21/10/2013 à 10h41

Faith a écrit :

Et 99.999% ? " />

Tu vas me faire croire que tu utilises des capteurs disposant d’une précision de 0.001% ? Quel genre ?

Suffit de mettre le prix. Mais la n’est pas la question, si le système que je crée marche correctement 95% du temps, on me demandera les 4.999% qui restent. Se contenter de 95% du temps cela fonctionne correctement n’est pas admissible. A part dans les mondes des stats et des sondages, si on te croit.

Zerdligham

Le 21/10/2013 à 10h44

yeagermach1 a écrit :

Après tout, 4:4:4:4:4:4:4 est une liste random de chiffre. Et a part déduire que 100% des échantillons sont le chiffre 4. Je vois mal ce que l’on peut en déduire d’autre.

C’est possible, mais extrêmement peu probable.

Imaginons qu’il y ait 50% de fichiers licites et 50% illicites sur MégaUpload (les chiffres sont choisis parce que simples, ils ne sous-entendent rien).

Si tu tires 5 fichiers, la proba que tu en ait n illicites dedans suit une loi qu’on appelle loi binomiale. Grosso modo on a 60% de chance de tomber sur 2 ou 3. Pas terrible comme estimation. Tomber systématiquement sur un type de fichier est certes possible, mais déjà très peu probable (3%).

Après en stat la notion qui est vraiment importante, c’est la probabilité de tomber “loin” de la probabilité réelle.

Dans mon exemple avec 5 fichiers, je peux affirmer qu’il y a 62% de chance que je trouve un résultat avec moins de 20% d’écart. Pas terrible. Avec 1000 fichiers je n’ai que 0.16% de chance de me tromper de plus de 50 fichiers, c’est déjà mieux.

Plus mon échantillon est grand, plus la probabilité d’obtenir un résultat loin de la réalité est faible (c’est ce qu’on appelle la loi des grands nombres). Jamais nulle, mais faible (la probabilité d’avoir moins de 400 fichiers licites sur les mille est de 10e-10, on est 1000 fois en dessous de la probabilité de gagner au loto).

Bon en vrai les calculs mathématiques sont à faire dans l’autre sens (on part de l’expérience et on évalue la réalité), ce qui fait des formules un peu plus compliquées que j’ai oublié depuis l’école " />, mais le principe ressemble.

Dans leur étude, avec 5 résultats possibles, les maths doivent être franchement moches " />, mais tout s’estime. J’imagine que les intervalles de confiances sont mentionnés dans le papier.

Après, s’ils annoncent un intervalle de confiance du même ordre que le résultat, on peut effectivement rien en tirer. Le seul domaine dans lequel on peut tirer des conclusions avec des résultats plus petits que l’intervalle de confiance c’est le bashing anti-OGM " />

Jarodd Abonné

Le 21/10/2013 à 10h44

Le taux de fichiers considérés comme « potentiellement illicites » est cependant relativement bas chez MegaUpload par rapport aux autres plateformes. On atteint en effet des taux avoisinant les 80 % chez Wupload et Undeadlink par exemple

Je ne dois pas être réveillé, je lis l’inverse sur le schéma : WU et UL sont à 80% de “legitimate”, pas de “potentiellement illicites”.

Faith

Le 21/10/2013 à 10h46

yeagermach1 a écrit :

Se contenter de 95% du temps cela fonctionne correctement n’est pas admissible. A part dans les mondes des stats et des sondages, si on te croit.

Et dans l’industrie, la banque, l’artisanat, l’assurance, l’alimentaire, etc… Les imprécisions sont partout (à tel point, que je me demande si tu es sincère)

Oh, peut-être pas 95%, mais 98% sont souvent largement suffisants.

fusion_sadam

Le 21/10/2013 à 10h47

yeagermach1 a écrit :

Pour un sondage, on fait des choix en fonction des categories professionnels et co pour arriver a un tirage que l’on considere correspondre a l’etat actuelle. Mais la on se contente d’un random.

Pas exactement, la méthode des quotas à laquelle tu fais référence n’a qu’un seul but : minimiser la fluctuation due à l’échantillonnage, ce qui permet donc à taille d’échantillon égale d’avoir un intervalle de confiance plus fiable.

Mais cela nécessite d’avoir une connaissance exact de la structure de la population (rôle de l’insee), ce qui dans la pratique est rarement le cas.

Cela est très français, aux état unis par exemple la méthode aléatoire est privilégié.

Quand aux sondages sur les intentions de vote c’est très différents, car justement une intention n’est pas comparable à un vote réel.

Sache que les résultats du 20 heures, tout comme cette étude, sont issues d’un échantillon également car il ils reposent sur un vote réel.

Le résultats précis n’est connu que le lendemain après le décompte total.

Les sondages à la sortie des urnes (donc déclaration d’un vote réel) donnent également des résultats plutôt fiables, c’est pour cela que les résultats finaux sont rarement une “surprise” au 20h et largement diffusé de l’autre coté de la frontière.

Faith

Le 21/10/2013 à 10h48

Jarodd a écrit :

Je ne dois pas être réveillé, .

En effet ;)

je lis l’inverse sur le schéma : WU et UL sont à 80% de “legitimate”, pas de “potentiellement illicites”

Les rayures sont dans le sens inverse !

WereWindle

Le 21/10/2013 à 10h52

Jarodd a écrit :

Je ne dois pas être réveillé, je lis l’inverse sur le schéma : WU et UL sont à 80% de “legitimate”, pas de “potentiellement illicites”.

Faith a écrit :

Les rayures sont dans le sens inverse !

j’avoue m’être aussi fait avoir en première lecture " />

(modifier l’orientation entre le graph et la légende était pas forcément l’idée la plus géniale " />)

fusion_sadam

Le 21/10/2013 à 10h52

Zerdligham a écrit :

Le seul domaine dans lequel on peut tirer des conclusions avec des résultats plus petits que l’intervalle de confiance c’est le bashing anti-OGM " />

Toi aussi tu as kiffé la dernière étude de Séralini " />

Texas Ranger

Le 21/10/2013 à 10h55

Faith a écrit :

Et dans l’industrie, la banque, l’artisanat, l’assurance, l’alimentaire, etc… Les imprécisions sont partout (à tel point, que je me demande si tu es sincère)

Oh, peut-être pas 95%, mais 98% sont souvent largement suffisants.

ça dépend…

quand tu branches des prises électriques, ça t’arrivent de te faire électrocuter et mourir ou pas ? " />

parce que moi j’ai un stock non vendu de prise fonctionnant à 80% niveau protection " />

Mais je comprends yeagermach1 , on prend 1000 fichiers sur 100 millions, et on dit qu’on a une précision de 95%. c’est totalement con pour moi aussi " />

mais ce sont les stat qui veulent ça.