web-dev-qa-db-fra.com

Un client veut que nous ségions des machines de travail pour la pornographie. Est-il possible?

Un client de longue date nous a demandé d'aider à éliminer leurs machines de travail pour la pornographie. Ils sont inquiets de la responsabilité si des matériaux sensibles ont été trouvés. Leurs principales préoccupations (pour des raisons évidentes) sont des fichiers vidéo, audio et image. Si possible, ils aimeraient également analyser des documents textuels pour un contenu inapproprié. Ils ont une hiérarchie de contenu de non-travail commençant par une flagrance illégale (je n'ai pas à énumérer les détails), de descendre de manière évidente offensive, et d'inclure également des choses qui peuvent être offensantes pour certaines - pensez des annonces de lingerie, des cartes de blague mettant en vedette Butt fissures et tout ce qui concerne Howie Mandel.

Mes questions sont:

  • Est-ce que cette éthique? Je pense que c'est que chaque employé accepte légalement que leur machine de travail appartient à la société et est sujette à la recherche. Les projections ne doivent pas se produire sur des machines personnelles amenées au travail.
  • Est-ce réalisable? J'ai fait beaucoup de traitement/indexation d'image, mais cela ressemble à un tout nouveau monde de complexité.
  • Des références à des techniques réussies pour la découverte du porno?
  • Est-il approprié pour moi d'archiver les résultats lorsque quelque chose est découvert?
30
Scant Roger

Vous pouvez le faire avec 90% ELLEDOLOGIE , 10% de logiciel.

Premièrement, scanner tranquillement les ordinateurs employés, construisez une base de données de fichiers et de tailles pour chaque employé.

Puis fuit un mémo que tous les PC seront numérisés pour un contenu discutable, c'est-à-dire les patrons ayant un shazam comme programme pouvant identifier le porno, etc.

Ensuite, quelques jours plus tard, numérisez les ordinateurs pour les fichiers et les tailles à nouveau. Regardez les fichiers supprimés, sont-ils des fichiers de films ou d'images? Ensuite, ce sont les employés dont vous avez besoin pour garder un œil sur.

Numérisez régulièrement ces employés des PC pour les images et les films et les vérifier manuellement pour un contenu douteux.

125
Binary Worrier

C'est une tâche de réseau neuronal évidente. Tout d'abord, vous avez besoin d'un grand ensemble d'images d'images sélectionnées par des experts de votre entreprise .....

Une solution plus efficace consiste à annoncer que vous vérifiez que vous vérifiez chaque machine pour le porno/mois/peu importe, puis écrivez une application simple qui vous exerce simplement le disque. Je vous garantis que les machines auront été nettoyées à ce moment-là.


pS - Un couple de points "sérieux" - vous en fait ne Je veux trouver quoi que ce soit.

Si vous trouvez quelques images dans un cache de navigateur, ils ont peut-être frappé un mauvais lien ou une popup Dodgy - rappelez-vous l'enseignant viré sur WhiteHouse.com? Si vous tirez/disciplinez-les pour cela, il y aura une réaction des travailleurs/union. Comment votre entreprise travaillerait-elle si chaque clic devait être soumis à un accord légal pour approbation avant que vos travailleurs ont étudié une question ou vérifié un prix en ligne?

Si vous trouvez une pile de porno sur une machine Comment allez-vous prouver que cela a été placé par cet employé? Avez-vous le genre de systèmes de sécurité et d'audit qui défendraient devant le tribunal? Utilisez-vous (ou même connaissez-vous) un système d'exploitation où un administrateur système ne pouvait pas les mettre là et le faire ressembler aux fichiers de l'utilisateur?

De plus, dans mon expérience, les endroits les plus courants des catastrophes porno sont sur les ordinateurs portables des CXOS et des VPS Senior.

Il vaut beaucoup mieux d'organiser les fichiers pour disparaître à l'avance.

75
Martin Beckett

Cette approche du contrôle est certainement douloureuse pour les employés et les gens. Une fois que quelque chose entre dans la machine de l'employé, il n'y a pas de moyen sûr de la détecter. Vous devez l'arrêter d'entrer dans la machine à la première place.
[.____] La pratique la plus connue pour cela est évidemment le contrôle sur les sites/domaines qui peuvent être visités. Cette liste doit être disponible quelque part sur le net. Outre cela, vous pouvez également suivre le nombre d'images, des vidéos que l'employé a téléchargé et de l'endroit où il est venu.
[.____] Il y a des chances que le matériau puisse venir d'autres que sur une bande, comme du disque dur externe. Il pourrait y avoir une fois par mois numérisation aléatoire du système où vous pouvez choisir de manière aléatoire certaines des vidéos et des images et le vérifier manuellement. Je ne sais pas comment cela peut être fait. Mais l'automatisation de la vérification des images et des vidéos est certainement hors de portée et sera certainement erronée.
En fait, je ne suis pas beaucoup avec l'idée de restreindre les employés de faire des choses personnelles. Vous devriez faire confiance à vos employés pour cela. Vos employés devraient être assez occupés dans le bureau afin qu'ils ne reçoivent pas de temps pour cela. Plus les inquiétudes sont l'employé ne fait pas son travail? Ou a-t-il installé un logiciel fissuré ou piraté?

8
Manoj R

Il y a un certain nombre de produits sur le marché qui effectuent des " filtrage de contenu " de diverses formes. (A la recherche Google sur certains termes évidents jette quelques candidats évidents.) Il est probablement une meilleure idée d'utiliser un de ces produits que la construction d'un grand nombre de logiciels de numérisation/filtrage à partir de zéro. Une autre option consiste à juste regarder aux frontières; par exemple. en surveillant des e-mails externes et le trafic Web. Encore une fois il y a des produits qui font ce genre de chose.

Bien qu'il n'y ait pas de doute qu'il est éthique pour une entreprise de scanner ses ordinateurs pour " mauvaises choses ", cela ne signifie pas qu'il n'y a pas de problèmes.

Premier numéro:

  • La détermination de ce qui est et ce qui est pas " contenu répréhensible " est subjective.
  • Logiciel pour détecter des images, des vidéos contenant (disons) " représentations du corps nu " est (AFAIK) susceptible d'être peu fiables, ce qui des faux positifs et des faux négatifs.

Alors ... cela veut dire que quelqu'un dans l'organisation de votre client doit passer en revue les " hits ". Cela coûte de l'argent.

Deuxième question: Il peut y avoir une explication innocente. Le fichier aurait été téléchargé par accident, ou il aurait été planté par un collègue vindicatif. S'il y a une explication innocente, l'organisation du client doit faire attention à ce qu'ils ne/disent. (OK c'est pas vraiment votre problème, mais vous pourriez cop certains des contre-courant.)

Troisième question: Non-résistant que la société a le droit de surveiller un contenu répréhensible, beaucoup d'employés trouveront ce mauvais goût. Et si elles trop loin, cela aura un impact sur le moral des employés. Certains employés " marcher ". D'autres peuvent prendre des mesures de protestation ... par exemple en essayant de créer beaucoup de faux positifs. (Encore une fois, pas vraiment votre question, mais ...)

Quatrième question: Les gens peuvent cacher un contenu répréhensible en les chiffrant, en le mettant sur un support portable ou amovibles, etc. Les gens peuvent simuler les métadonnées pour la faire ressembler à quelqu'un d'autre est responsable.

7
Stephen C

Sur les aspects juridiques, en France:

Le patron possède les ordinateurs et la connexion Internet: il peut faire ce qui le plaît.

Mais la vie privée des employés ne peut être violée. Si un répertoire de l'ordinateur est étiqueté personnel, le patron n'est pas autorisé à le numériser.

Le seul moyen de contourner les éléments de preuve que les employés stockent des documents illicites et d'obtenir un tribunal demander une analyse de l'ordinateur (note que la pornographie n'est pas illégale en France.)

6
mouviciel

Si les employés ont convenu que leur machine de travail appartient à la société et est sujette à la recherche, alors oui, c'est légal. Pour la preuve, l'archivage des fichiers serait probablement nécessaire.

Quant à la façon de trouver le matériel. Vous pourriez:

  1. D'abord et avant tout, numérisez les noms de fichier pour un certain ensemble de mots (porno, lesbiennes, etc.)
  2. Scannez les documents texte pour le même ensemble de mots
  3. Pour les images, vous pouvez trouver la couleur moyenne de l'image, et si cette couleur se trouve dans une plage qui se rapporterait la plupart des couleurs "chair", puis signalez l'image (une personne double vérification ces images marquées sera probablement nécessaire. ). Je ne voudrais pas signaler à quelqu'un d'une image qui finit par être une photo de famille de la plage.

Si vous numérisez les fichiers car ils entrent dans l'ordinateur (par exemple, avons-vous chargé le programme sur chaque machine de travail et enregistrer des cas marqués sur une base de données centrale), je ne pense pas qu'il serait trop impossible (autre que la méfiance flagrante du l'employeur a clairement pour ses employés).

Avec les fichiers vidéo, je ne suis pas sûr à 100%. Éventuellement une approche similaire comme avec la numérisation d'image (choisissez des cadres aléatoires et numérisez un certain niveau de couleur "chair").

La numérisation des fichiers audio semble que cela se produirait dans la reconnaissance de la parole, qui est une planche de vers de vers. Numériser le nom du fichier, cependant, serait facile et pourrait être effectué comme avec les documents, les images et la vidéo.

5
Ryan

Comme @Ryan a dit, l'analyse d'image peut se concentrer sur l'analyse des couleurs.

Faisabilité? Ma soeur travaille dans une région du gouvernement où ils obtiennent une forme d'audit chaque année et une fois que c'était pour le porno. Elle (géophysicien) avait plusieurs faux positifs (rochers roses).

4
Rick Berge

Il existe des recherches importantes et récentes sur la détection de la pornographie en utilisant des méthodes classiques de classification. Des exemples sont disponibles ici , et ici .

4
Nishant
  • Est-ce que cette éthique?

Dépend de la mise en œuvre et des attentes raisonnables des employés. Par exemple, si votre logiciel scanne une machine connectée à , le réseau est une exigence supplémentaire que Infra a besoin d'empêcher les machines non autorisées de se brancher. (Peut-être que Cela devrait être évident, mais il est fréquemment négligé sur les réseaux que j'ai vus.)

  • Est-ce réalisable? J'ai fait beaucoup de traitement/indexation d'image, mais cela ressemble à un tout nouveau monde de complexité.

Est-ce que cela est réalisable à la drogue tester chaque employé? Peut-être que, mais je me demande sa valeur. Je voudrais le randomiser. Laissez les employés connaître leurs machines peuvent être numérisées pour un contenu inapproprié à tout moment.

  • Des références à des techniques réussies pour la découverte du porno?

Je ne touche pas celui-ci. Je ne pense pas pouvoir garder mon sens de l'humour en chèque. Mais faites attention à le problème Scunthorpe lors de la recherche de texte.

  • Est-il approprié pour moi d'archiver les résultats lorsque quelque chose est découvert?

Celui-ci me concerne le plus, et je demanderais un avocat. Je soupçonne si vous trouvez un contenu illégal que vous pouvez techniquement être obligé légalement de le divulguer. C'est mauvais, en particulier si l'utilisateur a été exposé de la seule faute réelle. Vous (le client R) aura besoin de véritables conseils juridiques sur la manière de gérer cela. Obtenez HR et les avocats impliqués.

3
kojiro

En supposant que vous êtes un administrateur de domaine sur le réseau.

  1. C $ dans la machine de bureau de chaque utilisateur.
  2. Copier des fichiers porno en une part privée personnelle.
  3. Supprimer de l'emplacement d'origine.
  4. Faire du popcorn.
  5. Analyse complète de toutes les "preuves".
2
Anonymous Type

D'un point de vue purement technique: cela ressemble à un problème de reconnaissance de la catégorie d'objet. Je n'ai jamais rien fait de comme ça, mais d'après ce que j'ai lu, les systèmes de reconnaissance de la catégorie d'art fonctionnent comme celui-ci:

  • Tout d'abord, vous recherchez un grand nombre de points d'intérêt (par exemple à l'aide d'un détecteur de coin Harris, des points extrêmes de filtres de journal/chien dans l'espace d'échelle; certains auteurs suggèrent même de choisir des points aléatoires)
  • Ensuite, vous appliquez une fonctionnalité Transformer à chaque point (quelque chose comme Tamift, surf, gloh ou beaucoup d'autres)
  • Combinez toutes les fonctionnalités que vous avez trouvées dans un histogramme (sac-de-fonctionnalités)
  • Utilisez des algorithmes d'apprentissage de la machine standard (comme des machines de vecteur de support) pour apprendre la distinction entre les catégories d'objets en utilisant un grand nombre d'images de formation.
2
nikie

Le système d'exploitation informatique de chacun a probablement été installé à partir d'une image de disque.

  1. commencez avec l'image disque et obtenez une liste de fichiers que vous n'avez probablement pas besoin de numériser.
  2. recevez une liste de tous les autres fichiers sur chaque PC.
  3. tirez les fichiers réels de 10 à 20 machines aléatoires et utilisez comme lit d'essai
  4. recherche d'articles dans un mot ouvrant et discutable (Hotties, Jugs, 'Barely Legal', blague, etc.) Dictionnaire
  5. Voir la vidéo - Quelqu'un devrait-il avoir une vidéo du tout?
  6. Voir les photos
  7. Tout fichiers vidéo ou image qui sont discutables peuvent être utilisés pour rechercher les autres machines

Il faudra un ou deux employés pour se faire prendre avant que chacun ne mettra quelque chose sur son ordinateur de travail.

Chargez une somme d'argent obscène pour ce service. Je serai Zappos ne ferait jamais cela à leurs employés.

2
JeffO

Je ne sais pas, il doit y avoir une réponse moyenne, qui n'est pas aussi invasive, mais résout le vrai problème, la responsabilité.

Demandez-leur de signer une renonciation, qui libère la compagnie de toute responsabilité pour des trucs illégaux trouvés sur le PC de travail, ce qui n'est pas lié au travail.

1
crosenblum
  1. dites à l'utilisateur une URL est considérée comme un adulte - proxy bluecoat Est-ce que cela.
  2. Licence La chose Google effectue dans leur recherche d'image http://code.google.com/apis/safebrowsing/ http://www.google.com/search?q=google+Image+Recognition+ API
  3. scannez l'ordinateur pour les éléments non dans une liste préventive.
1
mplungjan

Analyse de l'image et du contenu Pour déterminer les différences entre une photographie de bon goût d'une personne, une photographie de maillot de bain, une photo nue, des représentations de pornographie ... Autant que je sache, c'est nulle part assez sophistiqué à faire dans des logiciels seuls.

Heureusement, le crowdsourcing devrait être utile ici, comme @Ammoq suggéré dans un commentaire. Cependant, je ne crois pas que les membres de 4chan ou aucun autre forum apprécieraient le grand nombre de non - images pornographiques, telles que des graphiques Web génériques pour les boutons, cadres, publicités, etc. Être affiché.

Ma recommandation serait d'examiner les solutions de crowdsourcing existantes, telles que Amazon Mechanical Turk . (Toutefois, les conditions d'utilisation peuvent explicitement interdire l'implication de contenu pornographique, alors soyez conseillée que vous devriez avoir à trouver une autre solution ou de rouler le vôtre.)

Pour faire du crowdsourcing réalisable, votre logiciel doit être prêt à faire tout ou partie des éléments suivants:

  • Stocker des informations qui relient le contenu avec l'ordinateur it provenant de
  • Identifier les doublons exacts dans l'ensemble de l'inventaire et les supprimer (mais les informations d'origine sont conservées)
  • Downsample Images à une certaine dimension, peut-être 320x200, qui suffit à identifier le contenu de l'image sans conserver des détails inutiles et de gaspillage de stockage/bande passante
  • Créez des images fixes de contenu vidéo à un intervalle régulier et appliquez la même règle descendante

Enfin, la base de données d'images réduites représentant l'image d'origine et le contenu vidéo est cochée par les utilisateurs (ou une équipe désignée si vous avez les ressources) en fonction du code de conduite de votre entreprise. Le programme ou l'interface peut afficher une seule image à la fois, ou un écran de vignettes - tout ce que vous jugez préférable d'obtenir des informations précises.

L'identité de l'ordinateur à partir desquelles les images sont venues doivent être absolument secrètes et inconnues des personnes évaluant les données. De plus, il devrait être randomisé et chaque image a probablement vérifié plus d'une fois pour supprimer le biais.

La même technique pourrait être utilisée pour le texte, mais elle pourrait d'abord être marquée par le classement des mots clés qui suppriment la majeure partie du texte de la critique de Crowdsource. Classer un document long sera bien sûr plus prudent que classifier une image.

1
JYelton

Je voulais juste commenter, mais seulement 1 représentant, donc je ne peux pas.

Dans le cas de Gravatar, vous pouvez ajouter une fonction pour filtrer à partir d'une liste de sites propres dans les emplacements de cache Internet. C'EST À DIRE. Gravatar et autres sites que vous ne voulez pas de faux positifs. Vous pouvez également filtrer des choses comme le fond d'écran de bureau. S'ils présentent une pornographie sur le bureau, vous pensez que les gens remarqueraient en dehors de votre audit.

1
a2j

De telles choses ne fonctionnent jamais de manière fiable. Vous pouvez utiliser une liste de blocs pour bloquer les domaines sur le nom ou sur l'être inclus sur une liste (une pratique courante). Mais ces listes ne sont jamais complètes et le blocage du nom sur la base de critères peut conduire à de nombreux faux positifs.

Vous pouvez bloquer sur des mots apparaissant dans le texte des sites, mais cela peut encore entraîner de faux positifs (et devient très lent que vous devez analyser chaque peu de données qui transmet votre réseau afin de détecter des "bits coquins").

vous pouvez bloquer des images (et peut-être les sites les contenant) qui montrent plus qu'un certain pourcentage de skintones. Mais encore une fois, cela conduit à de nombreux faux positifs. Un service médical universitaire bloquant une encyclopédie médicale avec des images de membres et de torons montrant des plaies et des conditions de peau est un exemple bien connu de cela. Et bien sûr, il serait raciste car il ne bloque que certains skintones. Si vous bloquez des couleurs correspondant à la peau caucasienne, il y a toujours du porno à l'aide d'acteurs noirs par exemple.

Il est préférable de faire confiance à vos employés et d'avoir des politiques en place lorsque cette confiance est cassée.

1
jwenting