Trouver des fichiers en double et les supprimer

Question

J'écris un programme Python pour trouver et supprimer les fichiers en double d'un dossier.

J'ai plusieurs copies de fichiers mp3 et quelques autres fichiers. J'utilise l'algorithme sh1.

Comment puis-je trouver ces fichiers en double et les supprimer?

nosklo · Answer

Version récursive des dossiers:

Cette version utilise la taille du fichier et un hachage du contenu pour rechercher les doublons. Vous pouvez lui transmettre plusieurs chemins, elle analysera tous les chemins récursivement et signalera tous les doublons trouvés.

import sys import os import hashlib def chunk_reader(fobj, chunk_size=1024): """Generator that reads a file in chunks of bytes""" while True: chunk = fobj.read(chunk_size) if not chunk: return yield chunk def check_for_duplicates(paths, hash=hashlib.sha1): hashes = {} for path in paths: for dirpath, dirnames, filenames in os.walk(path): for filename in filenames: full_path = os.path.join(dirpath, filename) hashobj = hash() for chunk in chunk_reader(open(full_path, 'rb')): hashobj.update(chunk) file_id = (hashobj.digest(), os.path.getsize(full_path)) duplicate = hashes.get(file_id, None) if duplicate: print "Duplicate found: %s and %s" % (full_path, duplicate) else: hashes[file_id] = full_path if sys.argv[1:]: check_for_duplicates(sys.argv[1:]) else: print "Please pass the paths to check as parameters to the script"

Todor Minakov · Answer

Algorithme le plus rapide - Augmentation de la performance 100x par rapport à la réponse acceptée (vraiment :))

Les approches des autres solutions sont très cool, mais elles oublient une propriété importante des fichiers en double: elles ont la même taille de fichier. En calculant le hachage coûteux uniquement sur des fichiers de même taille, vous économiserez énormément de temps processeur. les comparaisons de performance à la fin, voici l'explication.

En parcourant les réponses solides données par @nosklo et en empruntant l’idée de @Raffi d’avoir un hachage rapide ne commençant que le début de chaque fichier, et en calculant la réponse complète uniquement pour les collisions dans le hachage rapide, voici les étapes:

Construire une table de hachage des fichiers, où la taille du fichier est la clé.
Pour les fichiers de même taille, créez une table de hachage avec le hachage de leurs 1024 premiers octets. les éléments non en collision sont uniques
Pour les fichiers avec le même hachage sur les 1 000 premiers octets, calculez le hachage sur tout le contenu - les fichiers avec ceux qui correspondent ne sont PAS uniques.

Le code:

#!/usr/bin/env python import sys import os import hashlib def chunk_reader(fobj, chunk_size=1024): """Generator that reads a file in chunks of bytes""" while True: chunk = fobj.read(chunk_size) if not chunk: return yield chunk def get_hash(filename, first_chunk_only=False, hash=hashlib.sha1): hashobj = hash() file_object = open(filename, 'rb') if first_chunk_only: hashobj.update(file_object.read(1024)) else: for chunk in chunk_reader(file_object): hashobj.update(chunk) hashed = hashobj.digest() file_object.close() return hashed def check_for_duplicates(paths, hash=hashlib.sha1): hashes_by_size = {} hashes_on_1k = {} hashes_full = {} for path in paths: for dirpath, dirnames, filenames in os.walk(path): for filename in filenames: full_path = os.path.join(dirpath, filename) try: # if the target is a symlink (soft one), this will # dereference it - change the value to the actual target file full_path = os.path.realpath(full_path) file_size = os.path.getsize(full_path) except (OSError,): # not accessible (permissions, etc) - pass on continue duplicate = hashes_by_size.get(file_size) if duplicate: hashes_by_size[file_size].append(full_path) else: hashes_by_size[file_size] = [] # create the list for this file size hashes_by_size[file_size].append(full_path) # For all files with the same file size, get their hash on the 1st 1024 bytes for __, files in hashes_by_size.items(): if len(files) < 2: continue # this file size is unique, no need to spend cpy cycles on it for filename in files: try: small_hash = get_hash(filename, first_chunk_only=True) except (OSError,): # the file access might've changed till the exec point got here continue duplicate = hashes_on_1k.get(small_hash) if duplicate: hashes_on_1k[small_hash].append(filename) else: hashes_on_1k[small_hash] = [] # create the list for this 1k hash hashes_on_1k[small_hash].append(filename) # For all files with the hash on the 1st 1024 bytes, get their hash on the full file - collisions will be duplicates for __, files in hashes_on_1k.items(): if len(files) < 2: continue # this hash of fist 1k file bytes is unique, no need to spend cpy cycles on it for filename in files: try: full_hash = get_hash(filename, first_chunk_only=False) except (OSError,): # the file access might've changed till the exec point got here continue duplicate = hashes_full.get(full_hash) if duplicate: print "Duplicate found: %s and %s" % (filename, duplicate) else: hashes_full[full_hash] = filename if sys.argv[1:]: check_for_duplicates(sys.argv[1:]) else: print "Please pass the paths to check as parameters to the script"

Et, voici la partie amusante - comparaisons de performances.

Niveau de référence -

un répertoire contenant 1047 fichiers, 32 mp4, 1015 - jpg, taille totale - 5445,998 Mio - c.-à-d. répertoire de téléchargement automatique de l'appareil photo de mon téléphone :)
petit processeur (mais entièrement fonctionnel) - 1600 BogoMIPS, 1.2 GHz, cache 32L1 + 256L2 Kbs, /proc/cpuinfo:

Processeur: Feroceon 88FR131 rev 1 (v5l) BogoMIPS: 1599.07

(c’est-à-dire mon bas de gamme NAS :), exécutant Python 2.7.11.

Donc, voici le résultat de la solution très pratique de @ nosklo:

root@NAS:InstantUpload# time ~/scripts/checkDuplicates.py Duplicate found: ./IMG_20151231_143053 (2).jpg and ./IMG_20151231_143053.jpg Duplicate found: ./IMG_20151125_233019 (2).jpg and ./IMG_20151125_233019.jpg Duplicate found: ./IMG_20160204_150311.jpg and ./IMG_20160204_150311 (2).jpg Duplicate found: ./IMG_20160216_074620 (2).jpg and ./IMG_20160216_074620.jpg real 5m44.198s user 4m44.550s sys 0m33.530s

Et, voici la version avec filtre sur contrôle de taille, puis petits hachages, et enfin plein si les collisions sont trouvées:

root@NAS:InstantUpload# time ~/scripts/checkDuplicatesSmallHash.py . "/i-data/51608399/photo/Todor phone" Duplicate found: ./IMG_20160216_074620 (2).jpg and ./IMG_20160216_074620.jpg Duplicate found: ./IMG_20160204_150311.jpg and ./IMG_20160204_150311 (2).jpg Duplicate found: ./IMG_20151231_143053 (2).jpg and ./IMG_20151231_143053.jpg Duplicate found: ./IMG_20151125_233019 (2).jpg and ./IMG_20151125_233019.jpg real 0m1.398s user 0m1.200s sys 0m0.080s

Les deux versions ont été exécutées 3 fois chacune pour obtenir le temps moyen requis.

Donc v1 est (utilisateur + sys) 284s , l'autre - 2s ; assez difficile, hein:) Avec cette augmentation, on pourrait passer à SHA512, voire même plus cher - la pénalité de perf sera atténuée par le moins de calculs nécessaires.

Points négatifs:

Plus d'accès au disque que les autres versions - chaque fichier est accédé une fois pour les statistiques de taille (ce qui est bon marché, mais reste le disque IO), et chaque duplicata est ouvert deux fois (pour le petit premier hachage de 1 000 octets et pour le contenu complet)
Consomme plus de mémoire en raison du stockage de l'exécution des tables de hachage

zalew · Answer

def remove_duplicates(dir): unique = [] for filename in os.listdir(dir): if os.path.isfile(filename): filehash = md5.md5(file(filename).read()).hexdigest() if filehash not in unique: unique.append(filehash) else: os.remove(filename)

//modifier:

pour mp3 vous pouvez également être intéressé par ce sujet Détecter les fichiers MP3 en double avec des débits binaires différents et/ou des tags ID3 différents?

John Millikin · Answer

J'en ai écrit un en Python il y a quelque temps - vous pouvez l'utiliser.

import sys import os import hashlib check_path = (lambda filepath, hashes, p = sys.stdout.write: (lambda hash = hashlib.sha1 (file (filepath).read ()).hexdigest (): ((hash in hashes) and (p ('DUPLICATE FILE
' ' %s
' 'of %s
' % (filepath, hashes[hash]))) or hashes.setdefault (hash, filepath)))()) scan = (lambda dirpath, hashes = {}: map (lambda (root, dirs, files): map (lambda filename: check_path (os.path.join (root, filename), hashes), files), os.walk (dirpath))) ((len (sys.argv) > 1) and scan (sys.argv[1]))

Raffi · Answer

Algorithme plus rapide

Dans le cas où de nombreux fichiers de «grande taille» devraient être analysés (images, mp3, documents pdf), il serait intéressant/plus rapide d’avoir l’algorithme de comparaison suivant:

un premier hachage rapide est effectué sur les N premiers octets du fichier (disons 1 Ko). Ce hash indiquerait sans doute si les fichiers sont différents, mais ne dira pas si deux fichiers sont exactement identiques (précision du hachage, données limitées lues sur le disque)
un deuxième hachage, plus lent, qui est plus précis et appliqué à l'ensemble du contenu du fichier, si une collision se produit lors de la première étape

Voici une implémentation de cet algorithme:

import hashlib def Checksum(current_file_name, check_type = 'sha512', first_block = False): """Computes the hash for the given file. If first_block is True, only the first block of size size_block is hashed.""" size_block = 1024 * 1024 # The first N bytes (1KB) d = {'sha1' : hashlib.sha1, 'md5': hashlib.md5, 'sha512': hashlib.sha512} if(not d.has_key(check_type)): raise Exception("Unknown checksum method") file_size = os.stat(current_file_name)[stat.ST_SIZE] with file(current_file_name, 'rb') as f: key = d[check_type].__call__() while True: s = f.read(size_block) key.update(s) file_size -= size_block if(len(s) < size_block or first_block): break return key.hexdigest().upper() def find_duplicates(files): """Find duplicates among a set of files. The implementation uses two types of hashes: - A small and fast one one the first block of the file (first 1KB), - and in case of collision a complete hash on the file. The complete hash is not computed twice. It flushes the files that seems to have the same content (according to the hash method) at the end. """ print 'Analyzing', len(files), 'files' # this dictionary will receive small hashes d = {} # this dictionary will receive full hashes. It is filled # only in case of collision on the small hash (contains at least two # elements) duplicates = {} for f in files: # small hash to be fast check = Checksum(f, first_block = True, check_type = 'sha1') if(not d.has_key(check)): # d[check] is a list of files that have the same small hash d[check] = [(f, None)] else: l = d[check] l.append((f, None)) for index, (ff, checkfull) in enumerate(l): if(checkfull is None): # computes the full hash in case of collision checkfull = Checksum(ff, first_block = False) l[index] = (ff, checkfull) # for each new full hash computed, check if their is # a collision in the duplicate dictionary. if(not duplicates.has_key(checkfull)): duplicates[checkfull] = [ff] else: duplicates[checkfull].append(ff) # prints the detected duplicates if(len(duplicates) != 0): print print "The following files have the same sha512 hash" for h, lf in duplicates.items(): if(len(lf)==1): continue print 'Hash value', h for f in lf: print '	', f.encode('unicode_escape') if \ type(f) is types.UnicodeType else f return duplicates

La fonction find_duplicates prend une liste de fichiers. De cette façon, il est également possible de comparer deux répertoires (par exemple, pour mieux synchroniser leur contenu.) Voici un exemple de fonction permettant de créer une liste de fichiers, avec l'extension spécifiée, et d'éviter d'entrer dans certains répertoires:

def getFiles(_path, extensions = ['.png'], subdirs = False, avoid_directories = None): """Returns the list of files in the path :'_path', of extension in 'extensions'. 'subdir' indicates if the search should also be performed in the subdirectories. If extensions = [] or None, all files are returned. avoid_directories: if set, do not parse subdirectories that match any element of avoid_directories.""" l = [] extensions = [p.lower() for p in extensions] if not extensions is None \ else None for root, dirs, files in os.walk(_path, topdown=True): for name in files: if(extensions is None or len(extensions) == 0 or \ os.path.splitext(name)[1].lower() in extensions): l.append(os.path.join(root, name)) if(not subdirs): while(len(dirs) > 0): dirs.pop() Elif(not avoid_directories is None): for d in avoid_directories: if(d in dirs): dirs.remove(d) return l

Cette méthode est pratique pour ne pas analyser les chemins .svn par exemple, ce qui déclenchera sûrement des fichiers en collision dans find_duplicates.

Les commentaires sont les bienvenus.

ady · Answer

 import hashlib import os import sys from sets import Set def read_chunk(fobj, chunk_size = 2048): """ Files can be huge so read them in chunks of bytes. """ while True: chunk = fobj.read(chunk_size) if not chunk: return yield chunk def remove_duplicates(dir, hashfun = hashlib.sha512): unique = Set() for filename in os.listdir(dir): filepath = os.path.join(dir, filename) if os.path.isfile(filepath): hashobj = hashfun() for chunk in read_chunk(open(filepath,'rb')): hashobj.update(chunk) # the size of the hashobj is constant # print "hashfun: ", hashfun.__sizeof__() hashfile = hashobj.hexdigest() if hashfile not in unique: unique.add(hashfile) else: os.remove(filepath) try: hashfun = hashlib.sha256 remove_duplicates(sys.argv[1], hashfun) except IndexError: print """Please pass a path to a directory with duplicate files as a parameter to the script."""

qun · Answer

@ IanLee1521 a une solution intéressante ici . Il est très efficace car il vérifie d’abord le doublon en fonction de la taille du fichier.

#! /usr/bin/env python # Originally taken from: # http://www.pythoncentral.io/finding-duplicate-files-with-python/ # Original Auther: Andres Torres # Adapted to only compute the md5sum of files with the same size import argparse import os import sys import hashlib def find_duplicates(folders): """ Takes in an iterable of folders and prints & returns the duplicate files """ dup_size = {} for i in folders: # Iterate the folders given if os.path.exists(i): # Find the duplicated files and append them to dup_size join_dicts(dup_size, find_duplicate_size(i)) else: print('%s is not a valid path, please verify' % i) return {} print('Comparing files with the same size...') dups = {} for dup_list in dup_size.values(): if len(dup_list) > 1: join_dicts(dups, find_duplicate_hash(dup_list)) print_results(dups) return dups def find_duplicate_size(parent_dir): # Dups in format {hash:[names]} dups = {} for dirName, subdirs, fileList in os.walk(parent_dir): print('Scanning %s...' % dirName) for filename in fileList: # Get the path to the file path = os.path.join(dirName, filename) # Check to make sure the path is valid. if not os.path.exists(path): continue # Calculate sizes file_size = os.path.getsize(path) # Add or append the file path if file_size in dups: dups[file_size].append(path) else: dups[file_size] = [path] return dups def find_duplicate_hash(file_list): print('Comparing: ') for filename in file_list: print(' {}'.format(filename)) dups = {} for path in file_list: file_hash = hashfile(path) if file_hash in dups: dups[file_hash].append(path) else: dups[file_hash] = [path] return dups # Joins two dictionaries def join_dicts(dict1, dict2): for key in dict2.keys(): if key in dict1: dict1[key] = dict1[key] + dict2[key] else: dict1[key] = dict2[key] def hashfile(path, blocksize=65536): afile = open(path, 'rb') hasher = hashlib.md5() buf = afile.read(blocksize) while len(buf) > 0: hasher.update(buf) buf = afile.read(blocksize) afile.close() return hasher.hexdigest() def print_results(dict1): results = list(filter(lambda x: len(x) > 1, dict1.values())) if len(results) > 0: print('Duplicates Found:') print( 'The following files are identical. The name could differ, but the' ' content is identical' ) print('___________________') for result in results: for subresult in result: print('		%s' % subresult) print('___________________') else: print('No duplicate files found.') def main(): parser = argparse.ArgumentParser(description='Find duplicate files') parser.add_argument( 'folders', metavar='dir', type=str, nargs='+', help='A directory to parse for duplicates', ) args = parser.parse_args() find_duplicates(args.folders) if __== '__main__': sys.exit(main())

Basj · Answer

Pour être sûr (les supprimer automatiquement peut être dangereux en cas de problème!), Voici ce que j'utilise, basé sur la réponse de @ zalew.

Notez également que le code de somme md5 est légèrement différent de celui de @ zalew car son code a généré trop de fichiers dupliqués erronés (c'est pourquoi j'ai dit que les supprimer automatiquement est dangereux!).

import hashlib, os unique = dict() for filename in os.listdir('.'): if os.path.isfile(filename): filehash = hashlib.md5(open(filename, 'rb').read()).hexdigest() if filehash not in unique: unique[filehash] = filename else: print filename + ' is a duplicate of ' + unique[filehash]