Vergleichsalgorithmus
Verfasst: Do Aug 05, 2010 10:48 pm
Ich habe gerade ein Konkurrenz Programm am laufen, dass meine Dateien mal nach duplikaten durchsuchen soll.
Für ~13.000 Dateien rattert das Programm jetzt schon über 50min, wobei man erwähnen muss, dass das Programm die ID3-Tags von mp3-Titlen für die Bildung des Hashes außer acht lässt.
Für unser Programm müssen wir uns deshalb mal Gedanken über den Vergleichsalgorithmus machen. Wenn man jeden Hash mit allen anderen Verliebenden Prüfen würde, würde man ca (Anzahl)²/2 Durchläufe brauchen. Durch Sortierung nach Dateigröße lässt sich das natürlich deutlich reduzieren, erhöht aber den Verwaltungsaufwand.
Also hier besteht eindeutig noch verbesserrungs bedarf.
Für ~13.000 Dateien rattert das Programm jetzt schon über 50min, wobei man erwähnen muss, dass das Programm die ID3-Tags von mp3-Titlen für die Bildung des Hashes außer acht lässt.
Für unser Programm müssen wir uns deshalb mal Gedanken über den Vergleichsalgorithmus machen. Wenn man jeden Hash mit allen anderen Verliebenden Prüfen würde, würde man ca (Anzahl)²/2 Durchläufe brauchen. Durch Sortierung nach Dateigröße lässt sich das natürlich deutlich reduzieren, erhöht aber den Verwaltungsaufwand.
Also hier besteht eindeutig noch verbesserrungs bedarf.