proggen.org

Verfasst: **Do Aug 05, 2010 10:48 pm**

Ich habe gerade ein Konkurrenz Programm am laufen, dass meine Dateien mal nach duplikaten durchsuchen soll.
Für ~13.000 Dateien rattert das Programm jetzt schon über 50min, wobei man erwähnen muss, dass das Programm die ID3-Tags von mp3-Titlen für die Bildung des Hashes außer acht lässt.
Für unser Programm müssen wir uns deshalb mal Gedanken über den Vergleichsalgorithmus machen. Wenn man jeden Hash mit allen anderen Verliebenden Prüfen würde, würde man ca (Anzahl)²/2 Durchläufe brauchen. Durch Sortierung nach Dateigröße lässt sich das natürlich deutlich reduzieren, erhöht aber den Verwaltungsaufwand.
Also hier besteht eindeutig noch verbesserrungs bedarf.

Verfasst: **Fr Aug 06, 2010 9:47 am**

Das lasse ich mal so stehen, denn zum einen hast Du natürlich recht, zum anderen ist es aber auch ein Problem, dass innerhalb der Datenverwaltungs-Verwaltungsklasse gekapselt ist, die man nach einer Proof-Of-Concept-Implementierung natürlich auch noch mit einem Turbolader nachrüsten kann.

proggen.org

Vergleichsalgorithmus

Vergleichsalgorithmus

Re: Vergleichsalgorithmus