Vergleichsalgorithmus

Proggen.org - Lernprojekt: Duplikatefinder
Antworten
Benutzeravatar
cloidnerux
Moderator
Beiträge: 3123
Registriert: Fr Sep 26, 2008 4:37 pm
Wohnort: Ram (Gibts wirklich)

Vergleichsalgorithmus

Beitrag von cloidnerux » Do Aug 05, 2010 10:48 pm

Ich habe gerade ein Konkurrenz Programm am laufen, dass meine Dateien mal nach duplikaten durchsuchen soll.
Für ~13.000 Dateien rattert das Programm jetzt schon über 50min, wobei man erwähnen muss, dass das Programm die ID3-Tags von mp3-Titlen für die Bildung des Hashes außer acht lässt.
Für unser Programm müssen wir uns deshalb mal Gedanken über den Vergleichsalgorithmus machen. Wenn man jeden Hash mit allen anderen Verliebenden Prüfen würde, würde man ca (Anzahl)²/2 Durchläufe brauchen. Durch Sortierung nach Dateigröße lässt sich das natürlich deutlich reduzieren, erhöht aber den Verwaltungsaufwand.
Also hier besteht eindeutig noch verbesserrungs bedarf.
Redundanz macht wiederholen unnötig.
quod erat expectandum

Benutzeravatar
Xin
nur zu Besuch hier
Beiträge: 8858
Registriert: Fr Jul 04, 2008 11:10 pm
Wohnort: /home/xin
Kontaktdaten:

Re: Vergleichsalgorithmus

Beitrag von Xin » Fr Aug 06, 2010 9:47 am

Das lasse ich mal so stehen, denn zum einen hast Du natürlich recht, zum anderen ist es aber auch ein Problem, dass innerhalb der Datenverwaltungs-Verwaltungsklasse gekapselt ist, die man nach einer Proof-Of-Concept-Implementierung natürlich auch noch mit einem Turbolader nachrüsten kann.
Merke: Wer Ordnung hellt ist nicht zwangsläufig eine Leuchte.

Ich beantworte keine generellen Programmierfragen per PN oder Mail. Dafür ist das Forum da.

Antworten