Hashfunktion
Verfasst: Mo Mai 17, 2010 5:23 pm
Da über den Hash einer Datei eventuelle Duplikate gefunden werden sollen, kann sich der Hash nach Folgenden Werten Richten:
-Größe der Datei
-Binärer Inhalt der Datei
-Name
-Endung
-Pfad
-Weitere Dateiinformationen(Besitzer, Erstellungsdatum, Bearbeitungsdatum)
Da aber im Zusammenhang mit Duplikaten folgende Effekte auftreten können:
-Unabsichtliche Kopien die dann automatisch "Kopie von ..." oder "<Name>(X)" genannt werden.
-Verschiedene Daten und Besitzer(Unter Linux in einen Allgemeinen ordner Kopiert)
Ist ein die Bildung eines sinnvollen Hashs nur noch über Größenangaben, Inhalt und Endungen möglich.
Wobei aber beachtet werden muss, das es bei dem Duplikatfinder womöglich 1.000.000 Datein Indexiert werden müssen es unmöglich ist, den Kompletten Inahlt zu Hashen, da dies den Indexierungsforgang erheblich verlangsamen würde.
Jetzt werden ntürlich viele MD5 vorschalgen, was auch nicht schlecht wäre, nur wollen wir hier etwas lernen.
ich versuche heute abend noch ein kleines Demo-Programm zusammenhacken, um meine Idee zu einem hash-Algortihmus zu testen.
-Größe der Datei
-Binärer Inhalt der Datei
-Name
-Endung
-Pfad
-Weitere Dateiinformationen(Besitzer, Erstellungsdatum, Bearbeitungsdatum)
Da aber im Zusammenhang mit Duplikaten folgende Effekte auftreten können:
-Unabsichtliche Kopien die dann automatisch "Kopie von ..." oder "<Name>(X)" genannt werden.
-Verschiedene Daten und Besitzer(Unter Linux in einen Allgemeinen ordner Kopiert)
Ist ein die Bildung eines sinnvollen Hashs nur noch über Größenangaben, Inhalt und Endungen möglich.
Wobei aber beachtet werden muss, das es bei dem Duplikatfinder womöglich 1.000.000 Datein Indexiert werden müssen es unmöglich ist, den Kompletten Inahlt zu Hashen, da dies den Indexierungsforgang erheblich verlangsamen würde.
Jetzt werden ntürlich viele MD5 vorschalgen, was auch nicht schlecht wäre, nur wollen wir hier etwas lernen.
ich versuche heute abend noch ein kleines Demo-Programm zusammenhacken, um meine Idee zu einem hash-Algortihmus zu testen.