proggen.org-Projekt: Dedupe

Proggen.org - Lernprojekt: Duplikatefinder
Benutzeravatar
Kerli
Beiträge: 1456
Registriert: So Jul 06, 2008 10:17 am
Wohnort: Österreich
Kontaktdaten:

Re: proggen.org-Projekt: Dedupe

Beitrag von Kerli » Sa Mai 08, 2010 6:44 pm

Xin hat geschrieben:Quasi die Königsdisziplin, aber mit einem überschaubaren Produkt, an dem vom Einsteiger bis zum studierten Informatiker Erfahrungen sammeln kann.
Wenn Fragen bestehen, diskutieren wir diese, erweitern das Wiki entsprechend und setzen die Lösungen um.

Es geht mir nicht darum morgen fertig zu sein, sondern eine stetige und qualitative Entwicklung mit allen Beteiligten zu organisieren.
Das ist sicher einmal eine gute Erfahrung. Vor allem da wir jetzt eh auch gerade eine Vorlesung über das Extreme Programming haben trifft sich das doch sehr gut :)

Als Beispiel für eine Planung/Designdokument wäre das Wiki für Ubuntu sicherlich eine gute Anregung. Schön mit Design, Userstories, Roadmap, Ideensammlung etc.
"Make it idiot-proof and someone will invent an even better idiot." (programmers wisdom)

OpenGL Tutorials und vieles mehr rund ums Programmieren: http://www.tomprogs.at

Benutzeravatar
cloidnerux
Moderator
Beiträge: 3123
Registriert: Fr Sep 26, 2008 4:37 pm
Wohnort: Ram (Gibts wirklich)

Re: proggen.org-Projekt: Dedupe

Beitrag von cloidnerux » So Mai 09, 2010 8:41 am

Die Idee hinter dem Programm finde ich sinnvoll, wenngleich es schon Programme dieser art gibt, ist es gut es auch selber zu Programmieren, vlt können wir dann auch mal ein Vergleich starten...
Ich wäre Potenziell Interessiert mitzuhelfen, auch wenn ich im Moment eher C# Programmiere, vlt lässt sich auch aus dem Projekt ein .NET/Mono Port basteln um es fürs Wiki zu verarbeiten.

Zum Programm:
Soll es nur ein Duplikatfinder werden, oder ein Dateimanagementprogramm?

Zur Planung:
Gibt es ein SVN/Git-Repo?
Wie wird Programmiert? Einzelne Module à la .dll/etc oder nur die Vergabe von Funktionen die über eine definierte Schnittstelle eine Aufgabe erfüllen sollen?

Zu meinen Ideen:
Duplikate finden, ABER es gibt auch gewollte Duplikate(Backups, Versionen, von Programmen angelegte Ordner), diese sollten nicht gelöscht werden, bzw es sollten Regeln für solche Dateien/Ordner erstellt werden können.
Ergebnisse in eine Datenbank schreiben, in dem Zusammenhang wäre eine Funktion sinnvoll, die versucht aus Dateiendungen und Inhalten Stichwörter zu sammeln, um dann nach diesen zu suchen.
Auch im Kontext der Datenbank: Die Auflistung mit Miniaturanzeige von Bildern, Textdokumenten, evt auch von PDFs und alles was man sonst noch so häufig verwendet/Lesen kann.
Die hier im Forum beteiligten haben allgemein wenig Zeit, das zeigt sich ja auch darin, dass es recht ruhig die letzten Tage ist. Es sind wenig User da, die viele Fragen haben und eigene Projekte wachsen ja auch nicht so schnell, dass man täglich fünf tolle neue Features zur Diskussion stellen kann, wenn man kaum Zeit dafür hat.
Ich hab im Moment schon etwas mehr Zeit, ich habe aber keine Fragen die ich nicht schon selbst beantwortet hätte oder die hier beantwortbar wären, zudem werden auch gerade wenig Fragen gestellt, auf die man Antworten könnte ;)
Redundanz macht wiederholen unnötig.
quod erat expectandum

Benutzeravatar
Xin
nur zu Besuch hier
Beiträge: 8859
Registriert: Fr Jul 04, 2008 11:10 pm
Wohnort: /home/xin
Kontaktdaten:

Re: proggen.org-Projekt: Dedupe

Beitrag von Xin » So Mai 09, 2010 2:41 pm

cloidnerux hat geschrieben:Die Idee hinter dem Programm finde ich sinnvoll, wenngleich es schon Programme dieser art gibt, ist es gut es auch selber zu Programmieren, vlt können wir dann auch mal ein Vergleich starten...
Ich wäre Potenziell Interessiert mitzuhelfen, auch wenn ich im Moment eher C# Programmiere, vlt lässt sich auch aus dem Projekt ein .NET/Mono Port basteln um es fürs Wiki zu verarbeiten.
Machen kann man viel. Ich würde mich selbst jetzt erstmal auf eine Variante konzentrieren.
cloidnerux hat geschrieben:Zum Programm:
Soll es nur ein Duplikatfinder werden, oder ein Dateimanagementprogramm?
Ich werde einen Duplikatfinder planen. Wenn weitere Ideen dazu kommen, muss man darüber reden.
cloidnerux hat geschrieben:Zur Planung:
Gibt es ein SVN/Git-Repo?
Wie wird Programmiert? Einzelne Module à la .dll/etc oder nur die Vergabe von Funktionen die über eine definierte Schnittstelle eine Aufgabe erfüllen sollen?
Ein Repository muss ich einrichten, wenn ich die freie Wahl habe, würde ich SVN nehmen. Ich warte aber noch Einsprüche ab.
cloidnerux hat geschrieben:Zu meinen Ideen:
Duplikate finden, ABER es gibt auch gewollte Duplikate(Backups, Versionen, von Programmen angelegte Ordner), diese sollten nicht gelöscht werden, bzw es sollten Regeln für solche Dateien/Ordner erstellt werden können.
Ergebnisse in eine Datenbank schreiben, in dem Zusammenhang wäre eine Funktion sinnvoll, die versucht aus Dateiendungen und Inhalten Stichwörter zu sammeln, um dann nach diesen zu suchen.
Die Idee gefällt mir für eine Weiterführung. Zumal ich proggen.org früher oder später sowieso zu einer Suchmaschine erweitern möchte.
cloidnerux hat geschrieben:Auch im Kontext der Datenbank: Die Auflistung mit Miniaturanzeige von Bildern, Textdokumenten, evt auch von PDFs und alles was man sonst noch so häufig verwendet/Lesen kann.
Kann definitiv auf die Ideenliste, aber wohl eher für eine V2.
cloidnerux hat geschrieben:
Die hier im Forum beteiligten haben allgemein wenig Zeit, das zeigt sich ja auch darin, dass es recht ruhig die letzten Tage ist. Es sind wenig User da, die viele Fragen haben und eigene Projekte wachsen ja auch nicht so schnell, dass man täglich fünf tolle neue Features zur Diskussion stellen kann, wenn man kaum Zeit dafür hat.
Ich hab im Moment schon etwas mehr Zeit, ich habe aber keine Fragen die ich nicht schon selbst beantwortet hätte oder die hier beantwortbar wären, zudem werden auch gerade wenig Fragen gestellt, auf die man Antworten könnte ;)
Ich will im Wiki noch etwas Ordnung reinbringen und dann versuchen, das Glöckchen, das wir in Google haben, mal etwas größer werden zu lassen.

Aber dafür muss sich proggen.org noch schick machen. Vom Aufbau des Wikis bis zum Gesamtdesign.
Merke: Wer Ordnung hellt ist nicht zwangsläufig eine Leuchte.

Ich beantworte keine generellen Programmierfragen per PN oder Mail. Dafür ist das Forum da.

Benutzeravatar
Bebu
Beiträge: 562
Registriert: Mi Okt 21, 2009 6:19 pm
Wohnort: In der Nähe von Salzburg - Bin aber kein Österreicher!

Re: proggen.org-Projekt: Dedupe

Beitrag von Bebu » So Mai 09, 2010 9:23 pm

Mir ist gerade noch eine Idee gekommen, nachdem ich meine MP3 Sammlung betrachtet habe. Da schlummern auch viele Duplikate aus verschiedenen Quellen und Qualitätsstufen. Ein Programm, das die aufspüren kann, käme mir sehr gelegen. Entfernt sich zu weit von der Idee oder eher was für V3?
Wer immer nach dem Unerreichbaren jagt, der wird irgendwann auf die Schnauze fallen!

Benutzeravatar
Xin
nur zu Besuch hier
Beiträge: 8859
Registriert: Fr Jul 04, 2008 11:10 pm
Wohnort: /home/xin
Kontaktdaten:

Re: proggen.org-Projekt: Dedupe

Beitrag von Xin » Mo Mai 10, 2010 1:00 pm

Bebu hat geschrieben:Mir ist gerade noch eine Idee gekommen, nachdem ich meine MP3 Sammlung betrachtet habe. Da schlummern auch viele Duplikate aus verschiedenen Quellen und Qualitätsstufen. Ein Programm, das die aufspüren kann, käme mir sehr gelegen. Entfernt sich zu weit von der Idee oder eher was für V3?
Im Prinzip wäre hier das gleiche Problem wie bei den Fotos. Man müsste das Format auspacken und aus den Rohdaten (also dem Ton) einen vergleichsweise einfachen Fingerabdruck nehmen, der viel Toleranz bietet. Dazu kommt, dass man häufig gleiche Stücke in ähnlicher Art und Weise besitzt.

Hier wäre es wohl Interessant, Wortbausteine wieder zu finden, bzw. zuordnen zu können. Allerdings mit MP3s, die nur "Track 1.mpg" heißen und keine Tags enthalten, wird das schon schwierig. Hier käme man dann langsam in Richtung Dateimanager.

Trotzdem finde ich es nicht schlecht, sich zu dem Thema durchaus auch Gedanken zu machen, denn das ist definitiv ein vorhandenes Problem, dass man vielleicht nicht in einer V1 lösen kann, aber in der V1 bereits Schnittstellen für Lösungansätze der V2 einzuplanen.
Merke: Wer Ordnung hellt ist nicht zwangsläufig eine Leuchte.

Ich beantworte keine generellen Programmierfragen per PN oder Mail. Dafür ist das Forum da.

Syntov
Beiträge: 68
Registriert: Mo Feb 09, 2009 4:45 pm

Re: proggen.org-Projekt: Dedupe

Beitrag von Syntov » Mo Mai 10, 2010 3:17 pm

sehr schönes Projekt. Am liebsten würde ich auch mitarbeiten.
Wünsche euch allen viel Spass und nehmt viele Erfahrungen mit.
Ab Dezember hätte ich dann auch wieder Zeit.

Ich glaube mich zu erinnern das ich vor langer Zeit, hier im Forum, nach genau solch einem Programm gesuchte habe. =)

Hier noch ein paar Inputs:
Doppelte Daten, löschen oder verlinken
Regeln wo gesucht wird (/*Backup*/ Ordner auslassen?)

Geht ihr nach dem Prinzip, 1 Programm 1ne Aufgabe?
Wer nicht auf seine Weise denkt, denkt überhaupt nicht.

hofian
Beiträge: 62
Registriert: Do Sep 24, 2009 6:59 pm

Re: proggen.org-Projekt: Dedupe

Beitrag von hofian » Mo Mai 10, 2010 3:26 pm

Die Projektidee finde ich ziemlich gut, auch die Art und Weise, wie das Ding entstehen soll finde ich interessant...
Meine eigenen Ideen für solch eine Anwendung haben mir meine Vorredner schon vorweggenommen, aber schließe ich eine Beteiligung am Projekt meinerseits nicht aus.
Die Zeit sollte in den kommenden Wochen keine Rolle spielen :)

Benutzeravatar
Kerli
Beiträge: 1456
Registriert: So Jul 06, 2008 10:17 am
Wohnort: Österreich
Kontaktdaten:

Re: proggen.org-Projekt: Dedupe

Beitrag von Kerli » Di Mai 11, 2010 11:32 am

Xin hat geschrieben:Im Prinzip wäre hier das gleiche Problem wie bei den Fotos. Man müsste das Format auspacken und aus den Rohdaten (also dem Ton) einen vergleichsweise einfachen Fingerabdruck nehmen, der viel Toleranz bietet. Dazu kommt, dass man häufig gleiche Stücke in ähnlicher Art und Weise besitzt.
Das klingt zwar hier vielleicht recht einfach, würde meiner Meinung nach aber den Rahmen des Projektes deutlich sprengen. Und vor allem, warum etwas entwickeln was es schon gibt. Ich würde eher schauen dass wir eine gemeinsame Oberfläche für bereits vorhandene Bibliotheken schreiben. Für Musik wäre zum Beispiel MusicBrainz bzw. dann wohl libmusicbrainz interessant.

Für die Bilderkennung könnten wir als Basis auf Boost.Gil zurückgreifen. Die Bilderkennung alleine ist ja sowieso schon ein sehr umfangreiches Gebiet, wo mit Segementierung, Featuredetection, ev. einem Histogrammvergleich etc. genug Platz für Entwicklungen ist :)

Einen Ansatz dazu gibt es in folgendem Paper:
http://citeseerx.ist.psu.edu/viewdoc/do ... 1&type=pdf
"Make it idiot-proof and someone will invent an even better idiot." (programmers wisdom)

OpenGL Tutorials und vieles mehr rund ums Programmieren: http://www.tomprogs.at

Benutzeravatar
Xin
nur zu Besuch hier
Beiträge: 8859
Registriert: Fr Jul 04, 2008 11:10 pm
Wohnort: /home/xin
Kontaktdaten:

Re: proggen.org-Projekt: Dedupe

Beitrag von Xin » Di Mai 11, 2010 12:17 pm

Kerli hat geschrieben:
Xin hat geschrieben:Im Prinzip wäre hier das gleiche Problem wie bei den Fotos. Man müsste das Format auspacken und aus den Rohdaten (also dem Ton) einen vergleichsweise einfachen Fingerabdruck nehmen, der viel Toleranz bietet. Dazu kommt, dass man häufig gleiche Stücke in ähnlicher Art und Weise besitzt.
Das klingt zwar hier vielleicht recht einfach, würde meiner Meinung nach aber den Rahmen des Projektes deutlich sprengen. Und vor allem, warum etwas entwickeln was es schon gibt.
Das hatte ich so auch nicht angedacht, dass das alles selbst zu entwickeln wäre.
Es ist schließlich auch ein Teil des Projektes, entsprechendes Benötigtes zu recherchieren und in das Projekt mit einzubinden und zu sehen, wie man es dem Compiler erklärt.
Kerli hat geschrieben:Einen Ansatz dazu gibt es in folgendem Paper:
Ich habe es mal ins Wiki kopiert.

Da darf grundsätzlich erstmal jeder dran ändern. ^^
Merke: Wer Ordnung hellt ist nicht zwangsläufig eine Leuchte.

Ich beantworte keine generellen Programmierfragen per PN oder Mail. Dafür ist das Forum da.

nufan
Wiki-Moderator
Beiträge: 2558
Registriert: Sa Jul 05, 2008 3:21 pm

Re: proggen.org-Projekt: Dedupe

Beitrag von nufan » Di Mai 11, 2010 5:28 pm

Xin hat geschrieben:Wäre cool, wenn das Qt-Tutorial sich daran etwas orientiert.
Lässt sich machen, hier hab ich schon mal brauchbare Code-Schnipsel zum Durchlaufen von Verzeichnissen eingefügt. Eine allgemeine Beschreibung der Klasse fehlt noch.

Wir sollten uns auf ein Framework einigen, dann kann man sich schon vorher ein bisschen einlesen bzw. am jeweiligen Tutorial weiterarbeiten. So weit ich das sehe stehen wxWidgets und Qt zur Auswahl. Die bisher genannten Feature-Vorschläge sind mit Qt kein Problem. Ich weiß nicht was wxWidgets kann, wir könnten ja mal gegenüberstellen was gebraucht wird und von welchem Framework das besser unterstützt wird.
Das Vergleichen von speziellen Datentypen wie .mp3 könnte man über Plugins lösen, die unter Qt einfach die Implementierung einer in der Anwendung definierten Interface-Klasse sind.

Antworten