Deprecated: Function set_magic_quotes_runtime() is deprecated in /home/mhamann/websites/content-space.de/htdocs/textpattern/textpattern/lib/txplib_db.php on line 14 Content-Space.de: YaCy-Suche auf P2P-Basis

YaCy-Suche auf P2P-Basis

Seit einiger Zeit gibt es ein Projekt namens YaCy. Es wird versucht, auf P2P-Basis eine Suchmaschine aufzubauen. Das ganze funktioniert grundsätzlich so, dass man durch einen lokalen Proxy (YaCy) surft und alle seiten die man besucht, indexiert werden. Am Anfang ging das ganze nur sehr schlecht – ständig ratterte die Festplatte entsetzlich und der Proxy war kaum benutzbar, viele Seiten wuden nur teilweise oder gar nicht bzw. mit total zerstörtem Inhalt übertragen.

Doch mittlerweile funktioniert das ganze immer besser, es gibt kaum noch Seiten, die nicht richtig dargestellt werden und auch richtig schnell ist das ganze schon. Der Suchalgorithmus wird immer besser und bald kann man das ganze dann hoffentlich auch schon wirklich als Suchmschine benutzen. Doch das stört eigentlich fast weniger, denn mittlerweile gibt es auch ein integriertes Wiki auf jedem Peer, man kann sich Messages schicken oder ein Profil über sich anlegen. Auch einen Blog und eine Bookmark-Verwaltung ist in jeden Peer integriert. Und nicht zuletzt ist YaCy auch ein einfacher Webserver und eine online-Dateiverwaltung, man kann also Dateien zum Download anbieten und das ganze hat auch noch eine Art eigenes DNS-System mit der eigenen TLD .yacy.

Die Suche ist imho im Moment noch kaum zu gebrauchen, die Indexierung funktioniert so, dass wie schon geschrieben, die Seiten, die man selbst besucht, indexiert werden. Des weiteren kann man dann einstellen, dass jeweils von der aktuellen Seite aus noch eine bestimmte Anzahl von Link-Ebenen weiter gegangen wird. Man kann auch gezielt Crawls von einzelnen Seiten aus starten. Ein Teil der Indexierung wird dabei auch an andere Peers deligiert, sofern aktiviert. Grundsätzlich nicht indexiert werden Seiten, die mit Post-Daten oder Cookies angefordert wurden und damit persönliche Daten enthalten. Auch URL’s mit ? und Seiten, die das Cachen verweigern, werden nicht indexiert. Dies finde ich persönlich allerdings nicht so gut.

Der so erzeugt Index wird dann auch verteilt. Dies erfolgt nach Hash – Bereichen, so dass sich die einzelnen Peers mit der Zeit spezialisieren. Wird dann eine Suche gestartet, muss nicht jeder Peer suchen, sondern es gibt dann einen bzw. mehrere Peers, die die entsprechenden Ergebnisse haben. Durch diese Verteilung wird auch einen gewisse Anonymisierung erreicht, d.h. die wenigsten Seiten, die ich in meinem Index habe, habe ich vermutlich selbst besucht. Dies führt zu einem Schutz der Privatsphäre. Wie ich gelesen habe, soll in Zukunft eventuell nur noch der Teil des Indexes zum Suchen verwendet werden, der nicht von einem selbst stammt.

Da die GUI im Moment aus ziemlich schlechtem HTML besteht, hab ich beschlossen, zusammen mit jemand anderem, ein Redesign mit XHTML und CSS zu machen und dabei Tabellen, so gut es geht, zu vermeiden. Ein Vorteil ist dann, dass man viel besser Skins erstellen kann, die auch das Layout verändern. Ein Teil ist auch schon fertig, doch teilweise gibt es auch noch Probleme, die nur durch ein Ändern der Java-Dateien lösbar sind. Ein Archiv mit dem aktuellen Stand für SVN Revision 2022 gibt es hier – einfach entpacken und unter Linux mit cp -r xhtml-template/* /pfad/zu/yacy-root/ installieren. Danach muss noch der Skin xhtml-blue aktiviert werden, sollte das nicht klappen, kann man ihn auch manuell kopieren. Dazu wechselt man ins Verzeichnis yacy-root und macht cp skins/xhtml-blue.css htroot/env/style.css – fertig. Das ganze funktioniert aber v.a. im InternetExplorer noch nicht vollständig.


14. April 2006, 10:38 geschrieben

  1. Sehr schöne Beschreibung! Tja, leider funzt die Suche noch nicht so toll, wird aber noch werden!
    Ähm ja, wegen XHTML…tja, ich hatte ja massive Rechnerprobleme, hab YaCy neu aufgesetzt und natürlich Deine PN mit den Zugangsdaten nicht mehr. Kannst Du die mir nochmal schicken? Danke!


    daburna    15. Mai 2006, 17:11    #
Name
E-Mail
http://
Nachricht
  Textile-Hilfe