Ja auch du hilfst Google Bücher zu digitalisieren
“Hm… was meint den der Verfasser mit dieser Überschrift…. wie ich helfe google”.
Das wird sich der ein oder andere Leser fragen. Ich las durch Zufall einen Heiße Artikel, es ging wieder mal um eine Unternehmensübernahme durch google. Eigentlich lese ich solche Artikel nicht mehr wenn da steht: “Goolge übernimmt Unternehmen X Y… “. Ich möchte gar nicht mehr wissen welche Techniken google wieder aneignet und in ihre Web Apps stecken. Da lass ich mich lieber überraschen.
Diesmal geht es um eine Unternehmen was diese Webtechnik zur Erkennung von Mensch oder Maschine entwickelt , sie nennt sich Captcha. Jeden der aktiv im Netz unterwegs ist, wurde schon mit ihr konfrontiert. Wenn ihr euch in einen Forum anmeldet oder eine Mail Adresse registriert, erscheint meist ein kleines Bild in denen fast nicht lesbar ein paar Ziffern oder Buchstaben entschlüsseln müßt, um so zu beweisen das es sich um eine reale Person handelt. Die Maßnahmen werden getroffen um Spammern und Massenaccount Registrierungen vorzubeugen.
Auch google setzt diese Technik ein wenn man zum Beispiel einen googlemail Account registrieren möchte. Ich denke ja sie wollen einfach nur verhindern das jemand maschinell 10.000 Accounts anlegt wegen den gegenwärtigen 7,3 Gbyte Speicherplatz. Man könnte ja so zum Beispiel alle 8 stelligen (groß/klein Buchstaben, Zahlen, Sonderzeichen = 100 Zeichen * 8 = 2,0370359763344860862684456884094e+90) md5 hashs berechnen und diese dann in die googlemail Konten legen und über ein paar Tricks dezentrale und sichere Rainbow Tables erstellen. Oh ich schweife ab…
Captcha dient nicht nur zum Verifizieren sondern auch zum erkennen von eingescannten Dokumenten. Auf manchen Seiten muss man anstatt einen Wort zwei Wörter erkennen und eingeben. Man könnte meinen, daß es zu besseren Sicherheit dient, doch in Wirklichkeit würde es genügen das erste Wort richtig ein zugeben. Das zweite Wort stammt aus einen abgescannten Dokument, wie zum Beispiel eine Digitalisierung eines Buches, so wie es google gegenwärtig macht. Auch gute OCR Software erkennt nicht jedes Wort und so lässt man die Benutzer auf Webseiten für sich arbeiten.
So wird auch google in Zukunft diese Technik einsetzten um die abgescannten Bücher zu vervollständigen. Wenn ihr also nächstes mal ein Account registriert der in irgendeiner weise mit google zu tun habt dann unterstützt ihr google indirekt und baut das google Imperium mit auf. Oder ihr gebt einfach nur das erste Wort ein.
Quelle: heise.de