1. Liebe Forumsgemeinde,

    aufgrund der Bestimmungen, die sich aus der DSGVO ergeben, müssten umfangreiche Anpassungen am Forum vorgenommen werden, die sich für uns nicht wirtschaftlich abbilden lassen. Daher haben wir uns entschlossen, das Forum in seiner aktuellen Form zu archivieren und online bereit zu stellen, jedoch keine Neuanmeldungen oder neuen Kommentare mehr zuzulassen. So ist sichergestellt, dass das gesammelte Wissen nicht verloren geht, und wir die Seite dennoch DSGVO-konform zur Verfügung stellen können.
    Dies wird in den nächsten Tagen umgesetzt.

    Ich danke allen, die sich in den letzten Jahren für Hilfesuchende und auch für das Forum selbst engagiert haben. Ich bin weiterhin für euch erreichbar unter tti(bei)pcwelt.de.
    Dismiss Notice

Ca. 1200 Seiten Schreibschrift einlesen

Discussion in 'Software allgemein' started by Pictureman, Oct 24, 2010.

Thread Status:
Not open for further replies.
  1. Pictureman

    Pictureman Byte

    Hallo alle zusammen, ich habe, wie oben angedeutet, ein kleines (doch eigentlich recht großes:(, vor allem umfangreiches) Problem.

    Zum "Zustand" der Seiten:
    Diese 1200 Seiten liegen in Schreibschrift vor (meist verbundene Buchstaben).
    Die Seiten haben eine Tabellenstruktur insgesamt 4 Spalten, und ca. 15 Zeilen je Blatt. Erste Spalte enthält einen Index, zweite enthält Namen, dritte enthält Text, vierte Spalte enthält Randbemerkungen.
    Um die Sache auch gar nicht zu leicht werden zu lassen: Es finden die verschiedensten Sprachen Anwendung (hauptsächlich DE, EN, FR, RU, SP [Asiatische, Indische u.ä. werden nicht verwendet]).
    Und als kleines Bonbon: Auf manchen Seiten (in einigen Zeilen) wurden Textausdrucke aufgeklebt.

    Ziel ist es, diese 1200 Seiten irgendwie in tabellarischer Form aúf den Rechner zu kriegen.

    Ich hab inzwischen eine ganze Reihe von OCR Programmen (bisher nur Windows XP kompatible) durchgetestet (auch soweit möglich die Software trainiert), naja bisher hab ich noch kein brauchbaren Ergebnisse erzielen können.

    Meine Frage ist jetzt, wie kann ich möglichst schnell diese 1200 Seiten auf meinen Rechner kriegen?
    Es muss auch nicht unbedingt OCR sein. Wenn ich die Seiten z.B. via Spracherkennung meinem Rechner vorlese und das auch halbwegs schnell geht, wäre das auch eine Option (bisher blos leider daran gescheitert das es scheinbar nirgendwo ne Demo zum Testen gibt).

    Achso als BS verwende ich Windows XP, aber wenn es der Sache dienlich ist hab ich auch kein Problem ein anderes BS dafür zu verwenden, falls die Software das erforderlich machen sollte.

    Ob es freeware ist oder nicht spielt auch nicht die Rolle, wichtig ist mir, das es funktioniert und (nach Möglichkeit) das ich es vorher testen kann.

    Also, welche Erfahrungen habt ihr in dieser Richtung schon gemacht?

    Gruß
    Pictureman
     
  2. deoroller

    deoroller Wandelndes Forum

    Es gibt Dienste, die das professionell machen. Wie lange brauchst du denn für allein eine Seite inklusive Korrektur. Das mal 1200.
    Wird das eine Doktorarbeit?
     
  3. Hascheff

    Hascheff Moderator

    Ich geh mal davon aus, dass das Doppel aus Versehen entstanden ist.
    Wird gelöscht.
     
  4. kalweit

    kalweit Hüter der Glaskugel

    Ich würde behaupten, dass Abtippen die effektivste und am wenigsten fehleranfällige Methode ist. Kostenpunkt (so man es nicht selbst macht) beim Profi: irgendwas zwischen 2 und 5 Euro pro Seite.
     
  5. mike_kilo

    mike_kilo Ganzes Gigabyte

    Wenn du M$ Office XP oder höher hast , kannst du die Spracherkennung nachinstallieren.
    Falls nicht vorhanden, kannst du das neue Office 2010 als vollwertige Evaluation-Version für 60 Tage testen. Diese Office-Spracherkennung ist aber längst nicht so leistungsfähig (hohe Erkennungsrate) wie die Profiprogramme.
    p.s.
    > "Demo" von Profiprogrammen...
    weißt du, welchen Aufwand und Komplexität solch eine Software erfordert?
    Imo gibts schon deshalb keine Demos.
    Alternativen musst du sonst bei Linux finden:
    > http://www.tuxfutter.de/wiki/Linux_Spracherkennung
     
  6. deoroller

    deoroller Wandelndes Forum

    Wenn man erst wochenlang braucht, bis die Spracherkennung zufriedenstellende Ergebnisse liefert, kann man es auch gleich bleiben lassen. 1200 Seiten bieten aber genug Futter zum üben. ;)
     
  7. Pictureman

    Pictureman Byte

    Klar abtippen ist sicherlich immer noch das fehlerunanfälligste (wobei ich das selbst machen würde, bei minimal 2400 Euronen doch ein "preiswerter" Spaß), wobei man auch hier Korrektur lesen muss, und wenn nur die Hälfte der Texte fast fehlerfrei mit einer anderen (schnelleren) Methoden eingelesen werden kann, ist dies, denke ich, immer noch besser als alles einzuhämmern. :)

    Ich werd das mit der Spacherkennung testen. Danke mike_kilo :bet: .
    Hat wer Erfahrung mit den Linux Spracherkennungen? Sind die besser/schlechter als die von MS?
    Und wenn ich gerade beim Fragen stellen bin, Von den kommerziellen Anbietern für Spracherkennung welcher wäre dort vorzuziehen?

    Jetzt noch mal zu OCR, welches Programm wäre denn in dieser Richtung das am besten geeignete? Auch wenn es nicht immer ideale Ergebnisse liefert.
    Es ist mir auch egal wenn ich das nen paar Stunden trainieren muss bis es brauchbare Ergebnisse liefert. Ich würd blos nicht gern 10 Stunden sitzen und dann feststellen müssen, das am Ende doch nur Sch**** rauskommt und das dann am besten nochmal mit 20 verschiedenen Programmen...

    Gruß
    Pictureman
     
  8. mike_kilo

    mike_kilo Ganzes Gigabyte

    CSR: Dragon NaturallySpeaking 11, Marktführer;
    jetzt ist wieder Linguatec (in Coop. mit Microsoft ) zurück mit Linguatec Voice Pro 12

    OCR: Abbyy Fine Reader, OmniPage, ReadIris ....
    > http://www.softguide.de/

    EDIT:
    bei CSR? du bist aber optimistisch....und die Hardware sollte auch nicht auf dem letzten Loch pfeifen. :D
    EDIT 2:
    OCR-Software ist oft auf der Drucker-CD als Beigabe in einer Light-Version verhanden. Bei Schreibschrift oder "Gekrakel" ist die Erkennungsrate ....na ja...:rolleyes:
    Das muss dann auch wiederum antrainiert werden.
     
    Last edited: Oct 25, 2010
  9. AntiDepressiva

    AntiDepressiva CD-R 80

    http://support.microsoft.com/kb/306906/de
    Soll ganz gut funktionieren.

    Unter XP habe ich damit keine Erfahrung, aber Windows Mobile setzt Handschriften recht gut um, solange sie nicht zu sehr von den korrekten Buchstabenformen abweichen und unter Windows 7 funktioniert das Ganze noch etwas flüssiger.

    Kostet nix und ist sicher einen Versuch wert.
     
  10. mike_kilo

    mike_kilo Ganzes Gigabyte

    Das ist für Handschrifterkennung bei aktiver handschriftlicher Eingabe mit Maus oder Grafik-Tablet gedacht.
    Wie soll das helfen bei einem vorhandenen Dokument?
     
  11. Hm.
    Denken wir mal nach.
    Eine Handschriftenerkennung macht immer das Gleiche.

    Sie erkennt Grafiken und versucht, daraus Standardtext zu erzeugen.
    Richtig?

    Ob das jetzt in Laufzeit passiert oder aus bereits vorliegenden Grafiken ist doch völlig egal.
    Richtig?

    Naja und was soll ich sagen...
    Es funktioniert.

    Installiere Dir doch einfach dieses Officefeature und probiere es aus.
    Ich lasse alle meine Notizen, die irgendwo unterwegs entstehen, egal, ob auf PDA oder Tablet, darüber einlesen.
    Texte aus *.tif-Dateien oder *.jpeg-Dateien werden ebenso gut erkannt.

    Und was für Deiteien werden beim Scannen standardmäßig abgelegt?
    Ich meine, das waren unkomprimierte *.tif-Grafiken ^^

    Rechtsklick auf Text im Bild --> Text aus Grafik extrahieren...

    Klappt seit Office XP...





    Geht natürlich nicht mit Open Office, aber dafür ist der Link ja auch nicht...

    Natürlich, 1200 Seiten Text per nachinstallierter Sprachsteuerung ein/vor zulesen ist sicher effektiver und tausendfach von Dir erprobt.
    Aber da kann ich nicht mithalten, soviel Zeit habe ich nicht :D
     
  12. kalweit

    kalweit Hüter der Glaskugel

    ...sein Problem ist ja, dass der reine Text offensichtlich nur die halbe Miete ist.
     
  13. Ich weiß, aber bevor ich einen Haufen Kohle ausgebe für Sondersoftware, die garantiert auch nicht alles abdecken kann, würde ich erst einmal versuchen, den größten Batzen automatisiert umzusetzen.
    Mit möglichst wenig Einsatz.

    Nachbesserungen oder nachgelagerte Tipparbeit werden ihm so oder so nicht erspart bleiben.
    Aber er muß wenigsten nicht alles abtippen oder vorlesen ^^

    Und wie Du siehst scheinen die Möglichkeiten der in MS Office integrierten Texterkennung gar nicht so bekannt zu sein. ;)
     
  14. mike_kilo

    mike_kilo Ganzes Gigabyte

    Richtig, aber....
    soll der TO etwa mit Maus oder Pen das bereits vorliegende Dok. nochmals mühsam in den PC "malen" ? Ist doch Unsinn.
    das macht man mit OCR, bzw. CSR, das andere ist [​IMG]
     
  15. Nein, soll er nicht. Sagte das jemand?

    Er soll es scannen oder wenn er es schon gescannt hat und das Dokument als Grafik vorliegt, einen Rechtsklick auf die Grafik machen und Text Extrahieren wählen...
    Innerhalb von Office.

    Erwähnte ich aber bereits.
    Scannen muß er so oder so ^^

    Ich persönlich bevorzuge für die weitere Bearbeitung nach dem Scannen One Note, da man einfach innerhalb eines Tabs alle Grafiken einbindet, den Text in die Zwischenablage extrahiert und in einem weiteren Tab das Textdokument baut.

    OCR != Handschriftenerkennung... ^^
    Reine OCR kann das nämlich nicht, die Office Handschriftenerkennung schon.
    Nicht fehlerfrei, aber das schafft keine Software bei komplexen Dokumenten.


    Klar, mit einem Pen alles noch mal abschreiben ist genauso bescheuert, wie alles zu diktieren, aber ich habe nie von Pen gesprochen...
     
  16. mike_kilo

    mike_kilo Ganzes Gigabyte

    Das wurde doch schon alles seit post #5 genannt. :zzz:
     
  17. Ich habe eine Alternative genannt, wenn Dir so etwas nicht gefällt oder Du es nicht kennst oder die Vorgehensweise nicht Verarbeiten kannst oder wie auch immer, dann ignorier es doch einfach.

    Vielleicht ist es eine Alternative für TO, bei der er eben auch ans Ziel kommt, ohne den ganzen Mist in ein Mikro zu quasseln und er eben keine teure Sondersoftware kaufen muß.

    Ist ja auch egal.
    TO kann selbst entscheiden, was er nutzen möchte, zum Glück ist man ja nicht auf Spacherkennung festgenagelt...

    ________________________________
    Beitrag editiert von ~phoenix~
     
    Last edited: Oct 26, 2010
  18. Hascheff

    Hascheff Moderator

    @ mike: IMHO hast du Teste_The_Reste falsch verstanden.

    Selbst bei guter Erkennungsrate ist das noch zweifelhaft.
     
  19. Naja, es spart ihm auf jeden Fall Zeit.
    Texterkennung ist ja selbst bei gedruckten Texten fehlerbehaftet, wenn der Text dann noch, wie bei TO, in mehrere Spalten aufgeteilt ist, wird es noch einmal einen Zacken schärfer und dann noch eine Mischung aus Handschrift und Druck...

    So oder so, es wird viel Handarbeit bleiben, ohne Frage.
     
  20. Pictureman

    Pictureman Byte

    Habe in den letzten Tagen die OCR Programme durchgetestet, mit folgendem Ergebnis:

    FineReader (Version 10) beste Handschrifterkennung wenn auch immer noch nicht wirklich das wahre. Als Richtwert kann man sagen das es pro Buchstabe etwa 30 Zeichen sein sollten (man finde 30 große und kleine Y...) dann hat der FineReader auf jeden Fall annehmbare Ergebnisse.

    OmniPage (Ver. 16) zur Handschrifterkennung ungeeignet (katastrophale Benutzerführung, man ist gefühlte 5 minuten beschäftigt ehe man EIN Zeichen hinzufügen kann und Standarderkennung naja also miserabel ist noch glimpflich ausgedrückt.

    Readis (Ver. 8) schlechtestes Ergebnis, wobei es sich hierbei auch schon um eine recht alte Demo handelt (aktuell ist ja wohl Ver. 12 hab blos dazu keine Demo gefunden...) (und individuelle Zeichen kann man leider nicht hinzufügen)

    Zum Thema OCR nochmal, ist es irgendwie möglich eine Schriftart diesen Programmen beizubringen, und wenn ja kann man eine Schriftart aus einer Handschrift erzeugen?

    War so ein wenig der Meinung von Mike_Kilo bezüglich der Handschrifterkennung und da ich eigentlich mit Office 2000 arbeite konnte ich die angegebenen Schritte zur Installation der Handschrifterkennung dort nicht nachvollziehen.
    In Office 2010 Pro (zumindest der Demo) scheint das aber auch nicht drin zu sein, es gib dort jedenfalls keine "Alternativen Benutzereingaben" (weder im Installer als auch sonst irgendwo) wo man entsprechende Einstellungen vornehmen könnte.

    Nun bin ich natürlich ein wenig am verzweifeln. Da weder Handschrifterkennung noch Spracherkennung im Office 2010 zufinden sind. Mich würde nun natürlich brennend interessieren ob diese Features NUR im Office XP vorhanden sind? Oder kennt einer zufälligerweise eine Quelle wo man die herbekommen kann?

    Danke schon mal für eure Ideen ihr habt mir schon sehr weitergeholfen. :spitze:
     
Thread Status:
Not open for further replies.

Share This Page