Kerim Galal

Classification of Document Languages Using Low-Level Information

1. Auflage. Dateigröße in KByte: 725.

pdf eBook , 24 Seiten

ISBN 3638389677

EAN 9783638389679

Veröffentlicht Juni 2005

Verlag/Hersteller GRIN Verlag

Leseprobe herunterladen

Leseprobe öffnen

€ 15,99 inkl. MwSt.

Auf die Wunschliste

Weitere interessante Themen

Beschreibung

Studienarbeit aus dem Jahr 2003 im Fachbereich Informatik - Angewandte Informatik, Note: 1,3, Universität Münster (Informatik), Veranstaltung: Document Analysis and Recognition, Sprache: Deutsch, Abstract: Die heutige Welt ist geprägt ist von einer zunehmenden globalen Kommunikation. In Zeiten der weltweiten Vernetzung findet ein schneller Informationsaustausch statt. Vor allem das Internet bietet eine enorme Fülle an leicht zugänglichen Informationen. Um dieser Fülle an Informationen beizukommen, sind in den letzten Jahren verstärkt Bemühungen unternommen worden diese Informationsflut zu kontrollieren und zu kategorisieren. Das Kategorisieren von Informationen ist am effektivsten und effizientesten, wenn die zu ordnenden Dokumente in elektronischer Form vorliegen. Dies und allgemein die enorm gestiegene Bedeutung der elektronischen Datenverarbeitung haben dazu beigetragen, dass Organisationen aus allen Bereichen versucht sind, ihre Dokumenteausschließlich in digitaler Form zu verwalten. Das erklärte Ziel ist analoge Dokumente in elektronische zu konvertieren [2]. Dieses Bestreben führte zu der Entwicklung von Optical Character Recognition (OCR), Software die es ermöglicht eingescannte Dokumente in elektronische Textfiles zu konvertieren. Jedoch treffen die meisten OCR Systeme die implizite Prämisse, dass die Sprache des zu verarbeitenden Dokumentes im Voraus bekannt ist [2]. Zwar erkennen manche Programme unterschiedliche romanische Sprachen mit einer akzeptablen Zuverlässigkeit, doch sobald ein anderes Schriftsystem auftritt, werden die Dokumente nicht mehr zuverlässig konvertiert. Daher ist es von großem Vorteil, die Sprache eines Dokuments vor der Anwendung eines OCR Systems zu kennen. Die vorliegende Arbeit beschäftigt sich mit der Spracherkennung von Dokumenten basierend auf low- level Informationen. Im ersten Teil wird ein kurzer Überblick über verschiedene Sprach- und Schriftklassen gegeben. Der zweite Teil der Arbeit beschäftigt sich mit der Art und Weise wie ein zu untersuchendes Dokument vorbereitet wird und welche Merkmale zur anschließenden Schrift- und Spracherkennung dienen. Im Haup tteil der Arbeit werden einige Verfahren zur Schriftklassifizierung und zur Spracherkennung vorgestellt. Abschließend folgt ein Abschnitt über ausgewählte Testverfahren, die die Qualität der vorgestellten Systeme beleuchten.

Technik

Sie können dieses eBook zum Beispiel mit den folgenden Geräten lesen:

• tolino Reader

Laden Sie das eBook direkt über den Reader-Shop auf dem tolino herunter oder übertragen Sie das eBook auf Ihren tolino mit einer kostenlosen Software wie beispielsweise Adobe Digital Editions.

• Sony Reader & andere eBook Reader

Laden Sie das eBook direkt über den Reader-Shop herunter oder übertragen Sie das eBook mit der kostenlosen Software Sony READER FOR PC/Mac oder Adobe Digital Editions auf ein Standard-Lesegeräte.

• Tablets & Smartphones

Möchten Sie dieses eBook auf Ihrem Smartphone oder Tablet lesen, finden Sie hier unsere kostenlose Lese-App für iPhone/iPad und Android Smartphone/Tablets.

• PC & Mac

Lesen Sie das eBook direkt nach dem Herunterladen mit einer kostenlosen Lesesoftware, beispielsweise Adobe Digital Editions, Sony READER FOR PC/Mac oder direkt über Ihre eBook-Bibliothek in Ihrem Konto unter „Meine eBooks“ - „online lesen“.

Bitte beachten Sie, dass die Kindle-Geräte das Format nicht unterstützen und dieses eBook somit nicht auf Kindle-Geräten lesbar ist.