Datei:A Supervised Learning Approach For Heading Detection.pdf

Beschreibung

Beschreibung	English: As the Portable Document Format (PDF) file format increases in popularity, research in analysing its structure for text extraction and analysis is necessary. Detecting headings can be a crucial component of classifying and extracting meaningful data. This research involves training a supervised learning model to detect headings with features carefully selected through recursive feature elimination. The best performing classifier had an accuracy of 96.95%, sensitivity of 0.986 and a specificity of 0.953. This research into heading detection contributes to the field of PDF based text extraction and can be applied to the automation of large scale PDF text analysis in a variety of professional and policy based contexts.
Datum	31. August 2018
Quelle	Content available at arXiv.org (Dedicated link) (archive.org link)
Urheber	Sahib Singh Budhiraja, Vijay Mago

Lizenz

Diese Datei wird unter der Creative-Commons-Lizenz CC0 1.0 Verzicht auf das Copyright zur Verfügung gestellt.

Die Person, die das Werk mit diesem Dokument verbunden hat, übergibt dieses weltweit der Gemeinfreiheit, indem sie alle Urheberrechte und damit verbundenen weiteren Rechte – im Rahmen der jeweils geltenden gesetzlichen Bestimmungen – aufgibt. Das Werk kann – selbst für kommerzielle Zwecke – kopiert, modifiziert und weiterverteilt werden, ohne hierfür um Erlaubnis bitten zu müssen.

CC0falsefalse

Kurztitel
Bildtitel
Fotograf
Software	LaTeX with hyperref package
Umwandlungsprogramm	pdfTeX-1.40.17
Verschlüsselt	no
Papierformat	612 x 792 pts (letter)
Version des PDF-Formats	1.5

Beschreibung

Lizenz

Kurzbeschreibungen

In dieser Datei abgebildete Objekte

Motiv

Urheberrechtsstatus

in die Gemeinfreiheit entlassen durch den Rechteinhaber

Lizenz

CC0

Datum der Gründung, Erstellung, Entstehung, Erbauung

31. August 2018

MIME-Typ

application/pdf

Prüfsumme

fba44057489565bae504aca7a4ce787700c4f2d3

Dateigröße

7.481.268 Byte

Höhe

1.650 Pixel

Breite

1.275 Pixel

Anzahl der Seiten

19

Dateiversionen

Dateiverwendung

Globale Dateiverwendung

Metadaten

Explore the world

United states

New York

Japan

Tokyo

Singapore

Singapore

Spain

Barca