<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:sy="http://purl.org/rss/1.0/modules/syndication/" xmlns:dc="http://purl.org/dc/elements/1.1/">
<channel>
<title><![CDATA[PDF OCR 4.2 comments:]]></title>
<link>https://nl.giveawayoftheday.com/pdf-ocr42/</link>
<description><![CDATA[free licensed software daily]]></description>
<language>nl</language>
<lastBuildDate>Tue, 03 Apr 2012 06:59:25 +0000</lastBuildDate>
<atom:link href="https://nl.giveawayoftheday.com/pdf-ocr42/feed/" rel="self" type="application/rss+xml"></atom:link>
<sy:updatePeriod>hourly</sy:updatePeriod>
<sy:updateFrequency>1</sy:updateFrequency>
<generator>FeedWriter</generator>
<item>
<title><![CDATA[By: @^@]]></title>
<link>https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401880</link>
<description><![CDATA[Gergn, #65: Bij tekstherkenning via OCR is het eerst van belang dat de letters herkend worden en niet zo zeer het font. Goede OCR zou zelfs een geschreven handschrift kunnen herkennen (moeilijk maar kan).

De fontsoort is niet relevant, de characters mogen in elke wel beschikbare fontsoort weergegeven worden om te kunnen editten.]]></description>
<pubDate>Tue, 03 Apr 2012 02:59:25 -0400</pubDate>
<guid isPermaLink="false">https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401880</guid>
<dc:creator><![CDATA[@^@]]></dc:creator>
</item>
<item>
<title><![CDATA[By: gergn]]></title>
<link>https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401879</link>
<description><![CDATA[@63, "En de aandachtsbolletjes werden soms als ^ herkend."

Dat blijkt niet (alleen) aan ABBYY te liggen. Ik heb je pdf ingelezen in LibreOffice. Die ziet het dan als een tekendocument. Vervolgens geprint met een pdf-printer. Die kan geen GillSans insluiten, maar gebruikt iets anders. En in die pdf zie ik ook ^'s. Het is dus niet zozeer een "leesfout" van ABBYY, maar het ontbreken van het juiste lettertype. Als je pdf een analoge pdf zou zijn geweest en er dus werkelijk ge-OCR-ed had moeten worden, had dat letytertype probleem niet of veel minder gespeeld: een bolletje is en blijft een bolletje, hoe ook ingeslikt en uitgep..pt.]]></description>
<pubDate>Tue, 03 Apr 2012 02:50:52 -0400</pubDate>
<guid isPermaLink="false">https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401879</guid>
<dc:creator><![CDATA[gergn]]></dc:creator>
</item>
<item>
<title><![CDATA[By: gergn]]></title>
<link>https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401878</link>
<description><![CDATA[@53, je document is gemaakt met Apple Keynote 5.0.4 en gebruikt onder andere lettertype GillSans, dat niet op mijn Windows Vista 32 staat.]]></description>
<pubDate>Tue, 03 Apr 2012 02:29:25 -0400</pubDate>
<guid isPermaLink="false">https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401878</guid>
<dc:creator><![CDATA[gergn]]></dc:creator>
</item>
<item>
<title><![CDATA[By: gergn]]></title>
<link>https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401877</link>
<description><![CDATA[@53, ik heb je pdf door ABBYY PDF Transformer 3.0 gehaald. De eerste keer op de automaat. Een aantal onderschriften werden niet herkend. Op 4 pagina's niet de footer. Daarna handmatig alle pagina's afgelopen en de herkenningsgebieden zonodig vergroot of aangebracht. Daarna werden alle tekstvelden wel herkend, zij het dat soms de fontgrootte en -eigenschappen (bijv vet) niet juist waren. Ook was de lay-out niet altijd goed: soms werd de tekst van één sheet over meerdere pagina's verdeeld. Bij beide keuzemogelijkheden: oorspronkelijke lay-out en tekstdoorloop.

En de aandachtsbolletjes werden soms als ^ herkend.

Al met al geen succes. Zelf gebruik ik ABBYY PDF Transformer trouwens heel zelden om docs of spreadsheets te maken. Ik ben tevreden met van gescande pdf's doorzoekbare pdf's te maken. Bankafschriften ed. Die zijn niet alleen doorzoekbaar, maar vaak ook kleiner. Waarschijnlijk omdat de plaatjes extra worden gecomprimeerd, of de resolutie/kwaliteit verminderd.

Maar ABBYY doet het wel veel beter dan het weggevertje.]]></description>
<pubDate>Tue, 03 Apr 2012 02:21:38 -0400</pubDate>
<guid isPermaLink="false">https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401877</guid>
<dc:creator><![CDATA[gergn]]></dc:creator>
</item>
<item>
<title><![CDATA[By: Marjan]]></title>
<link>https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401876</link>
<description><![CDATA[@ Sandy

Nog een site met veel icons, misschien bedoel je deze?

http://browse.deviantart.com/?q=deleket&amp;order=9&amp;offset=0]]></description>
<pubDate>Mon, 02 Apr 2012 20:34:35 -0400</pubDate>
<guid isPermaLink="false">https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401876</guid>
<dc:creator><![CDATA[Marjan]]></dc:creator>
</item>
<item>
<title><![CDATA[By: Sandy]]></title>
<link>https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401875</link>
<description><![CDATA[Volgens mij is Wupload nu ook gestopt met sharing, alleen nog maar eigen bestanden, gaat lekker. Hopelijk hebben jullie de meeste spelletjes al binnen ander word het een ramp. Probeer nu een lijst te maken met alle bestaande HOG spelletjes maar dat is wel lastig hoor. Gaat lang duren omdat er veel sites afgespeurd moeten worden. Met een volledige lijst is het zoeken (als er tenminste iets aan downloadsites overblijft) gemakkelijker, tenminste dat is mijn theorie.

Welterusten Sandy]]></description>
<pubDate>Mon, 02 Apr 2012 18:14:58 -0400</pubDate>
<guid isPermaLink="false">https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401875</guid>
<dc:creator><![CDATA[Sandy]]></dc:creator>
</item>
<item>
<title><![CDATA[By: @^@]]></title>
<link>https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401874</link>
<description><![CDATA[Bedankt Ootje, #56 &amp; #59 ik heb ze beide bekeken. Ik vind wel de eerste #56 beter dan de laatste #59. Maar ja dat zegt nou ook weer niet alles, bij een ander document is het misschien weer omgekeerd.

Hoe dan ook is in beide gevallen het resultaat beter (niet zonder fouten inderdaad) dan bij de GOTD die toch wel erg tekort schiet.

Maar de vraag blijft (#53) waarom je OCR zou willen toepassen op de tekst alleen uit een pdf-document. De tekst is er foutloos uit te krijgen met een PDF2TXT-converter (bijzondere opmaak daargelaten), terwijl OCR (IMG2TXT) nogal een bewerkelijke en foutgevoelige omweg is (bedoelt om tekst in grafische bestanden te ontdekken en PDF-tekst is gewoon tekst met Adobe-opmaak).

PDF-txt hoeft niet herkend te worden (los van de opmaak) omdat elk character een eigen code heeft en je die dus exact kunt weergeven.

Goede nachtrust allen. Zz zz z..z z... .]]></description>
<pubDate>Mon, 02 Apr 2012 17:42:02 -0400</pubDate>
<guid isPermaLink="false">https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401874</guid>
<dc:creator><![CDATA[@^@]]></dc:creator>
</item>
<item>
<title><![CDATA[By: Ootje]]></title>
<link>https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401873</link>
<description><![CDATA[@56 aanvulling

toch iets van Abby Finereader 10 gevonden.

Hetzelfde bestand erdoor heen gehaald en dit is het resultaat.

http://dl.dropbox.com/u/10366431/_GOTD/PDF2Word/1__nature_of_photographs_Abby_10.zip

ww: zelfde als vorige keer
Hier gaat dus ook niet alles goed.

Ootje]]></description>
<pubDate>Mon, 02 Apr 2012 16:56:12 -0400</pubDate>
<guid isPermaLink="false">https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401873</guid>
<dc:creator><![CDATA[Ootje]]></dc:creator>
</item>
<item>
<title><![CDATA[By: @^@]]></title>
<link>https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401872</link>
<description><![CDATA[@Ootje, #56: ik zie het graag tegemoed.Heb bezoek. Ik probeer vanavond te kijken.]]></description>
<pubDate>Mon, 02 Apr 2012 15:25:03 -0400</pubDate>
<guid isPermaLink="false">https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401872</guid>
<dc:creator><![CDATA[@^@]]></dc:creator>
</item>
<item>
<title><![CDATA[By: Guus]]></title>
<link>https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401871</link>
<description><![CDATA[@36 Dankjewel voor deze info.]]></description>
<pubDate>Mon, 02 Apr 2012 14:56:00 -0400</pubDate>
<guid isPermaLink="false">https://nl.giveawayoftheday.com/pdf-ocr42/#comment-401871</guid>
<dc:creator><![CDATA[Guus]]></dc:creator>
</item>
</channel>
</rss>