Uppdatering av tråden. Efter mycket labbande med klassikern Tesseract hos en kund där jag byggde ett OCR-flöde från kopiator till användare, inså jag att någon annan redan hade gjort större delen av arbetet i programmet PDF OCR X :D
Grundfunktion: släpp en befintligt bildfil eller flersidig scannad PDF på programmet. Ut kommer en likadan PDF med ett dolt textskikt som därmed gör scanningen sökbar.

Mac eller Windows. Gratis, om man inte vill bygga automatiska bakgrundsflöden då den kostar $30. Det senare kan ju också lösas med egen kompilering av Tesseract med tillhörande Leptonica och ImageMagick.
 
Vi skall väl bara förtydliga att Skatteverket (eller möjligen Bokföringsnämnden) kräver att verifikationer sparas i den form de emottogs.

Efakturor kan alltså sparas digitalt, pappersfakturor skall spara på papper. Etc.
 
mycke_nu skrev:
Vi skall väl bara förtydliga att Skatteverket (eller möjligen Bokföringsnämnden) kräver att verifikationer sparas i den form de emottogs.

Efakturor kan alltså sparas digitalt, pappersfakturor skall spara på papper. Etc.
Så är det naturligtvis. Tipset gällde generella frågor kring hur man digitaliserar pappersburen information..
 
C
Johan Gunverth skrev:
Efter mycket labbande med klassikern Tesseract hos en kund där jag byggde ett OCR-flöde från kopiator till användare, inså jag att någon annan redan hade gjort större delen av arbetet i programmet PDF OCR X :D
Grundfunktion: släpp en befintligt bildfil eller flersidig scannad PDF på programmet. Ut kommer en likadan PDF med ett dolt textskikt som därmed gör scanningen sökbar.
Är själv Linux-användare så har bara tittat över axeln på någon annan, men jag undrar om inte skanningsverktyget som följer med Windows även detta gör exakt samma sak.
 
cpalm skrev:
Är själv Linux-användare så har bara tittat över axeln på någon annan, men jag undrar om inte skanningsverktyget som följer med Windows även detta gör exakt samma sak.
Mycket möjligt att den också bygger på Tesseract. HP utvecklade programvaran 1985-1994 och släppte sedan allt som Open Source. För Linux-användare finns det en uppsjö paketeringar baserad på densamma. För mig som OS X-användare får man kompilera själv, köra HomeBrew/MacPorts eller använda ovan nämnda färdigpackade binär.

Hur som helst är Tesseract mycket pålitlig och missar knappast någon teckentolkning. Lätt att lära in specialare också.
 
C
Johan Gunverth skrev:
Hur som helst är Tesseract mycket pålitlig och missar knappast någon teckentolkning. Lätt att lära in specialare också.
Ingen aning om den använder Tesseract eller inte... Dock har jag själv inte alls samma erfarenhet av Tesseract och tolkning av t.ex. fakturor. Oavsett upplösning får jag ganska uselt resultat, ofta beroende på dess primitiva layout-analys som orsakar problem med text som ligger nära linjer och andra grafiska element, eller när textstorleken varierar mycket. Just kvitton lider väl förstås inte av just dessa problem, har inte så stor erfarenhet där.
Så om du har några specifika knep att dela med dig av vore de väldigt välkomna. :)
 
cpalm skrev:
Ingen aning om den använder Tesseract eller inte... Dock har jag själv inte alls samma erfarenhet av Tesseract och tolkning av t.ex. fakturor. Oavsett upplösning får jag ganska uselt resultat, ofta beroende på dess primitiva layout-analys som orsakar problem med text som ligger nära linjer och andra grafiska element, eller när textstorleken varierar mycket. Just kvitton lider väl förstås inte av just dessa problem, har inte så stor erfarenhet där.
Så om du har några specifika knep att dela med dig av vore de väldigt välkomna. :)
Från version 3.0 gick projektet över till att använda Leptonica för grafikanalysen. Det verkar ha gjort hela grejen i. Jag har scannat och konverterat runt 25.000 A4 och vi har fortfarande inte hittat några fel att bry sig om. Tyvärr ingen erfarenhet av tidigare versioner av Tesseract.
 
C
Mina senaste erfarenheter baserar sig på 3.02.02 där jag tyvärr ändå inte lyckas få tillfredsställande resultat. Mycket intressant att höra att du har lyckats bättre. Jag skickar ett PM så kanske du kan testa någon av mina filer och se om vi kan lyckas bena ut varför det inte fungerar bra för mig?
 
Har det kommit något bra hjälpmedel för att fota ett fysiskt kvitto med mobilen (iPhone i mitt fall) och sedan spara bilden som en PDF som jag på ett enkelt sätt sedan kan få in i datorn för en hyfsat beständig sparning? Vill i daton sedan döpa respektive kvitto fritt. Har säkert 1000kvitton liggande som behöver sparas så desto enklare desto bättre.
 
D Danne_83 skrev:
Har det kommit något bra hjälpmedel för att fota ett fysiskt kvitto med mobilen (iPhone i mitt fall) och sedan spara bilden som en PDF som jag på ett enkelt sätt sedan kan få in i datorn för en hyfsat beständig sparning? Vill i daton sedan döpa respektive kvitto fritt. Har säkert 1000kvitton liggande som behöver sparas så desto enklare desto bättre.
Fota kvitto och välj utskrift till PDF så får du ett pdfdokument, fungerar på Android och dator med bilder.
 
  • Gilla
Danne_83
  • Laddar…
Jag har börjat använda OCR Text Scanner för att läsa in stora mängder dokument. Har gett den trevlige utvecklaren en liten bonus som smittar av sig med extrafunktioner. Dessa inläsningar skickas (utan OCR) direkt till egna Paperless-servern, som indexar, OCR:ar och klassificerar allt.
Frugan fick även stor användning för detta när hon hjälper svärfar med ”pappersarbetet”.

Om man kör Proxmox finns ett bra installationsscript.
 
  • Gilla
breakman och 1 till
  • Laddar…
A AndersS skrev:
Fota kvitto och välj utskrift till PDF så får du ett pdfdokument, fungerar på Android och dator med bilder.
Kom på det direkt när jag la upp meddelandet att det fyller mitt krav. Bara att fota respektive kvitto och sedan dra över det till datorn! För iPhone blir det JPG tror jag om man inte kan ändra det någonstans men det kvittar egentligen för min del, går ju annars att omvandla från jpg till pdf i datorn.
 
Det som kan vara värt att tänka på är att JPEG inte stödjer flersidiga dokument. Kör med PDF isåfall.
 
…och glöm för fasen inte att de olika AI-modellerna är riktigt bra på att tolka de formbestämda och ostrukturerade data som finns i en scannad papperskopia. Papperskvitto via OCR:ad PDF till Excel fungerar över förväntan.
 
Klicka här för att svara
Vi vill skicka notiser för ämnen du bevakar och händelser som berör dig.