Digitala kvitton

Johan Gunverth · 20 feb 2014 20:28

Uppdatering av tråden. Efter mycket labbande med klassikern Tesseract hos en kund där jag byggde ett OCR-flöde från kopiator till användare, inså jag att någon annan redan hade gjort större delen av arbetet i programmet PDF OCR X

Grundfunktion: släpp en befintligt bildfil eller flersidig scannad PDF på programmet. Ut kommer en likadan PDF med ett dolt textskikt som därmed gör scanningen sökbar.

Mac eller Windows. Gratis, om man inte vill bygga automatiska bakgrundsflöden då den kostar $30. Det senare kan ju också lösas med egen kompilering av Tesseract med tillhörande Leptonica och ImageMagick.

mycke_nu · 20 feb 2014 20:42

Vi skall väl bara förtydliga att Skatteverket (eller möjligen Bokföringsnämnden) kräver att verifikationer sparas i den form de emottogs.

Efakturor kan alltså sparas digitalt, pappersfakturor skall spara på papper. Etc.

Johan Gunverth · 20 feb 2014 21:12

mycke_nu skrev:
Vi skall väl bara förtydliga att Skatteverket (eller möjligen Bokföringsnämnden) kräver att verifikationer sparas i den form de emottogs.

Efakturor kan alltså sparas digitalt, pappersfakturor skall spara på papper. Etc.

Så är det naturligtvis. Tipset gällde generella frågor kring hur man digitaliserar pappersburen information..

cpalm · 20 feb 2014 23:23

Johan Gunverth skrev:
Efter mycket labbande med klassikern Tesseract hos en kund där jag byggde ett OCR-flöde från kopiator till användare, inså jag att någon annan redan hade gjort större delen av arbetet i programmet PDF OCR X
Grundfunktion: släpp en befintligt bildfil eller flersidig scannad PDF på programmet. Ut kommer en likadan PDF med ett dolt textskikt som därmed gör scanningen sökbar.

Är själv Linux-användare så har bara tittat över axeln på någon annan, men jag undrar om inte skanningsverktyget som följer med Windows även detta gör exakt samma sak.

Johan Gunverth · 21 feb 2014 08:12

cpalm skrev:
Är själv Linux-användare så har bara tittat över axeln på någon annan, men jag undrar om inte skanningsverktyget som följer med Windows även detta gör exakt samma sak.

Mycket möjligt att den också bygger på Tesseract. HP utvecklade programvaran 1985-1994 och släppte sedan allt som Open Source. För Linux-användare finns det en uppsjö paketeringar baserad på densamma. För mig som OS X-användare får man kompilera själv, köra HomeBrew/MacPorts eller använda ovan nämnda färdigpackade binär.

Hur som helst är Tesseract mycket pålitlig och missar knappast någon teckentolkning. Lätt att lära in specialare också.

cpalm · 21 feb 2014 08:37

Johan Gunverth skrev:
Hur som helst är Tesseract mycket pålitlig och missar knappast någon teckentolkning. Lätt att lära in specialare också.

Ingen aning om den använder Tesseract eller inte... Dock har jag själv inte alls samma erfarenhet av Tesseract och tolkning av t.ex. fakturor. Oavsett upplösning får jag ganska uselt resultat, ofta beroende på dess primitiva layout-analys som orsakar problem med text som ligger nära linjer och andra grafiska element, eller när textstorleken varierar mycket. Just kvitton lider väl förstås inte av just dessa problem, har inte så stor erfarenhet där.
Så om du har några specifika knep att dela med dig av vore de väldigt välkomna.

Johan Gunverth · 21 feb 2014 11:16

cpalm skrev:
Ingen aning om den använder Tesseract eller inte... Dock har jag själv inte alls samma erfarenhet av Tesseract och tolkning av t.ex. fakturor. Oavsett upplösning får jag ganska uselt resultat, ofta beroende på dess primitiva layout-analys som orsakar problem med text som ligger nära linjer och andra grafiska element, eller när textstorleken varierar mycket. Just kvitton lider väl förstås inte av just dessa problem, har inte så stor erfarenhet där.
Så om du har några specifika knep att dela med dig av vore de väldigt välkomna.

Från version 3.0 gick projektet över till att använda Leptonica för grafikanalysen. Det verkar ha gjort hela grejen i. Jag har scannat och konverterat runt 25.000 A4 och vi har fortfarande inte hittat några fel att bry sig om. Tyvärr ingen erfarenhet av tidigare versioner av Tesseract.

cpalm · 21 feb 2014 11:38

Mina senaste erfarenheter baserar sig på 3.02.02 där jag tyvärr ändå inte lyckas få tillfredsställande resultat. Mycket intressant att höra att du har lyckats bättre. Jag skickar ett PM så kanske du kan testa någon av mina filer och se om vi kan lyckas bena ut varför det inte fungerar bra för mig?

Danne_83 · 21 maj 2025 15:48

Har det kommit något bra hjälpmedel för att fota ett fysiskt kvitto med mobilen (iPhone i mitt fall) och sedan spara bilden som en PDF som jag på ett enkelt sätt sedan kan få in i datorn för en hyfsat beständig sparning? Vill i daton sedan döpa respektive kvitto fritt. Har säkert 1000kvitton liggande som behöver sparas så desto enklare desto bättre.

AndersS · 21 maj 2025 15:51

D Danne_83 skrev:
Har det kommit något bra hjälpmedel för att fota ett fysiskt kvitto med mobilen (iPhone i mitt fall) och sedan spara bilden som en PDF som jag på ett enkelt sätt sedan kan få in i datorn för en hyfsat beständig sparning? Vill i daton sedan döpa respektive kvitto fritt. Har säkert 1000kvitton liggande som behöver sparas så desto enklare desto bättre.

Fota kvitto och välj utskrift till PDF så får du ett pdfdokument, fungerar på Android och dator med bilder.

Johan Gunverth · 21 maj 2025 16:17

Jag har börjat använda OCR Text Scanner för att läsa in stora mängder dokument. Har gett den trevlige utvecklaren en liten bonus som smittar av sig med extrafunktioner. Dessa inläsningar skickas (utan OCR) direkt till egna Paperless-servern, som indexar, OCR:ar och klassificerar allt.
Frugan fick även stor användning för detta när hon hjälper svärfar med ”pappersarbetet”.

Om man kör Proxmox finns ett bra installationsscript.

Danne_83 · 21 maj 2025 16:25

A AndersS skrev:
Fota kvitto och välj utskrift till PDF så får du ett pdfdokument, fungerar på Android och dator med bilder.

Kom på det direkt när jag la upp meddelandet att det fyller mitt krav. Bara att fota respektive kvitto och sedan dra över det till datorn! För iPhone blir det JPG tror jag om man inte kan ändra det någonstans men det kvittar egentligen för min del, går ju annars att omvandla från jpg till pdf i datorn.

Johan Gunverth · 21 maj 2025 19:19

Det som kan vara värt att tänka på är att JPEG inte stödjer flersidiga dokument. Kör med PDF isåfall.

Johan Gunverth · 21 maj 2025 21:14

…och glöm för fasen inte att de olika AI-modellerna är riktigt bra på att tolka de formbestämda och ostrukturerade data som finns i en scannad papperskopia. Papperskvitto via OCR:ad PDF till Excel fungerar över förväntan.

Digitala kvitton

Johan Gunverth

Johan Gunverth

mycke_nu

mycke_nu

Johan Gunverth

Johan Gunverth

cpalm

cpalm

Johan Gunverth

Johan Gunverth

cpalm

cpalm

Johan Gunverth

Johan Gunverth

cpalm

cpalm

Danne_83

Danne_83

AndersS

AndersS

Johan Gunverth

Johan Gunverth

Danne_83

Danne_83

Johan Gunverth

Johan Gunverth

Johan Gunverth

Johan Gunverth

Liknande trådar

Finns det digitala termometrar som passar golvvärmefördelare?

Hur ska jag beräkna vinstskatt när jag inte har några kvitton?

Saknar kvitton vid husförsäljning.