Manuell sortering av inscannade remisser tar tid och riskerar att bli fel. Därför har jag byggt Remissorterare, ett Python-verktyg som automatiskt klassificerar och sorterar remisser med hjälp av OCR och maskininlärning.
Hur fungerar det?
- OCR: Tesseract läser av PDF-remisser och omvandlar dem till text.
- Maskininlärning: En Random Forest-modell analyserar texten och fördelar remissen till rätt verksamhet.
- Fallback: Om modellen är osäker används nyckelord som reserv.
- Output: Remisserna sorteras i mappar och kompletteras med .dat-filer för vidare hantering.
- Webbgränssnitt: Ett drag-and-drop-interface visar status, loggar och statistik i realtid.
Fördelar
- Sparar tid och minskar manuellt arbete
- Hög precision genom kombination av ML och nyckelord
- Självhostat och integritetssäkert – inga känsliga data lämnar systemet
- Anpassningsbart för olika verksamheter
Framtiden
Målet är att utöka med mer avancerad språkbearbetning, smartare fallback-metoder och direktintegration mot journalsystem.
Projektet är open source och finns på GitHub:
github.com/MrJensK/remissorterare