Fuzzy Address Lookup: Improving Mail Sorting in Postal Services

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2017-12-11
Department
Major/Subject
Mobile Computing, Services and Security
Mcode
SCI3045
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
68 + 3
Series
Abstract
Postal services utilize address matching in their automatic mail sorting. Mail pieces whose addresses cannot be automatically recognized require more manual work that is expensive. On this work we present the solution that we implemented to improve address recognition read rates. We describe the requirements that needed to be fulfilled so that our system could be used in customer environments. Our solution separated application runtime functionality from matching logic. An application runtime component was designed to run parallel queries against atomically updateable databases with custom logic. A matching engine was build on top of this component that implemented tokenization of address queries and optimized the needed fuzzy searches against address field vocabulary lists and database index lookups. Finally, we describe performance improvement that were achieved when our solution was integrated to customer systems.

Postipalvelujen toimittajat käyttävät osoitteen tunnistusta osana automaattista postinlajittelujärjestelmää. Kirjeet, joiden osoitteita ei pystytä automaattisesti lukemaan, vaativat enemmän kallista käsin tehtävää työtä. Tässä työssä esittelemme ratkaisun, jonka toteutimme parantamaan osoitteentunnistuksen lukuastetta. Kuvaamme vaatimukset, jotka meidän oli täytettävä, jotta meidän järjestelmämme voitaisiin ottaa käyttöön asiakkailla. Ratkaisumme erotti erilleen ajonaikaisen ajoympäristön tunnistuksen logiikasta. Ajoympäristö suunniteltiin huolehtimaan rinnakkaisten kyselyjen yhtäaikaisesta suorittamisesta atomisesti päivitettäviä tietokantoja vastaan. Tunnistuslogiikka toteutettiin tämän päälle ja sen tehtävänä oli huolehtia osoitetekstin pilkkomisesta sanoihin, optimoida tarvittavien sumeiden hakujen määrää osoitekantojen kenttiä vastaan sekä optimoida tietokannan indeksihakuja. Lopussa esittelemme myös millaisiin parannuksiin pääsimme, kun ratkaisumme otettiin asiakkailla käyttöön.
Description
Supervisor
Ylä-Jääski, Antti
Thesis advisor
Järvelin, Antti
Baskaya, Feza
Keywords
address matching, mail sorting, optical character recognition, fuzzy matching
Other note
Citation