uaddresspacy

Ukrainian address parser


Keywords
nlp, ukraine, address, research, parsing, spacy, spacy-nlp
License
MIT
Install
pip install uaddresspacy==1.0.0

Documentation

header

ОписаниС

PyPI version

Π Π°Π·Π±ΠΎΡ€ΠΊΠ° украинского адрСса Π½Π° Ρ‚ΠΈΠΏΡ‹

Read this in other language: English, Русский, Π£ΠΊΡ€Π°Ρ—Π½ΡΡŒΠΊΠΈΠΉ

ВрСбования

  • python3
  • spacy
  • re
  • pandas
  • csv
  • os
  • signal
  • threading

ΠŸΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠ° ΠΌΠΎΠ΄Π΅Π»ΠΈ

python3 pretrain.py

Π‘ΠΎΠ·Π΄Π°Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ

python3 train.py

ΠžΠ±ΡƒΡ‡ΠΈΡ‚ΡŒ модСль

python3 -m spacy train config/config.cfg --paths.train training/train.spacy --paths.dev training/test.spacy --output models

ΠžΠ±ΡƒΡ‡ΠΈΡ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½Π΅Π΅ модСль

python3 -m spacy train config/config_acc.cfg --paths.train training/train.spacy --paths.dev training/test.spacy --output models

ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ° ΠΌΠΎΠ΄Π΅Π»ΠΈ

python3 example.py

Π‘ΠΎΠ·Π΄Π°Ρ‚ΡŒ Ρ„Π°ΠΉΠ» описания ΠΌΠΎΠ΄Π΅Π»ΠΈ

python3 -m spacy init fill-config config/base_config.cfg config/config.cfg

Π‘ΠΎΠ·Π΄Π°Ρ‚ΡŒ Ρ„Π°ΠΉΠ» описания Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ

python3 -m spacy init fill-config config/base_config_acc.cfg config/config_acc.cfg

ΠŸΡ€ΠΈΠΌΠ΅Ρ€Ρ‹

import uaddresspacy

print(uaddresspacy.parse(", - ΠΏΠΎΠ»Ρ‚Π°Π²ΡΡŒΠΊΠ° Ρ‡ΡƒΡ‚Ρ–Π²ΡΡŒΠΊΠΈΠΉ ΠΆΠΎΠ²Ρ‚Π½Π΅Π²Π΅ Π²ΡƒΠ». -, Π±ΡƒΠ΄. -, ΠΊΠ².,"))
# [('ΠΏΠΎΠ»Ρ‚Π°Π²ΡΡŒΠΊΠ°', 'Locality'), ('Ρ‡ΡƒΡ‚Ρ–Π²ΡΡŒΠΊΠΈΠΉ', 'CountyType'), ('ΠΆΠΎΠ²Ρ‚Π½Π΅Π²Π΅', 'Locality'), ('Π²ΡƒΠ».', 'StreetType'), ('Π±ΡƒΠ΄.', 'HouseNumberType'), ('ΠΊΠ².', 'ApartmentType')]
print(uaddresspacy.parse(", 01000 ΠΊΠΈΡ—Π², місто ΠΊΠΈΡ—Π², місто ΠΊΠΈΡ—Π² Π²ΠΎΡ€ΠΎΠ²ΡΡŒΠΊΠΎΠ³ΠΎ, Π±ΡƒΠ΄. 43-Π±, ΠΊΠ². 14,"))
# [('01000', 'PostCode'), ('ΠΊΠΈΡ—Π²', 'Region'), ('місто', 'LocalityType'), ('ΠΊΠΈΡ—Π²', 'Locality'), ('Π²ΠΎΡ€ΠΎΠ²ΡΡŒΠΊΠΎΠ³ΠΎ', 'Street'), ('Π±ΡƒΠ΄.', 'HouseNumberType'), ('43-Π±', 'HouseNumber'), ('ΠΊΠ².', 'ApartmentType'), ('14', 'Apartment')]

use

python3 pretrain.py

pretrain

Π‘Ρ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Π°

Ѐайл ОписаниС
pretrain.py ΠŸΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ… для обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ
train.py ΠŸΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠ° ΠΌΠΎΠ΄Π΅Π»ΠΈ
example.py ΠŸΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ Ρ€Π°Π·Π±ΠΎΡ€ΠΊΠΈ адрСса Π½Π° Ρ‚ΠΈΠΏΡ‹
report.csv ΠŸΡ€ΠΈΠΌΠ΅Ρ€ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π° ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π½Π° Ρ‚ΠΈΠΏΡ‹
addresses.csv Бписок адрСсов для ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ
training/raw.csv Π”Π°Π½Π½Ρ‹Π΅ для обучСния
training/pretrain.csv Π”Π°Π½Π½Ρ‹Π΅ для обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ

Π’ΠΈΠΏΡ‹

НазваниС ОписаниС
Country Π‘Ρ‚Ρ€Π°Π½Π°
RegionType Π’ΠΈΠΏ области
Region ΠžΠ±Π»Π°ΡΡ‚ΡŒ
CountyType Π’ΠΈΠΏ Ρ€Π°ΠΉΠΎΠ½Π°
County Π Π°ΠΉΠΎΠ½
Included Π’Ρ…ΠΎΠ΄ΠΈΡ‚ Π² состав
LocalityType Π’ΠΈΠΏ насСлённого ΠΏΡƒΠ½ΠΊΡ‚Π°
Locality НасСлённый ΠΏΡƒΠ½ΠΊΡ‚
StreetType Π’ΠΈΠΏ ΡƒΠ»ΠΈΡ†Ρ‹
Street Π£Π»ΠΈΡ†Π°
HousingType Π’ΠΈΠΏ корпуса
Housing ΠšΠΎΡ€ΠΏΡƒΡ
HostelType Π’ΠΈΠΏ общСТития
Hostel ΠžΠ±Ρ‰Π΅ΠΆΠΈΡ‚ΠΈΠ΅
HouseNumberType Π’ΠΈΠΏ Π½ΠΎΠΌΠ΅Ρ€Π° Π΄ΠΎΠΌΠ°
HouseNumber НомСр Π΄ΠΎΠΌΠ°
HouseNumberAdditionally Π”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ Π½ΠΎΠΌΠ΅Ρ€ Π΄ΠΎΠΌΠ°
SectionType Π’ΠΈΠΏ сСкции
Section БСкция
ApartmentType Π’ΠΈΠΏ ΠΊΠ²Π°Ρ€Ρ‚ΠΈΡ€Ρ‹
Apartment ΠšΠ²Π°Ρ€Ρ‚ΠΈΡ€Π°
RoomType Π’ΠΈΠΏ ΠΊΠΎΠΌΠ½Π°Ρ‚Ρ‹
Room ΠšΠΎΠΌΠ½Π°Ρ‚Π°
Sector Π‘Π΅ΠΊΡ‚ΠΎΡ€
FloorType Π’ΠΈΠΏ этаТа
Floor Π­Ρ‚Π°ΠΆ
PostCode ИндСкс
Manually Набор Ρ‚ΠΈΠΏΠΎΠ² для дальнСйшСй Ρ€Π°Π·Π±ΠΎΡ€ΠΊΠΈ адрСса
NotAddress НС адрСс
Comment ΠšΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΉ
AdditionalData Π”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅