address_templeter
Библиотека предназначена для поиска, смысловому разделению и чистки адресных строк.
Пример использования
- Метод parse возвращает массив с метками для каждого токена:
<<< address_templeter.parse("г. Судак Солнечная 9 а")
>>> [('г', 'PlacePretext'), ('Судак', 'Place'), ('Солнечная', 'Street'), ('9', 'HouseNumber'), ('а', 'HouseNumber')]
-
Метод clean возвращает строку без знаков препинания и лишних пробелов. Параметр prefix указывает возвращать ли значения не являющиеся наименованиями. Параметры: name_building указывает возвращать ли наименование объекта (если оно имеется):
-
address:str - строка с адрессом
-
house:bool - возвращать номер дома (например 21-Б), наименования объекта, и его префикс (магазин, парк, прочее)По умолчанию False;
-
index:bool - возвращать почтовый индекс. По умолчанию False.
-
place_pretext:bool возвразать тип места (город, село). По умолчанию False;
-
region_pretext:bool возвразать тип региона (область, регион). Также, расшифровываться аббревиатуры и сокращения. По умолчанию False;
-
address_pretext:bool возвразать тип улицы (проспект, бульвар). Также, расшифровываться аббревиатуры и сокращения. По умолчанию False;
<<< address_templeter.clean("Ясниноватский район, возле белого магазина, Донецкая область, улица Садовая, 26а", prefix=False, house=True)
>>> Ясниноватский Садовая 26а
Установка
pip install address-templeter
Формирования дата сета и обучение
По умолчанию, библиотека уже содержит модель для использования необходимых методов.
Для формирования своей уникальной модели, необходимо:
- Сформировать xml файл для обучения можно выполнив checked_to_xml.ipynb (необходим jupyter notebook).
- Выполнить следующие команды для создания файла модели:
cd /path/to/Address_Templeter
pip install parserator
parserator train training/dataset.xml address_templeter
# По окончание обучения получится файл можели learned_settings.crfsuite
- Переустановить библиотеку address_templeter