安装与更新
pip install ricco
pip install ricco -U # 或
pip install ricco --upgrade
文档
Document
便捷方法介绍
数据读写
自动识别文件类型进行读写
- 万能读取数据文件:
rdf()
- 支持
.xls/.xlsx/.csv/.parquet/.shp/.ovkml
等多种文件格式
from ricco import rdf
df = rdf('/path/test.csv')
- 读取文件夹中的数据:
rdf_by_dir()
- 适用于读取的文件夹中数据结构相同的多个数据,可指定扩展名,如不指定则读取所有文件;
- 支持的文件格式与
rdf()
相同
from ricco import rdf_by_dir
df = rdf_by_dir('/path_dir/', exts=['.csv'])
- 文件保存:
to_file()
- 根据扩展名可自动报错多种格式的文件,支持的文件格式与
rdf()
相同 - 可自动新建目录,避免了文件保存时需要手动创建目录的麻烦
import pandas as pd
from ricco import to_file
df = pd.DataFrame()
to_file(df, '/path/test.csv')
文件处理
- 文件拆分:
split2x()
- 将文件拆分为多个文件,放置在与文件同名目录下
- 支持的文件格式与
rdf()
相同,默认'.csv'
from ricco import split2x
split2x('/path/test.csv', chunksize=1000)
split2x('/path/test.csv', parts=3)
- 文件批量拆分:
reshape_files()
将文件夹的文件大小进行统一拆分,并可传入自定义处理函数
from ricco import reshape_files
def process(df):
return df
reshape_files(
from_dir='/path_dir/',
to_dir='/path_dir_to/',
to_ext='.csv',
chunksize=1000,
func=process,
)
- 万能格式转换:
file_to_x()
批量转换可使用dir_file_to_x()
from ricco import file_to_x
file_to_x('/path/test.csv', to_ext='.xlsx')
地理处理
自动识别地理格式并进行转换,节省时间
- 自动转为shapely格式:
auto2shapely()
将带有地理信息的数据,自动转为 shapely 格式的GeoDataframe,地理格式可以为wkb/wkt/geojson等
from ricco import auto2shapely
from ricco import rdf
df = rdf('./test.csv')
auto2shapely(df)
- shapely转为任意格式:
shapely2x()
from ricco import rdf
from ricco import shapely2x
df = rdf('./test.csv')
shapely2x(df, geometry_format='wkb')
- 自动转为任务任意地理格式:
auto2x()
from ricco import rdf
from ricco import auto2x
df = rdf('./test.csv')
auto2x(df, geometry_format='wkb')
空间计算
- 投影变换:
projection()
根据经纬度自动获取 epsg code 进行投影,也可以指定城市和 epsg code 进行投影;
该方法是对geometry列进行投影,
如需要对经纬度进行投影,请使用projection_lnglat()
方法
from ricco.geometry.df import projection
- 面积计算:
get_area()
自动地理转换、投影、计算面积,新增面积列area
,不改变原数据
from ricco.geometry.df import get_area
- 近邻分析:
nearest_kdtree()
和nearest_neighbor()
计算一个数据集中的元素到另一个数据集中全部元素的最短距离(单位:米),
同时可进行其他统计
from ricco.geometry.df import nearest_kdtree
from ricco.geometry.df import nearest_neighbor
- buffer计算:
buffer()
生成指定半径的buffer的geometry列
from ricco.geometry.df import buffer
- 空间统计:
spatial_agg()
对面数据覆盖范围内的点数据进行空间统计
from ricco.geometry.df import spatial_agg
- 空间连接打标签:
mark_tags_v2()
from ricco import rdf
from ricco import mark_tags_v2
df_poi = rdf('./poi.csv')
df_plate = rdf('./plate.csv')
mark_tags_v2(df_poi, df_plate, col_list='plate_name')