
Security News
Browserslist-rs Gets Major Refactor, Cutting Binary Size by Over 1MB
Browserslist-rs now uses static data to reduce binary size by over 1MB, improving memory use and performance for Rust-based frontend tools.
์ด ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์ง๋ฌธ(Q)๊ณผ ๋ต๋ณ(A) ์์ผ๋ก ๊ตฌ์ฑ๋ ํ ์คํธ ๋ฐ์ดํฐ์ (CSV ํ์ผ)์์ ์ค๋ณต์ ํ์ธํ๊ณ , ํ์ง ๊ธฐ์ค์ ๋ฐ๋ผ ๋ฐ์ดํฐ๋ฅผ ์ ๋ณํ๋ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
Qwen/Qwen3-Embedding-0.6B
)text-embedding-3-small
๋ฑ OpenAI์ ๋ชจ๋ธ ์ฌ์ฉgemini-embedding-exp-03-07
๋ฑ Google์ ๋ชจ๋ธ ์ฌ์ฉconfig/default_settings.yaml
ํ์ผ์ ํตํด ๋๋ถ๋ถ์ ๋์์ ์์ธํ๊ฒ ์ค์ ๊ฐ๋ฅํ๋ฉฐ, CLI ์ธ์ ๋๋ ํจ์ ํธ์ถ ์ ์ค๋ฒ๋ผ์ด๋ ๊ฐ๋ฅ.์๋ก์ด ๊ฐ์ ํ๊ฒฝ์ ์์ฑํ๋ ๊ฒ์ ๊ถ์ฅํฉ๋๋ค. Conda๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ:
conda create --name data-filtering-env python=3.11 # ์์ ํ๊ฒฝ ์ด๋ฆ ๋ฐ Python ๋ฒ์
conda activate data-filtering-env
Python 3.11 ์ด์์ ๊ถ์ฅํฉ๋๋ค.
๋ฐฉ๋ฒ A: PyPI์์ ์ค์น (๋ฐฐํฌ๋ ๊ฒฝ์ฐ)
pip install data-filtering
(์ด ๋ช ๋ น์ด๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ PyPI์ ์ ์ ๋ฐฐํฌ๋ ํ์ ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค.)
๋ฐฉ๋ฒ B: ์์ค์์ ์ง์ ๋น๋ ๋ฐ ์ค์น (ํ์ฌ ๊ฐ๋ฐ/ํ ์คํธ ๋จ๊ณ)
์์ค ์ฝ๋ ๋ค์ด๋ก๋ ๋๋ ํด๋ก :
git clone https://github.com/yourusername/data-filtering.git # ์ค์ ์ ์ฅ์ URL๋ก ๋ณ๊ฒฝ
cd data-filtering
ํ์ ๋น๋ ๋๊ตฌ ์ค์น:
pip install build
ํจํค์ง ๋น๋: ํ๋ก์ ํธ ๋ฃจํธ ๋๋ ํ ๋ฆฌ์์ ๋ค์ ๋ช ๋ น์ ์คํํฉ๋๋ค.
python -m build
์ด ๋ช
๋ น์ dist
๋๋ ํ ๋ฆฌ์ .whl
ํ์ผ๊ณผ .tar.gz
ํ์ผ์ ์์ฑํฉ๋๋ค.
๋น๋๋ ํจํค์ง ์ค์น:
์์ฑ๋ .whl
ํ์ผ์ ์ฌ์ฉํ์ฌ ์ค์นํฉ๋๋ค.
pip install dist/data_filtering-0.1.0-py3-none-any.whl # ์ค์ ์์ฑ๋ ํ์ผ๋ช
์ผ๋ก ๋ณ๊ฒฝ
๋๋, ๊ฐ๋ฐ ์ค์๋ editable ๋ชจ๋๋ก ์ค์นํ ์ ์์ต๋๋ค:
pip install -e .
data-filtering
ํจํค์ง๋ ํ์ํ ์์กด์ฑ์ ์๋์ผ๋ก ํจ๊ป ์ค์นํ๋ ค๊ณ ์๋ํฉ๋๋ค. ์ฃผ์ ์์กด์ฑ์ pyproject.toml
ํ์ผ์ dependencies
์น์
์ ๋ช
์๋์ด ์์ต๋๋ค.
์๋ฏธ๋ก ์ ์ค๋ณต ์ ๊ฑฐ ๊ธฐ๋ฅ์ ์ฌ์ฉํ๋ ค๋ฉด, ์ ํํ ๋ฐฑ์๋์ ๋ง๋ ์ถ๊ฐ ํจํค์ง๋ฅผ ์ค์นํด์ผ ํฉ๋๋ค.
Sentence-Transformers ๋ฐฑ์๋ ์ฌ์ฉ ์:
pip install sentence-transformers scipy
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
OpenAI ๋๋ Gemini API ๋ฐฑ์๋ ์ฌ์ฉ ์:
pip install openai instructor scipy
API ํค ์ค์ (OpenAI/Gemini ์ฌ์ฉ ์): API ๊ธฐ๋ฐ ๋ฐฑ์๋๋ฅผ ์ฌ์ฉํ๋ ค๋ฉด API ํค๋ฅผ ์ค์ ํด์ผ ํฉ๋๋ค.
# OpenAI API ํค ์ค์
export OPENAI_API_KEY="your_openai_api_key"
# ๋๋ Google API ํค ์ค์ (Gemini ์ฌ์ฉ ์)
export GOOGLE_API_KEY="your_google_api_key"
๋๋ config
ํ์ผ์ ์ง์ ํค๋ฅผ ๋ช
์ํ ์๋ ์์ต๋๋ค (๋ณด์์ ๊ถ์ฅ๋์ง ์์).
์ ํ์ ์์กด์ฑ:
scipy
: ์๋ฏธ๋ก ์ ์ค๋ณต ํ์ง ์ ๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง์ ์ฌ์ฉ๋ฉ๋๋ค. sentence-transformers
๋๋ API ๋ฐฑ์๋ ์ฌ์ฉ ์ ํจ๊ป ์ค์น๋ฉ๋๋ค.instructor
: OpenAI/Gemini API์์ ์ํธ์์ฉ์ ๋จ์ํํฉ๋๋ค.๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ๋ ๊ฐ์ง ์ฃผ์ ๋ฐฉ์์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค: ๋ช ๋ น์ค ์ธํฐํ์ด์ค(CLI) ๋๋ Python ์ฝ๋ ๋ด์์ ์ง์ ํธ์ถ.
ํจํค์ง๊ฐ ์ฌ๋ฐ๋ฅด๊ฒ ์ค์น๋์๋ค๋ฉด, ํฐ๋ฏธ๋์์ data-filtering-cli
๋ช
๋ น์ด๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค.
๊ธฐ๋ณธ ์ฌ์ฉ๋ฒ:
data-filtering-cli <์
๋ ฅ_CSV_ํ์ผ_๊ฒฝ๋ก>
์์:
data-filtering-cli examples/sample_data.csv
์ฃผ์ ์ต์ :
--config <์ค์ _ํ์ผ_๊ฒฝ๋ก>
: ์ฌ์ฉ์ ์ ์ YAML ์ค์ ํ์ผ์ ์ง์ ํฉ๋๋ค. (๊ธฐ๋ณธ๊ฐ: config/default_settings.yaml
)--q_col <์ปฌ๋ผ๋ช
>
: CSV ํ์ผ ๋ด ์ง๋ฌธ ์ปฌ๋ผ๋ช
์ ์ง์ ํฉ๋๋ค. (์ค์ ํ์ผ ๊ฐ ์ค๋ฒ๋ผ์ด๋)--a_col <์ปฌ๋ผ๋ช
>
: CSV ํ์ผ ๋ด ๋ต๋ณ ์ปฌ๋ผ๋ช
์ ์ง์ ํฉ๋๋ค. (์ค์ ํ์ผ ๊ฐ ์ค๋ฒ๋ผ์ด๋)--qa_col <์ปฌ๋ผ๋ช
>
: CSV ํ์ผ ๋ด ์ง๋ฌธ+๋ต๋ณ ํตํฉ ์ปฌ๋ผ๋ช
์ ์ง์ ํฉ๋๋ค. (q_col
, a_col
๋์ ์ฌ์ฉ)--encoding <์ธ์ฝ๋ฉ>
: ์
๋ ฅ CSV ํ์ผ์ ์ธ์ฝ๋ฉ์ ์ง์ ํฉ๋๋ค. (์: utf-8
, cp949
)--output_dir <๊ฒฝ๋ก>
: ๊ฒฐ๊ณผ ํ์ผ(์ ๋ณ๋ CSV, ๋ฆฌํฌํธ)์ด ์ ์ฅ๋ ๋๋ ํ ๋ฆฌ๋ฅผ ์ง์ ํฉ๋๋ค.CLI ์์:
# ์ฌ์ฉ์ ์ค์ ํ์ผ๊ณผ ํจ๊ป ์คํ
data-filtering-cli data/my_qna_data.csv --config config/my_custom_settings.yaml
# ์ง๋ฌธ/๋ต๋ณ ์ปฌ๋ผ๋ช
์ง์ ์ง์ ๋ฐ ์ถ๋ ฅ ๋๋ ํ ๋ฆฌ ๋ณ๊ฒฝ
data-filtering-cli data/another_data.csv --q_col "Question" --a_col "Answer" --output_dir processed_results
(๋ง์ฝ data-filtering-cli
๋ช
๋ น์ด๊ฐ ์ธ์๋์ง ์๋๋ค๋ฉด, Python ํ๊ฒฝ์ bin
๋๋ Scripts
๋๋ ํ ๋ฆฌ๊ฐ ์์คํ
PATH์ ์ฌ๋ฐ๋ฅด๊ฒ ์ถ๊ฐ๋์๋์ง, ๋๋ python -m data_filtering.main_processor <์
๋ ฅ_CSV_ํ์ผ_๊ฒฝ๋ก>
ํํ๋ก ์ง์ ๋ชจ๋์ ์คํํด์ผ ํ ์ ์์ต๋๋ค.)
data_filtering
๋ชจ๋์ run
ํจ์๋ฅผ ์ฌ์ฉํ์ฌ Python ์คํฌ๋ฆฝํธ ๋ด์์ ํํฐ๋ง ํ๋ก์ธ์ค๋ฅผ ์คํํ ์ ์์ต๋๋ค.
from data_filtering import run
# ๊ธฐ๋ณธ ์ค์ ์ฌ์ฉ (ํจํค์ง ๋ด๋ถ์ default_settings.yaml ์ฌ์ฉ)
run(input_csv_path="examples/sample_data.csv")
# ์ฌ์ฉ์ ์ ์ ์ค์ ํ์ผ ๋ฐ ์ผ๋ถ ์ต์
kwargs๋ก ์ค๋ฒ๋ผ์ด๋
run(
input_csv_path="data/my_qna_data.csv",
config_path="path/to/my_custom_settings.yaml", # ์ฌ์ฉ์ YAML ํ์ผ ๊ฒฝ๋ก
output_dir="custom_output", # kwargs๋ก ์ต์์ ์ค์ ์ค๋ฒ๋ผ์ด๋
deduplication={"semantic_threshold": 0.88} # kwargs๋ก ์ค์ฒฉ๋ ์ค์ ์ค๋ฒ๋ผ์ด๋
)
# ์ปฌ๋ผ๋ช
์ง์ ์ง์ (config ํ์ผ ์ค์ ๋ณด๋ค ์ฐ์ )
run(
input_csv_path="data/other_format.csv",
q_col="Inquiry",
a_col="Response"
)
data_filtering/config/default_settings.yaml
)๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ธ๋ถ ๋์์ data_filtering/config/default_settings.yaml
ํ์ผ์ ํตํด ์ ์ด๋ฉ๋๋ค. ์ด ํ์ผ์ ํจํค์ง ๋ด๋ถ์ ํฌํจ๋์ด ์์ผ๋ฉฐ, ์ฌ์ฉ์ ์ ์ ์ค์ ์ ์ํด ์ด ํ์ผ์ ๋ณต์ฌํ์ฌ ์์ ํ ํ ์ฌ์ฉํ ์ ์์ต๋๋ค.
์ ๋ ฅ/์ถ๋ ฅ ์ค์ :
input_csv
: ์
๋ ฅ CSV ํ์ผ ๊ฒฝ๋กoutput_dir
: ๊ฒฐ๊ณผ ํ์ผ์ด ์ ์ฅ๋ ๋๋ ํ ๋ฆฌ (๊ธฐ๋ณธ๊ฐ: ./output
)q_col
, a_col
: ์ง๋ฌธ/๋ต๋ณ ์ปฌ๋ผ๋ช
(QA ๋ฐ์ดํฐ์
์ธ ๊ฒฝ์ฐ)qa_col
: ์ง๋ฌธ๊ณผ ๋ต๋ณ์ด ๊ฒฐํฉ๋ ์ปฌ๋ผ๋ช
(๋จ์ผ ์ปฌ๋ผ ๋ฐ์ดํฐ์
์ธ ๊ฒฝ์ฐ)encoding
: ์
๋ ฅ ํ์ผ ์ธ์ฝ๋ฉ (๊ธฐ๋ณธ๊ฐ: utf-8
)์ค๋ณต ์ ๊ฑฐ ์ค์ (deduplication
):
enable_exact
: ์ ํํ ์ค๋ณต ์ ๊ฑฐ ํ์ฑํ (๊ธฐ๋ณธ๊ฐ: true
)enable_semantic
: ์๋ฏธ๋ก ์ ์ค๋ณต ์ ๊ฑฐ ํ์ฑํ (๊ธฐ๋ณธ๊ฐ: false
)backend
: ์๋ฒ ๋ฉ ๋ฐฑ์๋ (sentence-transformers
, openai
, gemini
)model
: ์ฌ์ฉํ ๋ชจ๋ธ ์ด๋ฆ (์: Qwen/Qwen3-Embedding-0.6B
, text-embedding-3-small
)semantic_threshold
: ์๋ฏธ์ ์ ์ฌ๋ ์๊ณ๊ฐ (0.0 ~ 1.0, ๊ธฐ๋ณธ๊ฐ: 0.80)keep_criterion
: ์ค๋ณต ์ ๋ณด์กด ๊ธฐ์ค (first
: ์ฒซ ๋ฒ์งธ ํญ๋ชฉ, longest
: ๊ฐ์ฅ ๊ธด ํ
์คํธ)batch_size
: ๋ฐฐ์น ์ฒ๋ฆฌ ํฌ๊ธฐ (API ๋ฐฑ์๋ ์ฌ์ฉ ์, ๊ธฐ๋ณธ๊ฐ: 32)max_retries
: API ํธ์ถ ์คํจ ์ ์ต๋ ์ฌ์๋ ํ์ (๊ธฐ๋ณธ๊ฐ: 3)ํ์ง ํํฐ ์ค์ (quality_filters
):
length
: ํ
์คํธ ๊ธธ์ด ํํฐ
enable
: ํ์ฑํ ์ฌ๋ถmin
: ์ต์ ๊ธธ์ด (๊ธฐ๋ณธ๊ฐ: 10)max
: ์ต๋ ๊ธธ์ด (๊ธฐ๋ณธ๊ฐ: 1000)language
: ์ธ์ด ํํฐ
enable
: ํ์ฑํ ์ฌ๋ถtarget
: ๋ชฉํ ์ธ์ด ์ฝ๋ (์: ko
, en
)confidence_threshold
: ์ธ์ด ๊ฐ์ง ์ ๋ขฐ๋ ์๊ณ๊ฐ (0.0 ~ 1.0)๋ฆฌํฌํธ ์ค์ (report
):
format
: ์ถ๋ ฅ ํ์ (html
๋๋ txt
)filename
: ๋ฆฌํฌํธ ํ์ผ๋ช
(ํ์ฅ์ ์ ์ธ)include_rejected_samples
: ๊ฑฐ๋ถ๋ ์ํ ํฌํจ ์ฌ๋ถnum_rejected_samples
: ํฌํจํ ๊ฑฐ๋ถ ์ํ ์ (์์ N๊ฐ)API ์ค์ (api_settings
):
openai
: OpenAI API ๊ด๋ จ ์ค์
api_key
: API ํค (๋ณด์์ ํ๊ฒฝ ๋ณ์ ์ฌ์ฉ ๊ถ์ฅ)base_url
: ์ปค์คํ
์๋ํฌ์ธํธ URL (์ ํ์ฌํญ)gemini
: Google Gemini API ๊ด๋ จ ์ค์
api_key
: API ํค (๋ณด์์ ํ๊ฒฝ ๋ณ์ ์ฌ์ฉ ๊ถ์ฅ)base_url
: ๊ธฐ๋ณธ๊ฐ์ Google API ์๋ํฌ์ธํธ ์ฌ์ฉํ์ง ํํฐ ์ค์ (quality_filters
):
length
): ํ์ฑํ ์ฌ๋ถ (enable
), ์ต์/์ต๋ ๊ธธ์ด (min
, max
)language
): ํ์ฑํ ์ฌ๋ถ (enable
), ๋ชฉํ ์ธ์ด (target
), ์ ๋ขฐ๋ ์๊ณ๊ฐ (confidence_threshold
)๋ฆฌํฌํธ ์ค์ (report
):
format
: html
๋๋ txt
)filename
)include_rejected_samples
)์ถ๋ ฅ CSV ์ค์ (output_csv
):
filename
)columns
)์ฌ์ฉ์ ์ ์ ์ค์ ์ ์ํ ๊ฒฝ์ฐ, default_settings.yaml
ํ์ผ์ ๋ณต์ฌํ์ฌ ์์ ํ --config
์ต์
์ด๋ run
ํจ์์ config_path
์ธ์๋ก ์ง์ ํ์ฌ ์ฌ์ฉํ์ญ์์ค.
.
โโโ data_filtering/ # ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์์ค ์ฝ๋ ํจํค์ง
โ โโโ config/ # ๊ธฐ๋ณธ ์ค์ ํ์ผ ๋๋ ํ ๋ฆฌ
โ โ โโโ default_settings.yaml
โ โโโ templates/ # HTML ๋ฆฌํฌํธ ํ
ํ๋ฆฟ
โ โ โโโ report_template.html
โ โโโ __init__.py
โ โโโ data_handler.py
โ โโโ duplication_handler.py
โ โโโ main_processor.py # CLI ์ง์
์ ๋ฐ ํต์ฌ ๋ก์ง
โ โโโ quality_checker.py
โ โโโ report_generator.py
โโโ examples/ # ์์ ์คํฌ๋ฆฝํธ ๋ฐ ๋ฐ์ดํฐ
โ โโโ run_example.py # ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฌ์ฉ ์์ Python ์คํฌ๋ฆฝํธ
โ โโโ sample_data.csv
โโโ tests/ # ํ
์คํธ ์ฝ๋
โ โโโ pytest.ini # Pytest ์ค์ (PYTHONPATH ๋ฑ)
โ โโโ ... (๊ฐ ๋ชจ๋๋ณ ํ
์คํธ ํ์ผ) ...
โโโ MANIFEST.in # ํจํค์ง์ ํฌํจํ ๋น-Python ํ์ผ ๋ชฉ๋ก
โโโ pyproject.toml # ๋น๋ ์์คํ
, ํ๋ก์ ํธ ๋ฉํ๋ฐ์ดํฐ, ์์กด์ฑ ๋ช
์
โโโ README.md # ํ์ฌ ํ์ผ
โโโ requirements.txt # ๊ฐ๋ฐ ํ๊ฒฝ์ฉ ์์กด์ฑ ๋ชฉ๋ก (์ ํ์ )
โโโ setup.py # Setuptools ์ค์ ํ์ผ
ํ๋ก์ ํธ์ ๊ธฐ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด pytest
๋ฅผ ์ฌ์ฉํฉ๋๋ค.
Conda ํ๊ฒฝ(data_filtering-env
)์ ํ์ฑํํฉ๋๋ค.
ํ๋ก์ ํธ ๋ฃจํธ ๋๋ ํ ๋ฆฌ์์ ๋ค์ ๋ช ๋ น์ ์คํํฉ๋๋ค:
pytest
duplication_handler.py
๋ฆฌํฉํ ๋งEmbeddingProvider
์ถ์ ํด๋์ค ๋์
์ผ๋ก ์๋ฒ ๋ฉ ๋ฐฑ์๋ ๊ตฌ์กฐ ๊ฐ์ SentenceTransformerProvider
, OpenAIEmbeddingProvider
, GeminiEmbeddingProvider
๊ตฌํ์ฒด ์ถ๊ฐFAQs
A library to filter and deduplicate Q&A text datasets from CSV files.
We found that data-filtering demonstrated a healthy version release cadence and project activity because the last version was released less than a year ago.ย It has 1 open source maintainer collaborating on the project.
Did you know?
Socket for GitHub automatically highlights issues in each pull request and monitors the health of all your open source dependencies. Discover the contents of your packages and block harmful activity before you install or update your dependencies.
Security News
Browserslist-rs now uses static data to reduce binary size by over 1MB, improving memory use and performance for Rust-based frontend tools.
Research
Security News
Eight new malicious Firefox extensions impersonate games, steal OAuth tokens, hijack sessions, and exploit browser permissions to spy on users.
Security News
The official Go SDK for the Model Context Protocol is in development, with a stable, production-ready release expected by August 2025.