![Oracle Drags Its Feet in the JavaScript Trademark Dispute](https://cdn.sanity.io/images/cgdhsj6q/production/919c3b22c24f93884c548d60cbb338e819ff2435-1024x1024.webp?w=400&fit=max&auto=format)
Security News
Oracle Drags Its Feet in the JavaScript Trademark Dispute
Oracle seeks to dismiss fraud claims in the JavaScript trademark dispute, delaying the case and avoiding questions about its right to the name.
This program is capable of splitting English text into individual words and can focus on learning unfamiliar words through its filtering feature..
这是一个自然语言处理工具集,主要用于文本处理、分词、词形还原等任务。该工具集可以处理英文文本,提取英文文本中的单词生成单词书,并支持文本的批量处理和保存。
pip install -r requirements.txt
或者, 当前需要在官方源
pip install build_vocabulary
usage: main.py [-h] [-r DIRECTORY] [-t TEXT] [--info] [-s START] [-e END] [-i]
[-f FILE_FILTER] [--record_exclude] [--exclude]
[file_path]
这个程序能够将英文文本拆分成单个单词,并可以通过过滤功能来专注于学习不熟悉的单词。
positional arguments:
file_path 指定单个文件的路径,该文件可以是pdf、pptx、docx或文本格式。如果未指定,程序将等待进一步的指令。
optional arguments:
-h, --help show this help message and exit
-r DIRECTORY, --directory DIRECTORY
指定一个文件夹路径,程序将会处理该文件夹内所有支持的文本文件。
-t TEXT, --text TEXT 直接提供一大段文本进行处理,而不是通过文件路径。
--info 显示已经学过的单词的位置
-s START, --start START
在处理单个文件或大段文本时,指定正则表达式匹配的起始点。留空则从文本的开始处处理。
-e END, --end END 在处理单个文件或大段文本时,指定正则表达式匹配的结束点。留空则处理到文本的结束处。
-i, --integrate 在指定一个文件夹路径时, 是否将该文件夹内所有的结果整合到一起。
-f FILE_FILTER, --file_filter FILE_FILTER
指定一个文件路径,程序会在最终生成的单词列表中排除掉这个文件中出现的单词。
这个选项适用于想要创建一个不含特定单词的单词列表的情况。
--record_exclude 将任意方式生成的词汇表写到文件里,下次生成词汇表时,使用--exclude来激活排除。
该单词本中的词汇将不会再出现再新的词汇表里。使用--info可以查看不被包括的单词。
--exclude 激活排除。
或者安装到环境后
build_vocabulary.exe
在使用该工具集之前,请确保已经安装了所有必要的Python库。 COCA列表应该是一个文本文件,其中每行包含一个单词。 该工具集默认使用UTF-8编码处理文本。
欢迎任何形式的贡献,包括代码、文档、建议等。请通过GitHub上的issues或者pull requests与我联系。
该软件使用MIT许可证发布。请确保在分发或使用该软件时遵守相应的许可协议。
FAQs
This program is capable of splitting English text into individual words and can focus on learning unfamiliar words through its filtering feature..
We found that build-vocabulary demonstrated a healthy version release cadence and project activity because the last version was released less than a year ago. It has 1 open source maintainer collaborating on the project.
Did you know?
Socket for GitHub automatically highlights issues in each pull request and monitors the health of all your open source dependencies. Discover the contents of your packages and block harmful activity before you install or update your dependencies.
Security News
Oracle seeks to dismiss fraud claims in the JavaScript trademark dispute, delaying the case and avoiding questions about its right to the name.
Security News
The Linux Foundation is warning open source developers that compliance with global sanctions is mandatory, highlighting legal risks and restrictions on contributions.
Security News
Maven Central now validates Sigstore signatures, making it easier for developers to verify the provenance of Java packages.