![Oracle Drags Its Feet in the JavaScript Trademark Dispute](https://cdn.sanity.io/images/cgdhsj6q/production/919c3b22c24f93884c548d60cbb338e819ff2435-1024x1024.webp?w=400&fit=max&auto=format)
Security News
Oracle Drags Its Feet in the JavaScript Trademark Dispute
Oracle seeks to dismiss fraud claims in the JavaScript trademark dispute, delaying the case and avoiding questions about its right to the name.
pre-processing-text-basic-tools-br
Advanced tools
Kit de ferramentas para processos básicos de Processamento de Linguagem Natural.
Este pacote é um kit de ferramentas (variadas funções) para execução de processos básicos relacionados as etapas iniciais de processamento de linguagem natural.
A instalação deste pacote se dá por meio do comando "pip install"
pip install pre-processing-text-basic-tools-br
Mais informações sobre o pacote no Pypi: pre-processing-text-basic-tools-br pypi package
from pre_processing_text_basic_tools_br import removerCaracteresEspeciais
texto = "Este é um $ exemplo, de texto? com caractéres# especiai.s. Quero limpá-lo!!!"
texto_limpo = removerCaracteresEspeciais(texto)
print(texto_limpo)
>>>"Este é um exemplo de texto com caractéres especiais Quero limpá-lo"
from pre_processing_text_basic_tools_br import removerCaracteresEspeciais
texto = '''Hoje é sexta-feira e dia 09/03/2024! Ou ainda 09-03-2024.'''
texto_limpo = removerCaracteresEspeciais(texto,remover_hifen_de_palavras=True)
print(texto_limpo)
>>>"Hoje é sexta feira e dia 09 03 2024 Ou ainda 09 03 2024"
from pre_processing_text_basic_tools_br import formatacaoTotalDeTexto
texto = "Este é um $ exemplo, de texto? que/ que.ro# formatar e&*. padronizar!?"
texto_formatado = formatacaoTotalDeTexto(texto=texto,
padronizar_texto_para_minuscula=True,
remover_caracteres_especiais=True,
remover_caracteres_mais_que_especiais=True,
remover_espacos_em_branco_em_excesso=True,
padronizar_com_unidecode=True)
print(texto_formatado)
>>>"este e um exemplo de texto que quero formatar e padronizar"
from pre_processing_text_basic_tools_br import formatacaoTotalDeTexto
texto = '''Se eu tiver um texto com e-mail tipo esteehumemail@gmail.com ou
noreply@hotmail.com ou até mesmo emaildeteste@yahoo.com.br.
Além disso terei também vários telefones do tipo +55 48 911223344 ou
4890011-2233 e por que não um fixo do tipo 48 0011-2233?
Pode-se ter também datas como 12/12/2024 ou 2023-06-12 em variados tipos
tipo 1/2/24
E se o texto tiver muito dinheiro envolvido? Falamos de R$ 200.000,00 ou
R$200,00 ou até com
a formatação errada tipo R$ 2500!
Além disso podemos simplesmente padronizar números como 123123 ou 24 ou
129381233 ou até mesmo 1.200.234!'''
texto_formatado = formatacaoTotalDeTexto(texto=texto,
padronizar_com_unidecode=True,
padronizar_datas=True,
padrao_data='_data_',
padronizar_dinheiros=True,
padrao_dinheiro='$',
padronizar_emails=True,
padrao_email='_email_',
padronizar_telefone_celular=True,
padrao_tel='_tel_',
padronizar_numeros=True,
padrao_numero='0',
padronizar_texto_para_minuscula=True)
print(texto_formatado)
>>>"""se eu tiver um texto com e-mail tipo _email_ ou _email_ ou ate mesmo _email_
alem disso terei tambem varios telefones do tipo _tel_ ou _tel_ e por que nao um fixo do tipo _tel_
pode-se ter tambem datas como _data_ ou _data_ em variados tipos tipo _data_
e se o texto tiver muito dinheiro envolvido falamos de $ ou $ ou ate com
a formatacao errada tipo $
alem disso podemos simplesmente padronizar numeros como 0 ou 0 ou 0 ou ate mesmo 0"""
Este kit de funções permite realizar a contagem de palavras em um texto. Por padrão, ele elimina da contagem as palavras contidas na lista de palavras de escape para calcular a frequência: lista_com_palavras_de_escape_padrao_frequencia. Caso queira desativar esta funcionalidade, basta passar como parâmetro "remover_palavras_de_escape=True". Abaixo temos um exemplo de um uso simples da função de contar a frequência de uma palavra numa determinada frase:
from pre_processing_text_basic_tools_br import contarFrequenciaDePalavras
texto = '''Aqui vai mais um exemplo de texto de exemplo para uma
demonstração de contagem de palavras num texto de exemplo com
várias palavras.'''
frequencias = contarFrequenciaDePalavras(texto=texto)
for freq in frequencias:
print(freq)
>>>('exemplo', 3)
('texto', 2)
('palavras', 2)
('aqui', 1)
('vai', 1)
('demonstração', 1)
('contagem', 1)
('várias', 1)
Podemos também selecionar palavras específicas para realização da contagem, passando a lista de palavras no parâmetro palavras_especificas:
from pre_processing_text_basic_tools_br import contarFrequenciaDePalavras
texto = '''Aqui vai mais um exemplo de texto de exemplo para uma
demonstração de contagem de palavras num texto de exemplo com
várias palavras.'''
frequencias = contarFrequenciaDePalavras(texto=texto,
palavras_especificas=['aqui','vai','texto','exemplo','contagem'])
for freq in frequencias:
print(freq)
>>>('exemplo', 3)
('texto', 2)
('aqui', 1)
('vai', 1)
('contagem', 1)
Ainda, pode-se solicitar que seja retornado apenas um valor x de resultados do topo da listagem de frequências. No exemplo abaixo, queremos apenas os top 3 mais frequentes da listagem passada (caso a listagem de palavras específicas não seja passada, o valor n_top sera da listagem padrão de todas as palavras do texto).
from pre_processing_text_basic_tools_br import contarFrequenciaDePalavras
texto = '''Aqui vai mais um exemplo de texto de exemplo para uma
demonstração de contagem de palavras num texto de exemplo com
várias palavras.'''
frequencias = contarFrequenciaDePalavras(texto=texto,
palavras_especificas=['aqui','vai','texto','exemplo','contagem'],
n_top=3)
for freq in frequencias:
print(freq)
>>>('exemplo', 3)
('texto', 2)
('aqui', 1)
from pre_processing_text_basic_tools_br.main import tokenizarTexto
texto = '''Este é mais um texto de exemplo para a tokenização!!! Vamos usar caractéres,
especiais também @igorc.s e segue lá?!'''
tokenizacao = tokenizarTexto(texto)
print(tokenizacao)
>>>['este', 'é', 'mais', 'um', 'texto', 'de', 'exemplo', 'para', 'a', 'tokenização', 'vamos', 'usar', 'caractéres', 'especiais', 'também', 'igorcs', 'e', 'segue', 'lá']
from pre_processing_text_basic_tools_br import tokenizarTexto
texto = '''Este é mais um texto de exemplo para a tokenização!!! Vamos usar caractéres,
especiais também @igorc.s e segue lá?!'''
tokenizacao = tokenizarTexto(texto,remover_palavras_de_escape=True)
print(tokenizacao)
>>>['este', 'é', 'mais', 'um', 'texto', 'exemplo', 'para', 'tokenização', 'vamos', 'usar', 'caractéres', 'especiais', 'também', 'igorcs', 'segue', 'lá']
from pre_processing_text_basic_tools_br import tokenizarTexto
from pre_processing_text_basic_tools_br import lista_com_palavras_de_escape_padrao_tokenizacao
texto = '''Este é mais um texto de exemplo para a tokenização!!! Vamos usar caractéres,
especiais também @igorc.s e segue lá?!'''
lista_stop_words_personalizada = lista_com_palavras_de_escape_padrao_tokenizacao + ['este','mais','um','para','também','lá']
tokenizacao = tokenizarTexto(texto,remover_palavras_de_escape=True,lista_com_palavras_de_escape=lista_stop_words_personalizada)
print(tokenizacao)
>>>['este', 'é', 'texto', 'exemplo', 'tokenização', 'vamos', 'usar', 'caractéres', 'especiais', 'igorcs', 'segue']
from pre_processing_text_basic_tools_br import tokenizarTexto
from pre_processing_text_basic_tools_br import lista_com_palavras_de_escape_padrao_tokenizacao
texto = '''Este é mais um texto de exemplo para a tokenização!!! Vamos usar caractéres,
especiais também @igorc.s e segue lá?!'''
lista_stop_words_personalizada = lista_com_palavras_de_escape_padrao_tokenizacao + ['este','mais','um','para','também','lá']
texto = formatacaoTotalDeTexto(texto,padronizar_forma_canonica=True)
tokenizacao = tokenizarTexto(texto=texto,
remover_palavras_de_escape=True,
lista_com_palavras_de_escape=lista_stop_words_personalizada,
desconsiderar_acentuacao_nas_palavras_de_escape=True)
print(tokenizacao)
>>>['texto', 'exemplo', 'tokenizacao', 'vamos', 'usar', 'caracteres', 'especiais', 'igorcs', 'segue']
FAQs
Kit de ferramentas para processos básicos de Processamento de Linguagem Natural.
We found that pre-processing-text-basic-tools-br demonstrated a healthy version release cadence and project activity because the last version was released less than a year ago. It has 1 open source maintainer collaborating on the project.
Did you know?
Socket for GitHub automatically highlights issues in each pull request and monitors the health of all your open source dependencies. Discover the contents of your packages and block harmful activity before you install or update your dependencies.
Security News
Oracle seeks to dismiss fraud claims in the JavaScript trademark dispute, delaying the case and avoiding questions about its right to the name.
Security News
The Linux Foundation is warning open source developers that compliance with global sanctions is mandatory, highlighting legal risks and restrictions on contributions.
Security News
Maven Central now validates Sigstore signatures, making it easier for developers to verify the provenance of Java packages.