Huge News!Announcing our $40M Series B led by Abstract Ventures.Learn More
Socket
Sign inDemoInstall
Socket

unfluff

Package Overview
Dependencies
Maintainers
1
Versions
20
Alerts
File Explorer

Advanced tools

Socket logo

Install Socket

Detect and block malicious and high-risk dependencies

Install

unfluff - npm Package Compare versions

Comparing version 0.10.0 to 0.11.0

fixtures/test_theverge2.html

7

CHANGELOG.md

@@ -0,1 +1,8 @@

### 0.11.0
* Add support for pulling the page description out of og:description tags
* Fix a hidden but where unrelated words were joined together when counting number of words in a block of text
* Fixed an issue where page tags were returning line breaks in the tag names for some pages
* Fix issue where an SVG image embedded in the page will have it's title concatenated with the page title
* Updated Portuguese stopwords file
### 0.10.0

@@ -2,0 +9,0 @@ * Fix an issue with junk being left on the page when parsing USA Today news story pages.

614

data/stopwords/stopwords-pt.txt

@@ -1,41 +0,380 @@

último
a
à
abril
agosto
ainda
ano
anos
ao
aos
apenas
as
às
até
brasil
com
como
contra
da
das
de
depois
deve
dezembro
dia
disse
diz
do
dois
dos
e
é
acerca
ela
ele
em
entre
era
está
estado
estão
eu
foi
folha
foram
governo
grande
hoje
isso
local
maio
maior
mais
mas
mercado
mesmo
mil
milhões
muito
mundo
na
não
nas
no
nos
o
ontem
os
ou
país
para
paulo
pela
pelo
pessoas
pode
por
porque
presidente
quando
que
quem
r
rio
são
se
segundo
sem
ser
será
seu
seus
sobre
sua
também
tem
ter
todos
três
um
uma
us
vaia
à
acordo
afirmou
agora
algmas
ainda
além
alguns
ali
ambos
ano
anos
antes
apontar
aquela
aquelas
aquele
aqueles
ao
aos
apenas
as
às
assim
até
banco
bem
brasil
brasileira
brasileiro
brasília
cada
carlos
casa
caso
cerca
cidade
com
como
congresso
contra
da
das
de
depois
desde
deve
dia
dias
dinheiro
disse
diz
do
dois
dos
duas
durante
e
é
economia
ela
ele
eles
em
empresa
empresas
entre
era
especial
essa
esse
esta
está
estado
estão
estava
este
eu
eua
exemplo
faz
fazer
federal
fernando
fevereiro
fhc
filme
final
foi
folha
foram
forma
governo
grande
grupo
henrique
história
hoje
inflação
isso
janeiro
josé
lei
local
maior
mais
março
mas
me
melhor
menos
mercado
mês
meses
mesmo
mil
milhões
ministro
muito
mundo
na
nacional
nada
não
nas
nem
no
nos
nova
novo
o
onde
ontem
os
ou
outra
outro
outros
outubro
país
para
parte
partir
passado
paulo
pela
pelo
pelos
pessoas
plano
pode
polícia
política
por
porque
preços
presidente
primeira
primeiro
programa
projeto
público
qual
qualquer
quando
quatro
que
quem
r
real
reportagem
rio
são
se
segundo
seja
sem
semana
sempre
sendo
ser
será
seria
seu
seus
sistema
sobre
sp
sua
suas
também
tem
têm
tempo
ter
todo
todos
trabalho
três
tudo
um
uma
us
vai
vez
vida
vocêa
à
acordo
afirma
afirmou
agora
ainda
além
alguns
ano
anos
antes
ao
aos
apenas
após
aqui
atrás
área
as
às
assim
até
aumento
banco
bem
bilhões
bom
brasil
brasileira
brasileiro
brasília
cada
caminho
cima
câmara
campanha
candidato
carlos
casa
caso
central
centro
cerca
cidade
cinco
cinema
coisa
com
como
comprido
conhecido
corrente
congresso
conta
contra
da
dar
das
debaixo
dentro
de
depois
deputado
desde
desligado
deve
devem
deverá
direita
dia
dias
dinheiro
direito
diretor
disse
diz
dizer
do
dois
dos
duas
durante
e
é
economia
econômica
ela

@@ -45,104 +384,227 @@ ele

em
empresa
empresas
enquanto
então
entre
equipe
era
especial
essa
esse
esta
está
estado
estados
estão
estado
estar
estará
estava
este
estes
esteve
estive
estivemos
estiveram
eu
fará
eua
exemplo
falta
fato
faz
fazer
fazia
federal
fernando
fez
fhc
ficou
filho
filme
fim
final
foi
folha
fora
horas
iniciar
inicio
ir
irá
ista
iste
isto
ligado
maioria
maiorias
foram
forma
governo
grande
grupo
havia
henrique
história
hoje
inflação
início
isso
janeiro
jogo
josé
junho
julho
juros
justiça
lado
lei
livro
local
lugar
maior
mais
mas
me
média
meio
melhor
menos
mercado
mês
meses
mesma
mesmo
meu
mil
milhões
minha
ministério
ministro
momento
muito
muitos
nós
mulher
mundo
na
nacional
nada
não
nas
nem
neste
no
noite
nome
nosso
nos
nós
nova
novembro
novo
num
numa
número
o
onde
ontem
os
ou
outra
outras
outro
outros
país
países
para
parte
pegar
partido
partir
passado
paulo
pela
pelo
pelos
período
pesquisa
pessoas
plano
pode
poderá
podia
podem
poder
polícia
política
pontos
por
porque
povo
promeiro
quê
pouco
prazo
preço
preços
presidente
primeira
primeiro
problema
problemas
processo
produção
produtos
programa
projeto
próprio
pt
público
qual
qualquer
quando
quanto
quase
quatro
que
quem
quieto
quer
r
real
recursos
região
relação
reportagem
rio
são
saber
saúde
se
segundo
seja
sem
semana
sempre
sendo
ser
será
serão
seria
setembro
setor
seu
somente
têm
tal
seus
sido
silva
sistema
sobre
social
sociedade
sp
sua
suas
sucursal
sul
também
tão
tel
tem
têm
tempo
tenho
tentar
tentaram
tente
tentei
teu
ter
teve
tipo
tive
tinha
toda
todas
todo
todos
trabalhar
trabalho
tu
três
tudo
último
um
uma
umas
uns
usa
usar
us
vai
valor
veja
ver
verdade
verdadeiro
vão
vem
vez
vezes
vida
você
zona

23

lib/extractor.js

@@ -14,3 +14,3 @@ // Generated by CoffeeScript 2.0.0-beta7

if (!titleText) {
titleElement = doc('title');
titleElement = doc('title').first();
titleText = titleElement.text();

@@ -102,6 +102,6 @@ }

description: function (doc) {
var cache$, tag;
tag = doc('meta[name=description]');
if (null != tag && null != (cache$ = tag.attr('content')))
return cache$.trim();
var cache$, cache$1, tag;
tag = doc("meta[name=description], meta[property='og:description']");
if (null != tag && null != (cache$ = tag.first()) && null != (cache$1 = cache$.attr('content')))
return cache$1.trim();
},

@@ -132,3 +132,4 @@ keywords: function (doc) {

el = doc(this);
tag = el.text();
tag = el.text().trim();
tag.replace(/[\s\t\n]+/g, '');
if (tag && tag.length > 0)

@@ -349,3 +350,3 @@ return tags.push(tag);

isHighlinkDensity = function (doc, node) {
var linkDivisor, links, linkText, linkWords, numberOfLinks, numberOfLinkWords, sb, score, txt, words, wordsNumber;
var links, linkText, linkWords, numberOfLinks, numberOfLinkWords, numberOfWords, percentLinkWords, sb, score, txt, words;
links = node.find('a');

@@ -356,3 +357,3 @@ if (!(links.length > 0))

words = txt.split(' ');
wordsNumber = words.length;
numberOfWords = words.length;
sb = [];

@@ -362,8 +363,8 @@ links.each(function () {

});
linkText = sb.join('');
linkText = sb.join(' ');
linkWords = linkText.split(' ');
numberOfLinkWords = linkWords.length;
numberOfLinks = links.length;
linkDivisor = numberOfLinkWords / wordsNumber;
score = linkDivisor * numberOfLinks;
percentLinkWords = numberOfLinkWords / numberOfWords;
score = percentLinkWords * numberOfLinks;
return score >= 1;

@@ -370,0 +371,0 @@ };

{
"name": "unfluff",
"version": "0.10.0",
"version": "0.11.0",
"description": "A web page content extractor",

@@ -5,0 +5,0 @@ "homepage": "https://github.com/ageitgey/node-unfluff",

@@ -58,3 +58,3 @@ # unfluff

- `text` - The main text of the document with all the junk thrown away
- `image` - The main image for the document (what's use by facebook, etc.)
- `image` - The main image for the document (what's used by facebook, etc.)
- `videos` - An array of videos that were embedded in the article. Each video has src, width and height.

@@ -61,0 +61,0 @@ - `tags`- Any tags or keywords that could be found by checking <rel> tags or by looking at href urls.

Sorry, the diff of this file is not supported yet

Sorry, the diff of this file is not supported yet

Sorry, the diff of this file is not supported yet

SocketSocket SOC 2 Logo

Product

  • Package Alerts
  • Integrations
  • Docs
  • Pricing
  • FAQ
  • Roadmap
  • Changelog

Packages

npm

Stay in touch

Get open source security insights delivered straight into your inbox.


  • Terms
  • Privacy
  • Security

Made with ⚡️ by Socket Inc