Comparing version 0.10.0 to 0.11.0
@@ -0,1 +1,8 @@ | ||
### 0.11.0 | ||
* Add support for pulling the page description out of og:description tags | ||
* Fix a hidden but where unrelated words were joined together when counting number of words in a block of text | ||
* Fixed an issue where page tags were returning line breaks in the tag names for some pages | ||
* Fix issue where an SVG image embedded in the page will have it's title concatenated with the page title | ||
* Updated Portuguese stopwords file | ||
### 0.10.0 | ||
@@ -2,0 +9,0 @@ * Fix an issue with junk being left on the page when parsing USA Today news story pages. |
@@ -1,41 +0,380 @@ | ||
último | ||
a | ||
à | ||
abril | ||
agosto | ||
ainda | ||
ano | ||
anos | ||
ao | ||
aos | ||
apenas | ||
as | ||
às | ||
até | ||
brasil | ||
com | ||
como | ||
contra | ||
da | ||
das | ||
de | ||
depois | ||
deve | ||
dezembro | ||
dia | ||
disse | ||
diz | ||
do | ||
dois | ||
dos | ||
e | ||
é | ||
acerca | ||
ela | ||
ele | ||
em | ||
entre | ||
era | ||
está | ||
estado | ||
estão | ||
eu | ||
foi | ||
folha | ||
foram | ||
governo | ||
grande | ||
há | ||
hoje | ||
isso | ||
já | ||
local | ||
maio | ||
maior | ||
mais | ||
mas | ||
mercado | ||
mesmo | ||
mil | ||
milhões | ||
muito | ||
mundo | ||
na | ||
não | ||
nas | ||
no | ||
nos | ||
o | ||
ontem | ||
os | ||
ou | ||
país | ||
para | ||
paulo | ||
pela | ||
pelo | ||
pessoas | ||
pode | ||
por | ||
porque | ||
presidente | ||
quando | ||
que | ||
quem | ||
r | ||
rio | ||
são | ||
se | ||
segundo | ||
sem | ||
ser | ||
será | ||
seu | ||
seus | ||
só | ||
sobre | ||
sua | ||
também | ||
tem | ||
ter | ||
todos | ||
três | ||
um | ||
uma | ||
us | ||
vaia | ||
à | ||
acordo | ||
afirmou | ||
agora | ||
algmas | ||
ainda | ||
além | ||
alguns | ||
ali | ||
ambos | ||
ano | ||
anos | ||
antes | ||
apontar | ||
aquela | ||
aquelas | ||
aquele | ||
aqueles | ||
ao | ||
aos | ||
apenas | ||
as | ||
às | ||
assim | ||
até | ||
banco | ||
bem | ||
brasil | ||
brasileira | ||
brasileiro | ||
brasília | ||
cada | ||
carlos | ||
casa | ||
caso | ||
cerca | ||
cidade | ||
com | ||
como | ||
congresso | ||
contra | ||
da | ||
das | ||
de | ||
depois | ||
desde | ||
deve | ||
dia | ||
dias | ||
dinheiro | ||
disse | ||
diz | ||
do | ||
dois | ||
dos | ||
duas | ||
durante | ||
e | ||
é | ||
economia | ||
ela | ||
ele | ||
eles | ||
em | ||
empresa | ||
empresas | ||
entre | ||
era | ||
especial | ||
essa | ||
esse | ||
esta | ||
está | ||
estado | ||
estão | ||
estava | ||
este | ||
eu | ||
eua | ||
exemplo | ||
faz | ||
fazer | ||
federal | ||
fernando | ||
fevereiro | ||
fhc | ||
filme | ||
final | ||
foi | ||
folha | ||
foram | ||
forma | ||
governo | ||
grande | ||
grupo | ||
há | ||
henrique | ||
história | ||
hoje | ||
inflação | ||
isso | ||
já | ||
janeiro | ||
josé | ||
lei | ||
local | ||
maior | ||
mais | ||
março | ||
mas | ||
me | ||
melhor | ||
menos | ||
mercado | ||
mês | ||
meses | ||
mesmo | ||
mil | ||
milhões | ||
ministro | ||
muito | ||
mundo | ||
na | ||
nacional | ||
nada | ||
não | ||
nas | ||
nem | ||
no | ||
nos | ||
nova | ||
novo | ||
o | ||
onde | ||
ontem | ||
os | ||
ou | ||
outra | ||
outro | ||
outros | ||
outubro | ||
país | ||
para | ||
parte | ||
partir | ||
passado | ||
paulo | ||
pela | ||
pelo | ||
pelos | ||
pessoas | ||
plano | ||
pode | ||
polícia | ||
política | ||
por | ||
porque | ||
preços | ||
presidente | ||
primeira | ||
primeiro | ||
programa | ||
projeto | ||
público | ||
qual | ||
qualquer | ||
quando | ||
quatro | ||
que | ||
quem | ||
r | ||
real | ||
reportagem | ||
rio | ||
são | ||
se | ||
segundo | ||
seja | ||
sem | ||
semana | ||
sempre | ||
sendo | ||
ser | ||
será | ||
seria | ||
seu | ||
seus | ||
sistema | ||
só | ||
sobre | ||
sp | ||
sua | ||
suas | ||
também | ||
tem | ||
têm | ||
tempo | ||
ter | ||
todo | ||
todos | ||
trabalho | ||
três | ||
tudo | ||
um | ||
uma | ||
us | ||
vai | ||
vez | ||
vida | ||
vocêa | ||
à | ||
acordo | ||
afirma | ||
afirmou | ||
agora | ||
ainda | ||
além | ||
alguns | ||
ano | ||
anos | ||
antes | ||
ao | ||
aos | ||
apenas | ||
após | ||
aqui | ||
atrás | ||
área | ||
as | ||
às | ||
assim | ||
até | ||
aumento | ||
banco | ||
bem | ||
bilhões | ||
bom | ||
brasil | ||
brasileira | ||
brasileiro | ||
brasília | ||
cada | ||
caminho | ||
cima | ||
câmara | ||
campanha | ||
candidato | ||
carlos | ||
casa | ||
caso | ||
central | ||
centro | ||
cerca | ||
cidade | ||
cinco | ||
cinema | ||
coisa | ||
com | ||
como | ||
comprido | ||
conhecido | ||
corrente | ||
congresso | ||
conta | ||
contra | ||
da | ||
dar | ||
das | ||
debaixo | ||
dentro | ||
de | ||
depois | ||
deputado | ||
desde | ||
desligado | ||
deve | ||
devem | ||
deverá | ||
direita | ||
dia | ||
dias | ||
dinheiro | ||
direito | ||
diretor | ||
disse | ||
diz | ||
dizer | ||
do | ||
dois | ||
dos | ||
duas | ||
durante | ||
e | ||
é | ||
economia | ||
econômica | ||
ela | ||
@@ -45,104 +384,227 @@ ele | ||
em | ||
empresa | ||
empresas | ||
enquanto | ||
então | ||
entre | ||
equipe | ||
era | ||
especial | ||
essa | ||
esse | ||
esta | ||
está | ||
estado | ||
estados | ||
estão | ||
estado | ||
estar | ||
estará | ||
estava | ||
este | ||
estes | ||
esteve | ||
estive | ||
estivemos | ||
estiveram | ||
eu | ||
fará | ||
eua | ||
exemplo | ||
falta | ||
fato | ||
faz | ||
fazer | ||
fazia | ||
federal | ||
fernando | ||
fez | ||
fhc | ||
ficou | ||
filho | ||
filme | ||
fim | ||
final | ||
foi | ||
folha | ||
fora | ||
horas | ||
iniciar | ||
inicio | ||
ir | ||
irá | ||
ista | ||
iste | ||
isto | ||
ligado | ||
maioria | ||
maiorias | ||
foram | ||
forma | ||
governo | ||
grande | ||
grupo | ||
há | ||
havia | ||
henrique | ||
história | ||
hoje | ||
inflação | ||
início | ||
isso | ||
já | ||
janeiro | ||
jogo | ||
josé | ||
junho | ||
julho | ||
juros | ||
justiça | ||
lado | ||
lei | ||
livro | ||
local | ||
lugar | ||
maior | ||
mais | ||
mas | ||
me | ||
média | ||
meio | ||
melhor | ||
menos | ||
mercado | ||
mês | ||
meses | ||
mesma | ||
mesmo | ||
meu | ||
mil | ||
milhões | ||
minha | ||
ministério | ||
ministro | ||
momento | ||
muito | ||
muitos | ||
nós | ||
mulher | ||
mundo | ||
na | ||
nacional | ||
nada | ||
não | ||
nas | ||
nem | ||
neste | ||
no | ||
noite | ||
nome | ||
nosso | ||
nos | ||
nós | ||
nova | ||
novembro | ||
novo | ||
num | ||
numa | ||
número | ||
o | ||
onde | ||
ontem | ||
os | ||
ou | ||
outra | ||
outras | ||
outro | ||
outros | ||
país | ||
países | ||
para | ||
parte | ||
pegar | ||
partido | ||
partir | ||
passado | ||
paulo | ||
pela | ||
pelo | ||
pelos | ||
período | ||
pesquisa | ||
pessoas | ||
plano | ||
pode | ||
poderá | ||
podia | ||
podem | ||
poder | ||
polícia | ||
política | ||
pontos | ||
por | ||
porque | ||
povo | ||
promeiro | ||
quê | ||
pouco | ||
prazo | ||
preço | ||
preços | ||
presidente | ||
primeira | ||
primeiro | ||
problema | ||
problemas | ||
processo | ||
produção | ||
produtos | ||
programa | ||
projeto | ||
próprio | ||
pt | ||
público | ||
qual | ||
qualquer | ||
quando | ||
quanto | ||
quase | ||
quatro | ||
que | ||
quem | ||
quieto | ||
quer | ||
r | ||
real | ||
recursos | ||
região | ||
relação | ||
reportagem | ||
rio | ||
são | ||
saber | ||
saúde | ||
se | ||
segundo | ||
seja | ||
sem | ||
semana | ||
sempre | ||
sendo | ||
ser | ||
será | ||
serão | ||
seria | ||
setembro | ||
setor | ||
seu | ||
somente | ||
têm | ||
tal | ||
seus | ||
sido | ||
silva | ||
sistema | ||
só | ||
sobre | ||
social | ||
sociedade | ||
sp | ||
sua | ||
suas | ||
sucursal | ||
sul | ||
também | ||
tão | ||
tel | ||
tem | ||
têm | ||
tempo | ||
tenho | ||
tentar | ||
tentaram | ||
tente | ||
tentei | ||
teu | ||
ter | ||
teve | ||
tipo | ||
tive | ||
tinha | ||
toda | ||
todas | ||
todo | ||
todos | ||
trabalhar | ||
trabalho | ||
tu | ||
três | ||
tudo | ||
último | ||
um | ||
uma | ||
umas | ||
uns | ||
usa | ||
usar | ||
us | ||
vai | ||
valor | ||
veja | ||
ver | ||
verdade | ||
verdadeiro | ||
vão | ||
vem | ||
vez | ||
vezes | ||
vida | ||
você | ||
zona |
@@ -14,3 +14,3 @@ // Generated by CoffeeScript 2.0.0-beta7 | ||
if (!titleText) { | ||
titleElement = doc('title'); | ||
titleElement = doc('title').first(); | ||
titleText = titleElement.text(); | ||
@@ -102,6 +102,6 @@ } | ||
description: function (doc) { | ||
var cache$, tag; | ||
tag = doc('meta[name=description]'); | ||
if (null != tag && null != (cache$ = tag.attr('content'))) | ||
return cache$.trim(); | ||
var cache$, cache$1, tag; | ||
tag = doc("meta[name=description], meta[property='og:description']"); | ||
if (null != tag && null != (cache$ = tag.first()) && null != (cache$1 = cache$.attr('content'))) | ||
return cache$1.trim(); | ||
}, | ||
@@ -132,3 +132,4 @@ keywords: function (doc) { | ||
el = doc(this); | ||
tag = el.text(); | ||
tag = el.text().trim(); | ||
tag.replace(/[\s\t\n]+/g, ''); | ||
if (tag && tag.length > 0) | ||
@@ -349,3 +350,3 @@ return tags.push(tag); | ||
isHighlinkDensity = function (doc, node) { | ||
var linkDivisor, links, linkText, linkWords, numberOfLinks, numberOfLinkWords, sb, score, txt, words, wordsNumber; | ||
var links, linkText, linkWords, numberOfLinks, numberOfLinkWords, numberOfWords, percentLinkWords, sb, score, txt, words; | ||
links = node.find('a'); | ||
@@ -356,3 +357,3 @@ if (!(links.length > 0)) | ||
words = txt.split(' '); | ||
wordsNumber = words.length; | ||
numberOfWords = words.length; | ||
sb = []; | ||
@@ -362,8 +363,8 @@ links.each(function () { | ||
}); | ||
linkText = sb.join(''); | ||
linkText = sb.join(' '); | ||
linkWords = linkText.split(' '); | ||
numberOfLinkWords = linkWords.length; | ||
numberOfLinks = links.length; | ||
linkDivisor = numberOfLinkWords / wordsNumber; | ||
score = linkDivisor * numberOfLinks; | ||
percentLinkWords = numberOfLinkWords / numberOfWords; | ||
score = percentLinkWords * numberOfLinks; | ||
return score >= 1; | ||
@@ -370,0 +371,0 @@ }; |
{ | ||
"name": "unfluff", | ||
"version": "0.10.0", | ||
"version": "0.11.0", | ||
"description": "A web page content extractor", | ||
@@ -5,0 +5,0 @@ "homepage": "https://github.com/ageitgey/node-unfluff", |
@@ -58,3 +58,3 @@ # unfluff | ||
- `text` - The main text of the document with all the junk thrown away | ||
- `image` - The main image for the document (what's use by facebook, etc.) | ||
- `image` - The main image for the document (what's used by facebook, etc.) | ||
- `videos` - An array of videos that were embedded in the article. Each video has src, width and height. | ||
@@ -61,0 +61,0 @@ - `tags`- Any tags or keywords that could be found by checking <rel> tags or by looking at href urls. |
Sorry, the diff of this file is not supported yet
Sorry, the diff of this file is not supported yet
Sorry, the diff of this file is not supported yet
License Policy Violation
LicenseThis package is not allowed per your license policy. Review the package's license to ensure compliance.
Found 1 instance in 1 package
License Policy Violation
LicenseThis package is not allowed per your license policy. Review the package's license to ensure compliance.
Found 1 instance in 1 package
5286547
164
1939