-
Notifications
You must be signed in to change notification settings - Fork 81
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Add La Vanguardia
#637
Add La Vanguardia
#637
Changes from 3 commits
cf3f75e
8bf55f8
a0a0f7f
0621c82
1ee5169
a1cd09c
261a56d
26334ea
0957415
162cd0a
0243a9e
f64587b
f80bce6
79a5cbf
5eb93ab
eda8323
952ec8c
8cbe5f5
645441e
b80b829
27f9261
113e1df
2a85504
a5e5ce1
960288d
dc7c14f
2a31d36
d9e83ed
bcd9f8d
de31f6f
dd2ddfb
c540cbc
8bb273d
fc40318
1d519db
97e7bb6
a2255bc
e8aa4d8
6a7ffcd
3343e1f
1baee60
cf34efc
25f79d6
3799401
4b40a3a
27a6766
3d64b09
ab846d7
b1a4077
fdc74ac
95f5424
0b00838
24ca744
53b8707
a4bf2e7
5e650bd
File filter
Filter by extension
Conversations
Jump to
Diff view
Diff view
There are no files selected for viewing
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,44 @@ | ||
import datetime | ||
from typing import List, Optional | ||
|
||
from lxml.etree import XPath | ||
|
||
from fundus.parser import ArticleBody, BaseParser, ParserProxy, attribute | ||
from fundus.parser.utility import ( | ||
extract_article_body_with_selector, | ||
generic_author_parsing, | ||
generic_date_parsing, | ||
generic_topic_parsing, | ||
) | ||
|
||
|
||
class LaVanguardiaParser(ParserProxy): | ||
class V1(BaseParser): | ||
_paragraph_selector = XPath("//div[@class='article-modules']//p[@class='paragraph']") | ||
_subheadline_selector = XPath("//div[@class='article-modules']//h3[@class='subtitle']") | ||
_summary_selector = XPath("//h2[@class='epigraph']") | ||
|
||
@attribute | ||
def body(self) -> Optional[ArticleBody]: | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. The selector seems to have trouble parsing this article There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. It seems to me, as if there is nothing we can do about it, since the content is loaded using a script. The HTML we get in Fundus seems to mostly be scripts |
||
return extract_article_body_with_selector( | ||
self.precomputed.doc, | ||
paragraph_selector=self._paragraph_selector, | ||
subheadline_selector=self._subheadline_selector, | ||
summary_selector=self._summary_selector, | ||
) | ||
|
||
@attribute | ||
def publishing_date(self) -> Optional[datetime.datetime]: | ||
return generic_date_parsing(self.precomputed.ld.bf_search("datePublished")) | ||
|
||
@attribute | ||
def title(self) -> Optional[str]: | ||
return self.precomputed.meta.get("title") | ||
|
||
@attribute | ||
def authors(self) -> List[str]: | ||
return generic_author_parsing(self.precomputed.ld.bf_search("author")) | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. There are some encoding errors for the There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Turns out, it seems to be the case that, if there is this ZWSP character, it seems to be followed by information unrelated to the author, so it can safely be just removed |
||
|
||
@attribute | ||
def topics(self) -> List[str]: | ||
return generic_topic_parsing(self.precomputed.meta.get("Keywords")) | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. One could argue that the topics at the page's bottom are more descriptive. What do you think? |
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,54 @@ | ||
{ | ||
"V1": { | ||
"authors": [ | ||
"Maite Gutiérrez" | ||
], | ||
"body": { | ||
"summary": [ | ||
"La Generalitat quiere crear una nueva tipología de vivienda protegida proveniente del mercado de segunda mano" | ||
], | ||
"sections": [ | ||
{ | ||
"headline": [], | ||
"paragraphs": [ | ||
"El Govern de la Generalitat va desgranando el plan para construir 50.000 viviendas públicas hasta el 2030 que anunció el president Salvador Illa la semana pasada, para lo que movilizarán 4.400 millones de euros.", | ||
"Entre las novedades de esta estrategia para facilitar el acceso al mercado residencial, destaca la creación de una nueva tipología de vivienda protegida “de precio limitado”, ha avanzado este martes la consellera de Territori, Habitatge i Transició Ecològica, Sílvia Paneque, tras la reunión del Consell Executiu.", | ||
"La vivienda de precio limitado será aquella que se adquiera a través del Fondo Público de Emancipación que el Govern quiere activar en el 2025. Este Fondo estará dotado con 100 millones de euros anuales (500 millones en total) y está pensado para ayudar a los jóvenes a financiar la entrada de un piso, ya que muchos se encuentran en la situación de poder asumir el pago de una hipoteca, pero no cuentan con ahorros suficientes como para acceder al crédito dadas las condiciones de las entidades bancarias." | ||
] | ||
}, | ||
{ | ||
"headline": [ | ||
"Los pisos que se adquieran con el Fondo Público de Emancipación estarán topados al IPC" | ||
], | ||
"paragraphs": [ | ||
"El nuevo plan de ayudas financiará hasta el 20% de la compra a personas de hasta 30 años a través del Institut Català de Finances (ICF), con una bonificación de dos puntos sobre los intereses. La vivienda deberá ser de segunda mano y no mayor de 90 m², y se establecerán criterios de renta para acceder al Fondo. Los intereses se deberán abonar de forma mensual, pero el beneficiario no tendrá que devolver el importe del préstamo público hasta que no haya pagado toda la hipoteca sustraída con el banco.", | ||
"En caso de que el propietario de la vivienda adquirida con la ayuda del Fondo quisiera vender el inmueble en un futuro, no podría hacerlo a precio de mercado. Es aquí donde entra la nueva figura de “precio limitado”. Así, solo tendría permitido aplicar la subida del IPC del período. Además, debería devolver la totalidad de la ayuda que recibió del Fondo. La Generalitat calcula que unos 12.000 jóvenes de hasta 30 años podrían beneficiarse de este plan." | ||
] | ||
}, | ||
{ | ||
"headline": [ | ||
"20.000 viviendas públicas construidas para el 2027-2028" | ||
], | ||
"paragraphs": [ | ||
"Desde el Govern argumentan que de esta manera se evita la especulación con viviendas que se hayan adquirido con ayudas públicas, a la vez que se incrementa el parque habitacional protegido con la entrada de pisos de segunda mano. “Queremos evitar que la compra de vivienda con recursos públicos se pierda luego” en el mercado de compraventa, ha subrayado la también portavoz del Executiu. Las condiciones de estos inmuebles, ha añadido, será similar a las de la vivienda de protección oficial.", | ||
"Paneque también ha detallado la estrategia para construir vivienda protegida destinada a alquiler, que se vehiculará a través de la reserva pública de solares que el Govern quiere crear. Una vez estos solares estén inscritos en un registro, se hará una convocatoria pública para la promoción de vivienda. La Generalitat calcula que con las medidas para acortar el tiempo de ejecución -licencia temporal de obras, agilización de trámites...- se podrían disponer de unas 20.000 viviendas construidas para el 2027-2028.", | ||
"El Govern prevé lanzar una línea de préstamos a través del ICF de 500 millones anuales destinada a operadores públicos y privados que construyan estas viviendas de alquiler y compensará a las constructoras en caso de decalaje entre el coste de la edificación y el rendimiento del alquiler. De esta manera se intenta incentivar a las empresas para acudir a la convocatoria, ya que parte de constructoras aseguran que levantar vivienda protegida no sale a cuenta. Todo ello, no obstante, está sujeto a la aprobación de los presupuestos del 2025." | ||
] | ||
} | ||
] | ||
}, | ||
"publishing_date": "2024-10-15 14:04:17+02:00", | ||
"title": "Catalunya dará ayudas a jóvenes para la entrada de un piso pero topará los precios", | ||
"topics": [ | ||
"catalunya", | ||
"dará", | ||
"ayudas", | ||
"jóvenes", | ||
"entrada", | ||
"piso", | ||
"limitará", | ||
"precio", | ||
"venta" | ||
] | ||
} | ||
} |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
There seem to be sitemaps as well
https://www.lavanguardia.com/sitemap-noticias-202102.xml.gz
as well as two otherNewsMaps
:https://www.lavanguardia.com/sitemap-google-news.xml
https://www.lavanguardia.com/sitemap-news-agencias.xml
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Ah perfect, I missed them