爬取sofasofa.io的问答数据,写成wiki
很喜欢逛这个网站,虽然很冷门的网站,但是内容较为优质。中间宕机5个月,是真的的难受,终于是等回来了。看了sofasofa网站的介绍,如下
SofaSofa上所有的问题与回答都来自于由SofaSofa的注册用户。 SofaSofa不能对用户所发表内容的合法性、正当性性、正确性负责。若用户发表的内容与本网站主题无关,SofaSofa将删除该内容。
SofaSofa会努力保护所有用户的个人隐私,但是用户提交的问题与回答都可能出现在搜索引擎中。
作为数据科学的知识共享社区,SofaSofa上所有的问题与回答都是基于“署名-非商业性使用-相同方式共享 3.0”许可。在转载、复制、引述本网站上的问题或者回答之前,请仔细阅读下文。下文中的“该作品”指将被转载、复制、引述的问题或者回答。
您可以自由地:
共享——在任何媒介以任何形式复制、发行该作品;
演绎——修改、转换或以该作品为基础进行创作。
惟须遵守下列条件:
署名——在转载、复制、引述时,须注明内容来自“SofaSofa”或者“SofaSofa:数据科学社区”,并附上原内容的链接;
非商业性使用——您不得将该作品用于商业目的;
相同方式共享——如果您再混合、转换或者基于该作品进行创作,您必须基于与本许可协议相同的许可协议分发您贡献的作品。
所以决定爬下网站的内容,整理其中的回答,做成笔记,便于学习。主要是怕网站又会宕机,网站这几天访问速度也是比较慢(汗...)
2022-04-18 今天早上访问sofa发现,又被攻击了,然后就疯狂在自懂刷新页面,到了中午就有三条垃圾数据在页面展示出来了。