贴吧抓取beta版(无数据库)
Pre-release
Pre-release
这是一个测试版本。不过用于分析贴吧数据已经够了。
这个版本的任务结果是以文件的形式提供:result.txt,放入debug文件夹根目录内。
数据库版本的正在开发,即将完成。
如果仅仅是用作数据分析,tieba-zhuaqu和Debug文件夹内容足以使用。
目前tieba-zhuaqu 文件夹下的爬虫可以正常使用
关于分布式:
分布式爬虫管理仍然存在问题,不过不影响使用。
数据分析模块存在内存占用过大的问题(当数据集很大的时候)
数据分析主要用到以下部分:
tieba-zhuaqu:贴吧抓取主程序(请运行RunTest.bat)
KCrawlerControal:需要使用这个软件里面的数据分析模块