Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于特定关键词抓取对应ASIN的排名 #2

Open
huochequan opened this issue Nov 14, 2017 · 5 comments
Open

关于特定关键词抓取对应ASIN的排名 #2

huochequan opened this issue Nov 14, 2017 · 5 comments

Comments

@huochequan
Copy link

您好。
我是电商小白,最近在弄爬亚马逊网页的关键词对应ASIN的排名。
在第一步我就卡住了,找不到亚马逊network里面的cookie,只有一个user-agent和一些accept数据。
请问您是通过cookie爬,还是通过其他一些途径?望您有空的时候,可以指点小弟一二。

@dynamohuang
Copy link
Owner

对于关键词的话 不需要设置cookie哈。用user-agent和代理就可以了,但抓排名比较烧代理

@huochequan
Copy link
Author

你好,谢谢你的回复。
我简单地设置了一下user-agent,成功的抓取了关键词对应Asin的排名,并且输出到了CSV文件中。

我还没学习提升爬虫速度,如何进行反爬虫,还有验证码处理,防封杀IP等知识,目前代码健壮性不够,还需要继续学习。哈哈哈哈

再次谢谢你。

@huochequan
Copy link
Author

你好。我又来了。我看了你的代码,貌似是采用维护IP代理池的方法,运行顺畅吗?

我最近在抓排名的时候,被亚马逊反爬虫了,返回了非目标页面。我打算开始弄一个cookies池和ADSL服务器。我在代码中发现了你的UA池,而且还有网站。我想请教一下,批量cookies有什么办法获取吗?另外,你在工作中使用的是哪种拨号服务器呢?能否推荐一下呢。

谢谢你能看完我的问题,望回复。谢谢

@dynamohuang
Copy link
Owner

抱歉,才休假回来看到。
使用代理的方式运行很顺畅 ,使用案例可以参见https://www.pricejot.com/ 上面的top pricejot drop业务。
非登录后才能看到的信息抓取,不建议使用cookie池,直接ua池和代理池就足够了,使用cookie不当的话反而容易暴露。

@jiangdi0924
Copy link

@huochequan 你好,我最近也在抓取amazon数据,现在使用UA池 触发了反爬验证;请问你能分享下你是如何绕过的么,谢谢

Repository owner deleted a comment from dwcooper Feb 23, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants