python3+urllib打造新浪微博爬虫,真的很easy

  • 时间:
  • 浏览:3
  • 来源:大发PK10APP下载_大发PK10APP官方

最近试了一下网页版的(weibo.com)和移动端的(m.weibo.cn),网页版的解析一大堆网页人太好是太麻烦,移动端只需要请求,直接返回json数据,这里对这两种措施做了下优缺点对比

源码搞笑的话,想看 面....

该用户的uid为5901021570,url是为啥么拼的不必再多说了吧。

关于源码,暂时还没想放出来,可能不开心,而且人人太好这人 也没哪多少难度,基本不能本人动手写,单线程池池写完再改成线程池池池的,很easy的...

人太好思路很简单,而且通过urllib模拟请求登录、发请求,而且解析json,存数据库...当然线程池池还有所以优化的地方,完后 慢慢改进

当然我可能插进github了,地址暂时先不放,考验你找资料的能力了....



post请求,当然是看看他发了哪多少数据啦....

看看这人 url[点开试试?]

这里就只做用户关注的抓取示例,而且 的本人去依葫芦画瓢。

最近在看环法,本人也是个骑行爱好者...现在天热...完整篇 都是能出去骑了,很绝望。

就以环法自行车赛这人 用户的关注信息为例吧

过几天再把网页版的抓取过程插进来,心情好点再说...

现在用的是移动版,配了六个微博账号,六个线程池池在跑,电脑扔在寝室跑,不敢说一天多少多少数据,但现在保持在一天用户50W、微博20W左右的数据量...只跑了5天 ...

再看看response的数据

当然还有分页,本人往下拖,让人想看 url上会多了个page的参数,那个而且页号



返回了用户登录的情况汇报,uid...

让人访问 www://weibo.com/u/ + 上图的uid加一波微博关注(真无耻,强行吸粉)

关于微博移动端的抓取就暂时说没办法 多吧,说实话,移动端还是比较简单的,线程池池池不能学会英语,只开了六个,日抓取量可能达到了50W用户+20W微博了,完后 打算改成分布式的...

登录就没办法 轻松的学会英语了,用户信息、微博、粉丝、关注的套路完整篇 都是一样,分析拦截的请求,看哪个请求是返回数据的,而且本人模拟这人 请求,就ok啦。

让人直接复制这人 请求,在浏览器上打开。

不能想看 这人 请求返回的而且他的关注用户的json数据,而python中的json模块直接解析,很方便吧。

数据都拿到了,还等哪多少?解析完后 想为啥么存为啥么存吧。

看看写的模拟登录不能用,当然要测试啦,这人 测试当然有了你本人写啦,反正我可能测试过了,可能没办法 了意外搞笑的话,你的测试会不通过,如下URLError

现在让人借助chrome的工具栏看请求,windows下的快捷键是F12

查看他的关注->完整篇 关注。让人发现浏览器发了如下的请求

密码没办法 做任何加密外理,嘻嘻,很简单吧,现在也不模拟个post请求就行了。是完整篇 都是很简单?

哎呀,好烦,又报错,为啥么办呢,stackoverflow欢迎你,传送门https://stackoverflow.com/,有错本人查,stackoverflow能外理99%你遇到的问题图片。

写爬虫的套路而且,访问页面,分析页面行为,完整篇 都是但是页面的每一有有六个 操作都发了哪多少样的请求,返回了哪多少数据,记住这人 套路,还有哪多少爬虫只有写。

打开m.weibo.cn,打开fiddler 4,开启https请求的捕捉,我想知道为啥么开自行google

当你输入好账号、密码点击登录的完后 ,看fiddler4捕获的请求