建筑领域大数据获取[通过python爬取房价信息](第一篇:数据获取)

2018年5月6日 0 条评论 1.14k 次阅读 0 人点赞

建筑领域大数据获取[通过python爬取房价信息](第一篇:数据获取)

这一篇CS土木工程师来带你玩python获取有关房价的大数据

(为了避免不必要的麻烦,以下的链接以及网站截图均已经处理,此文章仅作技术分享,如果您觉得侵犯了您的权益,可以反馈给dylnn@qq.com)

首先我们要理清楚问题的定义:

想要知道房价最可靠的地方是哪里?

答案是:物价局官方网站

那么下面的例子就从某市的物价局官网下载房价信息进行数据的获取

手动操作步骤:

  1. 我们打开某市的物价局官网
    http://wjj.某市.gov.cn/ptl/index.html
  2. 找到房价公开信息地址
    http://wjj.某市.gov.cn/ptl/def/def/index_1285_3887_ci_trid_4416419.html
  3. 查看每一批的房价公示信息
  4. 下载房价公示信息表格
  5. 其他后续操作(下一篇文章将进行讲解)

直接查看网页,发现为jsp页面,动态加载了列表信息,直接查看网页源码不行

通过查看元素分析

真正访问的数据获取的页面为:
http://wjj.某市.gov.cn/cisite_wjj.某市.gov.cn/def/def/index_1285_3936.jsp?recid=4416419

查看源码有我们想要的数据了

接下来就开始爬
一言不合上代码


这几行代码就把第一个页面源码搞到了

以下为输出:

接下来就是正则匹配找到每一个要爬的二级页面
已经找到了所有二级页面的链接以及标题:

接下来直接匹配子页面查找zip文件:

这个zip包所在位置是一个封装好的地方,于是直接从源码中找到iframe爬

接下来再去正则查找zip或者rar即可得到全部的zip文件

最后下载zip或者rar即可:

瞬间就全部下载完毕:

基于此,就已经有了某市最近的房价信息:

至于后续怎么分析数据,且听下回分解

今从晚向

这个人太懒什么东西都没留下

文章评论(0)

你必须 登录 才能发表评论