数据收集技术

正在请人来整理,大家也可以在这里跟踪整理一下。

数据来源

  • DPI数据
  • 爬虫数据:能看到的可能部分不开放的,都可以用爬虫获得。
  • 银联数据,可能未来要进一步开放。
  • 海关的进出口数据,也很重要——相当详细。
  • SDK数据,通过手机app等收集的数据。
  • 运营商持有的大量数据,因为运营商持有你的访问请求。比如所谓的url数据。
  • 其他的诸如remote, sensing, satellite数据等
  • BAT数据也很多,但是也不开放。

爬虫技术

python实现:scrapy包

知乎:如何入门python爬虫
C博客专栏:Python爬虫入门教程
个人博客:Python爬虫系列教程


这个技术我认为很适合让初学者学一学,可以作为python入门课程之一 @xgdgsc