网站地图

当前位置: 震情作文网 > 我爱的家作文

从统计局采集最新的省市区县数据,纯js

时间:2022-06-22 12:52人气:来源: 未知

本文更新(移步查阅):
19-04-15 新采集了2018的省市区三级坐标和行政区域边界
19-03-22 采集了2018的城市数据
18-11-28 采集了2017的城市数据

数据下载 GitHub:
相关更新情况,请查阅我发布的其他文章,本文以下内容不再更新。

18-01-28早上6:30的火车,从三亚回老家,票难买啊。好激动~
声明:文中涉及到的数据和第三方接口、url仅供学习使用,请勿它用~

这几天都在磨着搭建本地测试环境,看到省市区数据表里面是空的,想着以前的老数据还是13年采集的,含省市区县4级数据共4.8万条,时间久了,使用过程中发现有些新的城市名称数据库中没有,县级数据从来就没有用到过,想着还是重新采集一份。

新采集的省市区数据有3589条,这次并没有把县级数据采过来,需要的时候再添加也挺好。

国家统计局统计标准《2016年统计用区划代码和城乡划分代码(截止2016年07月31日)》,这个是2017-05-16发布的,当前是最新的。

对于数据采集,根据工作需要,对于一些小的数据采集功能有些接触。因为对html和js熟些,很早以前就用IE浏览器对本地html文件支持任意跨域ajax请求数据、和支持读写Excel文件,就直接写一个html文件作为采集工具给别人使用,批量查询人员资料、考试结果什么的功能。所以采集省市区数据主要用的js。

打开网页省份的数据就有了,进入市级页面,然后进入区级页面,还可以进入县级页面。整个流程地址结构非常简单,数据格式也很好提取。

进入网页后打开浏览器控制台,执行下面代码,这段代码仅仅包含采集省市区的,把县级的阉割掉了,13年的老代码有县级的。很早以前写的代码,风格有点丑,不过能能正常使用就是好的,这个采集是“单线程的”,因为这些数据少,速度并不慢:


采集截图:

数据处理就简单些了,比如编号格式化、名称格式化等。

拼音标注:这个需要找一个接口对文字进行拼音翻译,只有一个要求:重庆能正常的翻译成chong qing即可,翻译成zhong qing的就low了。满足这个条件,百度上搜索到的翻译小网站80%就被干掉了。

浏览器中打开找到的翻译接口,截止到目前是能正常调用的,因为要用ajax请求数据,在页面里面就没有跨域的问题,查看网页源码,把token值记录下来,这个网站翻译请求需要带这个token,注意~刷新页面要重新获取:

拼音这个因为数据量比较多,采用了“4个线程”采集,先把第一步采集到的文件打开,把数据复制到打开的翻译网站浏览器控制台里面执行(相当于把数据导入),然后执行下面代码:


这时候会提示输入token,把刚才找到的token粘贴进去,然后就开始工作了:

还挺快的,2分钟多点全部翻译完成。

数据全部有了,导出成比较正常使用的格式,CSV最好了。这个导出比较简单,任意网页控制台把第二部保存的文件打开,复制数据到任意网页控制台,然后输入以下代码:


OK,数据全部搞完:

  1. id编号和国家统计局的编号基本一致,方便以后更新。

  2. id重复项目前是没有(已优化过了),不过以前采集后直接对统计局的编号进行简单缩短后会有重复现象(算是精度丢失)。

  3. 拼音前缀取的是第一个字前两个字母和后两个字首字母,意图是让第一个字相同名称的尽量能排序在一起。排序1:;排序2:,排序一胜出。

  4. 因为区名字是直接去掉市、区后缀,存在那么几对名字变得完全一样的,需要手动吧市区后缀加上,不然会产生小问题。

  5. 最终数据已上传了一份到CSDN,含所有代码和本文档:,GitHub下载最新数据

文章来源: http://www.everstarry.com文章标题: 从统计局采集最新的省市区县数据,纯js

原文地址:http://www.everstarry.com/wadjzw/11451.html

上一篇:东北梅花鹿放归和半散放

网站首页

下一篇:没有了



本类导航