本文更新(移步查阅):
19-04-15 新采集了2018的省市区三级坐标和行政区域边界
19-03-22 采集了2018的城市数据
18-11-28 采集了2017的城市数据数据下载 GitHub:
相关更新情况,请查阅我发布的其他文章,本文以下内容不再更新。
18-01-28早上6:30的火车,从三亚回老家,票难买啊。好激动~
声明:文中涉及到的数据和第三方接口、url仅供学习使用,请勿它用~
这几天都在磨着搭建本地测试环境,看到省市区数据表里面是空的,想着以前的老数据还是13年采集的,含省市区县4级数据共4.8万条,时间久了,使用过程中发现有些新的城市名称数据库中没有,县级数据从来就没有用到过,想着还是重新采集一份。
新采集的省市区数据有3589条,这次并没有把县级数据采过来,需要的时候再添加也挺好。
国家统计局统计标准《2016年统计用区划代码和城乡划分代码(截止2016年07月31日)》,这个是2017-05-16发布的,当前是最新的。
对于数据采集,根据工作需要,对于一些小的数据采集功能有些接触。因为对html和js熟些,很早以前就用IE浏览器对本地html文件支持任意跨域ajax请求数据、和支持读写Excel文件,就直接写一个html文件作为采集工具给别人使用,批量查询人员资料、考试结果什么的功能。所以采集省市区数据主要用的js。
打开网页省份的数据就有了,进入市级页面,然后进入区级页面,还可以进入县级页面。整个流程地址结构非常简单,数据格式也很好提取。
进入网页后打开浏览器控制台,执行下面代码,这段代码仅仅包含采集省市区的,把县级的阉割掉了,13年的老代码有县级的。很早以前写的代码,风格有点丑,不过能能正常使用就是好的,这个采集是“单线程的”,因为这些数据少,速度并不慢:
采集截图:
数据处理就简单些了,比如编号格式化、名称格式化等。
拼音标注:这个需要找一个接口对文字进行拼音翻译,只有一个要求:重庆能正常的翻译成chong qing即可,翻译成zhong qing的就low了。满足这个条件,百度上搜索到的翻译小网站80%就被干掉了。
浏览器中打开找到的翻译接口,截止到目前是能正常调用的,因为要用ajax请求数据,在页面里面就没有跨域的问题,查看网页源码,把token值记录下来,这个网站翻译请求需要带这个token,注意~刷新页面要重新获取:
拼音这个因为数据量比较多,采用了“4个线程”采集,先把第一步采集到的文件打开,把数据复制到打开的翻译网站浏览器控制台里面执行(相当于把数据导入),然后执行下面代码:
这时候会提示输入token,把刚才找到的token粘贴进去,然后就开始工作了:
还挺快的,2分钟多点全部翻译完成。
数据全部有了,导出成比较正常使用的格式,CSV最好了。这个导出比较简单,任意网页控制台把第二部保存的文件打开,复制数据到任意网页控制台,然后输入以下代码:
OK,数据全部搞完:
id编号和国家统计局的编号基本一致,方便以后更新。
id重复项目前是没有(已优化过了),不过以前采集后直接对统计局的编号进行简单缩短后会有重复现象(算是精度丢失)。
拼音前缀取的是第一个字前两个字母和后两个字首字母,意图是让第一个字相同名称的尽量能排序在一起。排序1:;排序2:,排序一胜出。
因为区名字是直接去掉市、区后缀,存在那么几对名字变得完全一样的,需要手动吧市区后缀加上,不然会产生小问题。
最终数据已上传了一份到CSDN,含所有代码和本文档:,GitHub下载最新数据
文章来源: 震情作文网 http://www.everstarry.com文章标题: 从统计局采集最新的省市区县数据,纯js
从统计局采集最新的省市区县数据,纯
本文更新(移步查阅):19-04-15新采集了2018的省市区三级坐标和行政区域边界19-03-22采集了20...(82)人阅读时间:2022-06-22东北梅花鹿放归和半散放种群冬季栖息地
【相似文献】中国期刊全文数据库前20条1刘振生,周晓禹,滕丽微,王晓明;半散放条件下梅花鹿春...(180)人阅读时间:2022-06-22“80后”:围城里的“甩手掌柜”
【相似文献】中国期刊全文数据库前20条1阿平;;为新郎新娘打工,我当新婚保姆月入3000[J];伴侣...(180)人阅读时间:2022-06-22不可思议的纯 CSS 实现鼠标跟随效果
直接进入正题,鼠标跟随,顾名思义,就是元素会跟随着鼠标的移动而作出相应的运动。大概...(148)人阅读时间:2022-06-22“一丈青”考
【相似文献】中国期刊全文数据库前20条1胡斌;;“一丈青”考[J];中华文化论坛;2007年01期2草莽...(164)人阅读时间:2022-06-22