提取学校地址信息到EXCEL表格整理打印

MK.png

1. 使用 html2md.py 脚本把网页转换成 Markdown 文本

./html2md.py  'https://www.ruyile.com/xuexiao/?a=183&t=3&p=1' >x01.txt
./html2md.py  'https://www.ruyile.com/xuexiao/?a=183&t=3&p=2' >x02.txt
...
./html2md.py  'https://www.ruyile.com/xuexiao/?a=183&t=3&p=14' >x14.txt

2. 因为脚本是在容器中运行,所以先打包,下载到Windows下合并

$ tar cvf x.tar x*.txt
# x01.txt + x02.txt + x03.txt + x04.txt + x05.txt + x06.txt + x07.txt + x08.txt + x09.txt + x10.txt + x11.txt + x12.txt + x13.txt + x14.txt
$ sz x.tar 
# windows 下解压tar,cmd命令合并成一个文件
copy x01.txt + x02.txt + x03.txt + x04.txt + x05.txt + x06.txt + x07.txt + x08.txt + x09.txt + x10.txt + x11.txt + x12.txt + x13.txt + x14.txt  new.txt

3. VS code 中使用 正则语法多行替换

####s+[(.*)].*nn(电话.*)n(邮编.*)n(地址.*)n
X选择Xt$1t$2t$3t$4

REG.png

4. 使用文本排序后,剔除垃圾信息,就可以复制到EXCEL使用

  • Excel 里按邮编和名称排序,学校就按县级市分类整理好了

5. 转换成PDF打印使用

PDF.png

相关推荐: 在 Debian 11 Bullseye 上安装 Proxmox VE

受支持的 Proxmox VE 服务器的安装应通过 裸机 ISO 安装程序完成。在某些情况下,在正在运行的 Debian Bullseye 64 位上安装 Proxmox VE 是有意义的,特别是如果您想要自定义分区布局。对于此操作方法,任何官方 Bullse…

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论