Python Spider查漏补缺 小程序需要每天更新一下政府、出行类的咨询,让小朋友整理一批内容源的名单,根据1周的查询反馈,确定了实用的内容源,3个类目,大概20个数据源,昨天做了自动化爬取,由于大部分内容并不适合直接调用,还需要人工采编,所以只爬取了简单要素,标题、网址、发布时间生成excel并于每日9点半发送邮件到员工邮箱,再测试一周使用反馈,看后续要不要增加来源、正文、图片等字段。 本文仅做查漏补缺整理 1. xlwt模块,处理excel的写入 安装 pip install xlwt 新建workbook wb = xlwt.workbook 新建sheet sheet1 = wb.add_sheet("sheet_name",cell_overwrite_ok=True) 写入单元格 sheet1.write(row,col,"content") 保存至表格 wb.save('file_name') 来源:Python读写Excel,擅用xlwt模块 - 知乎 (zhihu.com) 2. 提取xml文件中的CDATA数据 遇到了一个很神
Scrapy入门 入门案例 1. 创建项目 打开终端,进入目录,输入以下命令,会自动创建一个scrapy项目,其中mySpider为项目名称 scrapy startproject mySpider 创建后,会自动为mySpider项目生成如下目录: mySpider/ scrapy.cfg # 项目配置文件 mySpider/ # 项目模块目录 __init__.py items.py # 项目的目标文件 pipelines.py # 项目的管理文件 settings.py # 项目的设置文件 spiders/ # 爬虫目录 __init__.py spider1.py # 爬虫1 spider2.py # 爬虫2 ... 2. 制作爬虫 进入mySpider目录,输入以下命令,会自动创建爬虫,其中baidu为爬虫名,baidu.com为爬取域的范围。 scrapy genspide
一、设置PC端Fiddler 新下载的Fiddler默认只监http,所以需要设置监听https 菜单来Tools > Options > HTTPS 设置Fiddler远程链接 切换至Connections页面,设置端口号,默认8888,点选Allow remote computers to connect选项,点击OK保存 二、手机端设置 首先手机和pc需要在同一网络内 需要知道pc的ip地址,可通过命令提示符CMD,输入ipconfig查看网络的ipv4地址 打开手机浏览器,输入pc的IP地址+8888端口号 点击上图画线出链接,安装证书 安装完毕后,打开手机wifi管理,修改手机wifi的代理 点击代理选择手动 服务器主机为pc的ip地址 端口号为8888 保存关闭 现在操作手机,就可以在pc端使用Fiddler抓包了 关闭手机抓包 通过以下方式都可关闭抓包 手机wifi关闭代理 删除手机安装的证书
写在前面 最近公司官网改版完成,需要做一些SEO优化,我这种渣渣只知道最基本的工作应该是提交链接,让百度蜘蛛来爬。 百度官方案例文档 由于文档中没有介绍python的案例 所以整理了一下,代码如下: import requests import json # 获取目前可推送量 def get_remain(url): r = requests.post("http://data.zz.baidu.com" + url, url) remainresult = json.loads(r.text)['remain'] return remainresult # 打开sitemap文件 def open_fails(): data = open("cloudbestsitemap.txt","r").read() allurls = data.split('\n') nbs = len(allurls) if nbs/2000*2000 != nbs: all = nbs//2000 + 1 else:
1. 安装 和文档 安装: pip install bs4 中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 2.常见的对象 Tag:BeautifulSoup中所有的标签都是Tag类型,并且BeautifulSoup的对象其实本质上也是一个Tag类型。所以其实一些方法比如find、find_all并不是BeautifulSoup的,而是Tag的。 NavigableString:继承自python中的str,用起来就跟使用python的str是一样的。 BeautifulSoup:继承自Tag。用来生成BeaufifulSoup树的。对于一些查找方法,比如find、select这些,其实还是Tag的。 Comment:这个也没什么好说,就是继承自NavigableString。 contents和children:返回某个标签下的直接子元素,其中也包括字符串。他们两的区别是:contents返回来的是一个列表,children返回的是一个迭代器。 3. string和strings、s
Vendor
不爱看书、不爱看电影、每说三句话就撒两次谎