标签爬虫下的文章 - WangDi 's Blog

Spider 查漏补缺1

Python Spider查漏补缺小程序需要每天更新一下政府、出行类的咨询，让小朋友整理一批内容源的名单，根据1周的查询反馈，确定了实用的内容源，3个类目，大概20个数据源，昨天做了自动化爬取，由于大部分内容并不适合直接调用，还需要人工采编，所以只爬取了简单要素，标题、网址、发布时间生成excel并于每日9点半发送邮件到员工邮箱，再测试一周使用反馈，看后续要不要增加来源、正文、图片等字段。本文仅做查漏补缺整理 1. xlwt模块，处理excel的写入安装 pip install xlwt 新建workbook wb = xlwt.workbook 新建sheet sheet1 = wb.add_sheet("sheet_name",cell_overwrite_ok=True) 写入单元格 sheet1.write(row,col,"content") 保存至表格 wb.save('file_name') 来源：Python读写Excel，擅用xlwt模块 - 知乎 (zhihu.com) 2. 提取xml文件中的CDATA数据遇到了一个很神

技术 · 2021-09-08

Scrapy入门

Scrapy入门入门案例 1. 创建项目打开终端，进入目录，输入以下命令，会自动创建一个scrapy项目，其中mySpider为项目名称 scrapy startproject mySpider 创建后，会自动为mySpider项目生成如下目录： mySpider/ scrapy.cfg # 项目配置文件 mySpider/ # 项目模块目录 __init__.py items.py # 项目的目标文件 pipelines.py # 项目的管理文件 settings.py # 项目的设置文件 spiders/ # 爬虫目录 __init__.py spider1.py # 爬虫1 spider2.py # 爬虫2 ... 2. 制作爬虫进入mySpider目录，输入以下命令，会自动创建爬虫，其中baidu为爬虫名，baidu.com为爬取域的范围。 scrapy genspide

技术 · 2021-09-04

使用Fiddler抓包手机

一、设置PC端Fiddler 新下载的Fiddler默认只监http，所以需要设置监听https 菜单来Tools > Options > HTTPS 设置Fiddler远程链接切换至Connections页面，设置端口号，默认8888，点选Allow remote computers to connect选项，点击OK保存二、手机端设置首先手机和pc需要在同一网络内需要知道pc的ip地址，可通过命令提示符CMD，输入ipconfig查看网络的ipv4地址打开手机浏览器，输入pc的IP地址+8888端口号点击上图画线出链接，安装证书安装完毕后，打开手机wifi管理，修改手机wifi的代理点击代理选择手动服务器主机为pc的ip地址端口号为8888 保存关闭现在操作手机，就可以在pc端使用Fiddler抓包了关闭手机抓包通过以下方式都可关闭抓包手机wifi关闭代理删除手机安装的证书

技术 · 2021-01-26

百度站长工具批量提交链接工具

写在前面最近公司官网改版完成，需要做一些SEO优化，我这种渣渣只知道最基本的工作应该是提交链接，让百度蜘蛛来爬。百度官方案例文档由于文档中没有介绍python的案例所以整理了一下，代码如下： import requests import json # 获取目前可推送量 def get_remain(url): r = requests.post("http://data.zz.baidu.com" + url, url) remainresult = json.loads(r.text)['remain'] return remainresult # 打开sitemap文件 def open_fails(): data = open("cloudbestsitemap.txt","r").read() allurls = data.split('\n') nbs = len(allurls) if nbs/2000*2000 != nbs: all = nbs//2000 + 1 else:

技术 · 2020-09-23

BeautifulSoup库

1. 安装和文档安装： pip install bs4 中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 2.常见的对象 Tag：BeautifulSoup中所有的标签都是Tag类型，并且BeautifulSoup的对象其实本质上也是一个Tag类型。所以其实一些方法比如find、find_all并不是BeautifulSoup的，而是Tag的。 NavigableString：继承自python中的str，用起来就跟使用python的str是一样的。 BeautifulSoup：继承自Tag。用来生成BeaufifulSoup树的。对于一些查找方法，比如find、select这些，其实还是Tag的。 Comment：这个也没什么好说，就是继承自NavigableString。 contents和children：返回某个标签下的直接子元素，其中也包括字符串。他们两的区别是：contents返回来的是一个列表，children返回的是一个迭代器。 3. string和strings、s

技术 · 2020-07-16

All Rights Reserved. Login Theme Jasmine by Kent Liao