博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
批量爬取百度贴吧
阅读量:5035 次
发布时间:2019-06-12

本文共 895 字,大约阅读时间需要 2 分钟。

 
# 带入需要使用的包 from urllib import request, parse import os # 基础知识 # 变量赋值 # 字符串赋值  爬取的关键字 kw = 'lol' # 数值赋值   爬取的页数范围 start = 1 end = 4 # 输出 # print(kw, start, end) # 声明需要爬取的连接 base_url = 'https://tieba.baidu.com/f?' # 创建文件夹 存放页面数据 # os.makedirs(kw) # 声明一个字典 qs = {'kw': kw} # 构造pn查询参数 for i in range(start, end + 1):     # print(i)     # 算出pn和i之间的关系     # 1 --> 0     2 --> 50     3 --> 100   4 --> 150     pn = (i - 1) * 50     qs['pn'] = str(pn)     # 将字典 转换为 kw=lol&pn=0 字符串     qs_data = parse.urlencode(qs)     # 构建一个完整的url地址  然后进行请求  返回 https://tieba.baidu.com/f?kw=lol&pn=100     full_url = base_url + qs_data     # 发起请求 并接受响应     response = request.urlopen(full_url)     # 读取响应内容     html = response.read().decode('utf-8')     # 存入相应的文件当中     with open(kw + '/' + str(i) + '.html', 'w', encoding='utf-8') as f:         f.write(html)
 

 

转载于:https://www.cnblogs.com/zhangboblogs/p/10108894.html

你可能感兴趣的文章
第8讲++数据表和约束的创建(实训)
查看>>
学习《Numpy快速教程
查看>>
tomcat下部署应用helloworld
查看>>
Microsoft.ReportViewer winform web 部署问题
查看>>
Html总结
查看>>
Winform远程更新代码
查看>>
SpagoBI 论坛
查看>>
Linux Notes
查看>>
支付那些小事
查看>>
int to string & string to int
查看>>
combobox的那几个change事件
查看>>
java.util中,util是什么意思
查看>>
[译]Professional ASP.NET MVC3(01)-Chapter 1:Getting Started(上)
查看>>
windows硬盘读写测试命令及运行结果
查看>>
[NOIP提高组]金明的预算方案
查看>>
LeetCode 881.救生艇(C++)
查看>>
dedecms织梦判断当前页面是首页、栏目页还是文章页
查看>>
Java压缩技术(二) ZIP压缩——Java原生实现
查看>>
团队项目之需求规格说明书
查看>>
【转】令人印象深刻的廣告詞
查看>>