博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫(转)
阅读量:5738 次
发布时间:2019-06-18

本文共 1106 字,大约阅读时间需要 3 分钟。

1 # -*- coding: utf-8 -*- 2 #--------------------------------------- 3 #   程序:百度贴吧爬虫 4 #   版本:0.1 5 #   作者:why 6 #   日期:2013-05-14 7 #   语言:Python 2.7 8 #   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。 9 #   功能:下载对应页码内的所有页面并存储为html文件。10 #---------------------------------------11  12 import string, urllib213  14 #定义百度函数15 def baidu_tieba(url,begin_page,end_page):   16     for i in range(begin_page, end_page+1):17         sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名18         print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'19         f = open(sName,'w+')20         m = urllib2.urlopen(url + str(i)).read()21         f.write(m)22         f.close()23  24  25 #-------- 在这里输入参数 ------------------26 27 # 这个是山东大学的百度贴吧中某一个帖子的地址28 #bdurl = 'http://tieba.baidu.com/p/2296017831?pn='29 #iPostBegin = 130 #iPostEnd = 1031 32 bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))33 begin_page = int(raw_input(u'请输入开始的页数:\n'))34 end_page = int(raw_input(u'请输入终点的页数:\n'))35 #-------- 在这里输入参数 ------------------36  37 38 #调用39 baidu_tieba(bdurl,begin_page,end_page)

 

转载于:https://www.cnblogs.com/xingmeng/p/3745703.html

你可能感兴趣的文章
延禧攻略邀您领取66
查看>>
zabbix批量监控URL
查看>>
python一键去抖音视频水印工具,请勿用于学习以外的用途!
查看>>
JEECG 上传插件升级-代码生成器
查看>>
CentOS7修改网卡名称为eth开头
查看>>
maven+eclipse complier Dynamic Web Module 3.0 requires Java 1.6 or newer.
查看>>
eyoucms目录结构
查看>>
网络公司易优专员介绍几种SEO工具
查看>>
关于Java线程池异常不打印问题
查看>>
jQuery插件的使用方法
查看>>
Python学习笔记-基础篇
查看>>
4款超强大素材资源网站,收藏起来刻不容缓!
查看>>
Linux的.a、.so和.o文件
查看>>
浅谈数据标注平台运营模式
查看>>
怎么解决汽车制造业CAD图纸安全外发问题?
查看>>
Tech 助力Fin ,大数据风控系统赋能掌众金服!
查看>>
关于uiview
查看>>
sublime text3使用心得
查看>>
文字转换成语音,这里有简单的方法
查看>>
ZooKeeper 概念篇:你不知道的ZooKeeper,网友回复:精辟
查看>>