功夫不负有心人的励志句子-塞下曲古诗卢纶第二首


2023年4月18日发(作者:九月九忆兄弟古诗翻译)python爬⾍之爬取笔趣阁⼩说
⽬录
前⾔
⼀、⾸先导⼊相关的模块
⼆、向⽹站发送请求并获取⽹站数据
三、拿到页⾯数据之后对数据进⾏提取
四、获取到⼩说详情页链接之后进⾏详情页⼆次访问并获取⽂章数据
五、对⼩说详情页进⾏静态页⾯分析
六、数据下载
前⾔
为了上班摸鱼⽅便,今天⾃⼰写了个爬取笔趣阁⼩说的程序。好吧,其实就是找个⽬的学习python,分享⼀下。
⼀、⾸先导⼊相关的模块
import os
import requests
from bs4 import BeautifulSoup
⼆、向⽹站发送请求并获取⽹站数据
⽹站链接最后的⼀位数字为⼀本书的id值,⼀个数字对应⼀本⼩说,我们以id1的⼩说为⽰例。
进⼊到⽹站之后,我们发现有⼀个章节列表,李白写敬亭山的5首诗 那么我们⾸先完成对⼩说列表名称的抓取
# 声明请求头
headers = {
\'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome乡愁是什么仿写句子 /88.0.4324.182 Safari/537.36\'
}
# 创建保存⼩说⽂本的⽂件夹
if not (\'./⼩说\'):
(\'./覆巢之下安有完卵的下一句 ⼩说/\')

# 访问⽹站并获取页⾯数据
response = (\'/book/1/\').text
print(response)
写到这个地⽅同学们可能会发现了⼀个问题,当我去正常访问⽹站的时候为什么返回回来的数据是乱码呢?
这是因为页⾯html的编码格式与我们python访问并拿到数据的解码格式不⼀致导致的,python默认的解码⽅式为utf-8,但是页⾯编码可能是GBK或者是GB2312等,所以我们需要让python代码很具页⾯的
解码⽅式⾃动变化
#### 重新编写访问代码
```python
response = (\'/book/1/\')
ng = nt_encoding
print()
\'\'\'
这种⽅式返回的中⽂数据才是正确的
\'\'\'
三、拿到页⾯数据之后对数据进⾏提取
当⼤家通过正确的解码⽅式拿到页⾯数据之后,接下来需要完成静态页⾯分析了。我们需要从整个⽹页数据中拿到我们想要的数据(章节列表数据)
1.⾸故事会民间故事大全免费 先打开浏览器
2.F12调出开发者⼯具
3.选中元素选择器
4.在页⾯中选中我们想要的数据并定位元素
5.观察数据所存在的元素标签

\'\'\'
根据上图所⽰,数据是保存在a标签当中的。a的⽗标签为lili的⽗标签为u送杜少府之任蜀州题材 l标签,ul标签之上为div标签。所以如果想要获取整个页⾯的⼩说章节数据,那么需要先获取div标签。并且div标签中包含了class属性,我们可以通过class属性获取指定的div标签,详情看代码
\'\'\'
# lxml: html解析库 html代码转成python对象,python可以对html代码进⾏控制
soup = BeautifulSoup(, \'lxml\')
book_list = (\'div\', class_=\'book_list\').find_all(\'a\')
# soup对象获取批量数据后返回的是⼀个列表,我们可以对列表进⾏迭代提取
for book in book_list:
book_name =
# 获取到列表数据之后,需要获取⽂章详情页的链接,链接在a标签的href属性中
book_url = book[\'href\']
四、获取到⼩说详情页链接之后进⾏详情页⼆次访问并获小楼夜听春雨 取⽂章数据
book_info_html = (\'/book/1/\' + book_url, headers=headers)
book_info_ng = book_info_nt_encoding
soup = BeautifulSoup(book_info_, \'lxml\')
五、对⼩说详情页进⾏静态页⾯分析
info = (\'div\', id=\'htmlContent\')
print()
六、数据下载
with open(\'./⼩说/\' + book_name + \'.txt\', \'a\', encoding=\'utf-8\') as f:已亥杂诗的意思
()
最后让我们看⼀下代码效果吧~

抓取的数据

到此这篇关于python爬⾍之爬取笔趣阁⼩说的⽂章就介绍到这了,更多相关python爬取⼩说内容请搜索以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持!

慈母手中线游子身上衣是什么意思-描写夏天的美景短句


更多推荐

笔趣阁app下载