博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫-爬取豆瓣图书TOP250
阅读量:6361 次
发布时间:2019-06-23

本文共 896 字,大约阅读时间需要 2 分钟。

import requestsfrom bs4 import BeautifulSoupdef get_book(url):    wb_data = requests.get(url)    soup = BeautifulSoup(wb_data.text,'lxml')    title_list = soup.select('h1 > span')    title = title_list[0].text    author_list = soup.select('div#info > a')    author = author_list[0].text.replace(" ", "").replace("\n", "")    score_list = soup.select('strong.ll.rating_num')    score = score_list[0].text    data = {        'title':title,        'score':score,        'author':author,    }    print(data)def get_all_book():    for i in range(0,250,25):        url = 'https://book.douban.com/top250?start=' + str(i)        wb_data = requests.get(url)        soup = BeautifulSoup(wb_data.text,'lxml')        href_list = soup.select('div.pl2 > a')        for href in href_list:            link = href.get('href')            get_book(link)get_all_book()

 

转载于:https://www.cnblogs.com/hiss/p/8870792.html

你可能感兴趣的文章
Java支付宝扫码支付[新]
查看>>
SpringMVC 拦截器 筛选
查看>>
第十八章:MVVM(八)
查看>>
点击表头切换升降序排序方式
查看>>
第26天,Django之include本质
查看>>
Java中静态变量和实例变量的区别
查看>>
秋名山老司机(详解)——bugku
查看>>
RED | Robot Framework集成开发环境
查看>>
育碧同 Mozilla 联手开发 AI 代码助手
查看>>
智库说 | 徐远:数字时代的城市潜力
查看>>
《JSP极简教程》jsp c:forEach用法
查看>>
WebSocket详解(六):刨根问底WebSocket与Socket的关系
查看>>
用 Go 写一个轻量级的 ssh 批量操作工具
查看>>
网站设计之合理架构CSS 架构CSS
查看>>
D语言/DLang 2.085.1 发布,修复性迭代
查看>>
感觉JVM的默认异常处理不够好,既然不好那我们就自己来处理异常呗!那么如何自己处理异常呢?...
查看>>
Java 基础 之 算数运算符
查看>>
Windows下配置安装Git(二)
查看>>
一个最简单的基于Android SearchView的搜索框
查看>>
铁路开通WiFi“钱景”不明
查看>>