好程序员Java教程之如何用Jsoup实现爬虫技术

Rayna ·

更新时间:2024-11-15

· 917 次阅读

　　1.Jsoup简述

　　 Java中支持的爬虫框架有很多，比如WebMagic、Spider、Jsoup等。今天我们使用Jsoup来实现一个简单的爬虫程序。

　　 Jsoup拥有十分方便的api来处理html文档，比如参考了DOM对象的文档遍历方法，参考了CSS选择器的用法等等，因此我们可以使用Jsoup快速地掌握爬取页面数据的技巧。

　　2.快速开始

1)编写HTML页面

　　页面中表格的商品信息是我们要爬取的数据。其中属性pname类的商品名称，以及属于pimg类的商品图片。

　　2)使用HttpClient读取HTML页面

HttpClient是一个处理Http协议数据的工具，使用它可以将HTML页面作为输入流读进Java程序中。可以从http://hc.apache.org/下载HttpClient的jar包。

　　3)使用Jsoup解析html字符串

　　通过引入Jsoup工具，直接调用parse方法来解析一个描述html页面内容的字符串来获得一个Document对象。该Document对象以操作DOM树的方式来获得html页面上指定的内容。相关API可以参考Jsoup官方文档：https://jsoup.org/cookbook/

下面我们使用Jsoup来获取上述html中指定的商品名称和价格的信息。

　　至此，我们已经实现使用HttpClient+Jsoup爬取HTML页面数据的功能。接下来，我们让效果更直观一些，比如将爬取的数据存到数据库中，将图片存到服务器上。

　　3.保存爬取的页面数据

　　1)保存普通数据到数据库中

　　将爬取的数据封装进实体Bean中，并存到数据库内。

　　2)保存图片到服务器上

　　直接通过下载图片的方式将图片保存到服务器本地。

　　4.总结

本案简单实现了使用HttpClient+Jsoup爬取网络数据，对于爬虫技术本身，还有很多值得深挖的地方，以后再为大家讲解,更多教程欢迎关注。

作者：好程序员IT

程之 java教程爬虫 jsoup JAVA 程序

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

linux下忘记mysql密码的几种找回方法（推荐）

Acacia 2021-06-08

654

CSS中单位px与em的区别(推荐)

Miki 2020-07-14

552

CSS文本超出div或者span时用省略号代替

Phylicia 2021-04-01

729

important的妙用解决firefox和ie的css兼容问题

Flower 2020-11-13

940

PHP lcfirst()函数定义与用法

Oriel 2020-12-18

630

正则表达式小脚本(对输入内容进行处理)

Octavia 2021-08-05

844

Java如何判断字符串中是否包含某个字符

Rhea 2023-07-18

1094

前端ajax请求+后端java实现的下载zip压缩包功能示例

Malinda 2023-07-20

1062

使用linux java shell启动脚本

Antonia 2023-07-20

SQL Server2022安装提示安装程序在运行作业UpdateResult时失败解决方法

Madeleine 2023-07-20

1841

解决MongoDB6.0报错:mongo不是内部或外部命令,也不是可运行的程序或批处理文件

Isoke 2023-07-20

809

mysql数据库存储过程之游标(光标cursor)详解

Cytheria 2023-07-20

142

C#中获取程序路径的几种方法及其区别说明

Valora 2023-07-20

1027

C#控件编程之文本框(TextBox)的使用

Phaedra 2023-07-20

1922

关于Java中RabbitMQ的高级特性

Gretel 2023-07-20

430

小程序获取用户名和头像完整代码

Alexandra 2023-07-20

1337

微信小程序视图层莫名出现竖线的解决方法

Rayna 2023-07-20

944

C++实现假装蓝屏整蛊小程序

Adelle 2023-07-20

740

Java基础技术之反射详解

Xylona 2023-07-21

1208

C#如何读写应用程序配置文件App.exe.config,并在界面上显示

Bonita 2023-07-21

1007

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座