手抄报 安全手抄报 手抄报内容 手抄报图片 英语手抄报 清明节手抄报 节约用水手抄报

写一个java爬虫

时间:2024-10-13 02:27:58

1、首先我们先来介绍一下我们需要import的jar包吧:1.org.jsoup,这个是一个java解析html的包,它的作用是解析网页的代码,这个功能特别强大以至于没有任何网站可以做到反解析。2.java.io,这一部分其实是不需要的,我用到这个只是因为我先把网页保存在本地,再进行网页代码的解析。至于为什么要这么做,会在之后的说明中提到。3.java.net 这个包是java的网络包,我们必须依赖于这个包来使用java连接网络。

写一个java爬虫

2、我们先来讲解一下怎么把网上的html保存在本地,我们先建立我们的输入输出流buffer,然后在建立一个url来获取我们的所需要爬的网页,注意我们是采用ipad的动态访问来实现的,以防止反爬虫对我们的阻挠。最后我们生成的buffer里面存放了我们的html代码,然后保存在本地。

写一个java爬虫

3、我现在来和大家说说为啥保存在本地吧,直接在网页上反复的爬我们需要的数据,难免会引起服务器的警觉,就和你看到一个漂亮的姑娘一样,一直盯着别人打量总会被发现,但是偷偷拍张照回家慢慢看就没啥事,啊哈哈开个玩笑,不过大体意思就是这样的。

4、而这一部分讲解的就是如何获取html文件里面有用的信息了,众所周知,html里面的代码是占了很大一部分的,我们要从中获取对我们有用的文字才是我们所要做的事情。而这一段代码就通过分析html里面的标签,比如<A></A>这些标签来分析复杂代码中富有价值的文字信息以及超链接。当然,获取什么标签内的内容可以自行选择。

写一个java爬虫
写一个java爬虫

5、最后,让我们来尝试着爬我们需要的网站吧:下图为运行方法及爬虫网页我们要爬的是这个网页的抬头:

写一个java爬虫
写一个java爬虫

6、我们的爬虫结果如下:嗯,看来是爬虫的相当的成功,各位读者感兴趣的话可以自己尝试下java爬虫,相信我,这个功能是真的很强大,也很简单。

写一个java爬虫
© 手抄报圈