Java采集器编写-序

作者:小橘猫 | 创建时间: 2023-07-29
作为一个疯狂的变态,我写了好多采集器,但是步骤无非就是那几步,本来这些话是准备写在第一篇采集技术文章里的,但是总觉得不合适。所以就写了个序. 做Java今年过了就满6年了,这6年来打下了很多基础,所以写采集器还是得心应手的。 想写出一个采集...
Java采集器编写-序

操作方法

学会用firebug或者httpwatch抓包分析数据,我会用firebug多点。

学会分析网页节点

学会使用jsoup来从第3步返回的数据流中分析并获取我们想要的网页内容

学会简单的正则表达式来对第4步中得到的数据深加工。

学会使用xmlprc向wordpress或cnblogs等支持xmlrpc协议的网站发表帖子

完成某个网站模块的抓取和开源此项目。

温馨提示

这7条步骤是我大概在脑子里过流程时总结的,环环相扣,希望大家不要遗漏章节。
点击展开全文

更多推荐