首页 抖音热门文章正文

这类软件,你会去使用吗?

抖音热门 2025年08月18日 11:15 1 admin

文章导航:

软件的思考、功能介绍、希望能听到网友们的建议和吐槽

你会需要一款软件获取网页数据,或者有人为你提供数据获取服务吗?

这篇文章是我现在的一些思考。

如果您能看完文章,愿意提出批评,又或者愿意停留下来提出建议,我由衷地表示感谢!

我希望听到:

  • 您对软件功能的看法,褒贬的都可以;
  • 有哪些功能可以改进,可以增添怎样的功能;
  • 应对AI的浪潮,软件需要做怎样的改变;

如果您有什么网站的数据想获取,可以告诉我,我尝试帮你设计解析模板,并解析数据;

本文介绍的网页解析器工具软件,是前一段时间文章中描述的飞天喵网页解析器的开发版本上进行重构二次开发,解析核心没变,删除了暂时不需要的内容,增加了模板库管理,又将解析功能分离成服务。在软件的功能上又做了一些锦上添花的功能,比如软件主题切换、默认浏览器设置等。软件开始像一个产品了,具备了较为完备的基础解析能力。

这类软件,你会去使用吗?

主题选择

现在面临一个现实的问题,这款软件属于传统的基于预设解析规则,结合目标网页进行分析获取数据的类型。这种数据获取方式,在过去的确是很好的方式。但是,如今,AI大模型对网页数据获取的能力,变得轻而易举,对于传统解析软件来讲,冲击不小,这大概体现在几个方面:

  • 自然语义指令替代了规则范式;
  • 大模型对网站改版的适应速度更好,而且存在更改规则;
  • CV模型可以处理图片文字等非结构化内容;

这三点,任何一点的杀伤力都是不小的。首先,第一条,规则的定义对于一般人来说,还是存在一定的门槛,需要了解网页结构,元素选择器,元素获取方式等知识,即使我设计了这款软件,极大的方便了解析数据的难度,但也远远没有达到小白随手就能0零帧起手的程度。而自然语言则只需要把想要什么的需求直接说出来也能获得不错的结果。

其次,当目标网站进行改版,网页结构发生变化,基于规则驱动的解析器可能失效,这就需要人工去调整模板;而AI则没有这种限制,因为其不是基于规则的解析,当发现网站结构变化后,可以重新理解新的网页,尝试进行新的解析,适应性更强。

第三点,非结构化解析的能力是我的解析软件所欠缺的。只对网页文本信息解析,没有图片的识别和理解能力。

就在当下的技术背景下,基于规则的解析软件可能唯有在重复性确定页面结构的解析上,解析速度会相对高效,若不融入AI,必当被淘汰。软件未来会有怎样的形态,尚不可知。需要多看多思考。

【软件功能介绍】

模板库功能

是一个数据表为主体的用户界面,表格中每一行数据,都是一个已经设计好的解析模板,包含了模板名称,网址,解析规则等信息双击模板,跳转到模板设计模块,编辑模板信息。也可以在右键菜单中快捷修改。右键菜单中“获取数据”是快捷解析的入口,如果已经在浏览器中打开了目标网页,点击菜单项后直接解析网页获取数据。

这类软件,你会去使用吗?

模板库管理

模板设计

模板是由一条条的规则组成的规则集合,规则是获取网页数据的约定,一般是一些CSS或者XPATH的定义,传统解析的难点也在这里,能不能成功解析,关键在于选择器的设计。这不是三言两语说得清的。

为了更加直观的厘清要获取的数据,在操作交互上我设计成树形结构,需要的数据就添加进去即可,这里有一些灵活度,你想如何重新划分数据,可以在这里设计,你希望解析出来的数据按你想要输出结构组织,那么可以在模板设计时就规划好。

当然,越复杂的层级结构,会增加后期数据展平(扁平化)的难度,根据业务实际需要来选择。

这类软件,你会去使用吗?

模板设计

例如,上图是豆瓣读书排行榜的模板,排行榜名称和榜单数据封装一个在一个列表中,最终结果是一个包含13个榜单的数组。下图是获取到的数据进行数据展开后的结果。系统默认对返回数据进行3层展开。以适配大多数情况下的复杂数据结构的需要。

这类软件,你会去使用吗?

未展开的原始数据

上图是豆瓣读书排行榜获取的原始数据,可以看到13行数据,代表了13个榜单,第二列是榜单书籍,是一个列表,很显然,这不是业务中直接可以使用的数据。要是能够继续将列表数据展开就更好了。

软件提供了这样的功能,选择“展开嵌套数组”,会智能地将数据展开为我们想要的结构,如下图。

这类软件,你会去使用吗?

自动数据展开的结果展示

自动展开的榜单数据变成了130行,4列,分别是榜单(是什么榜单)、书名、榜单排名、书籍地址。

嵌套的数据结构,跟我们在设计解析模板如何组织数据有关,模板设计时越扁平,解析而来的数据也就越扁平。

软件的功能目前还比较简单,没有太多复杂的功能,只要模板有效,获取数据也是一键操作便可的。

有人需要获取某些网站数据,会想要这样的软件或者有人提供数据获取服务吗?

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动