爬虫大佬们，指点苦命人应付ai赋能爬虫🙏

编辑部 2026-05-12T12:53:40.359793 9409 阅读 tech

本人基本vibe coding，编码渣渣，顶多python入门水平，本人以前是vibe软件开发，做一些小工具之类的，对网页分析等了解不多。这几天开始接触一些网络数据爬取分析的需求，基本要求十万条级别的数据量，且分数据类型（社交平台用户评论、专业报告、新闻报道、政府公告等）和数据来源进行爬取，最后还...

本人基本vibe coding，编码渣渣，顶多python入门水平，本人以前是vibe软件开发，做一些小工具之类的，对网页分析等了解不多。

这几天开始接触一些网络数据爬取分析的需求，基本要求十万条级别的数据量，且分数据类型（社交平台用户评论、专业报告、新闻报道、政府公告等）和数据来源进行爬取，最后还要分析。

基本需求是根据一个【确定议题】（对某产品的市场情况分析、社会热点的舆情监测、事业/政策反响调研之类的）进行泛爬取，最终形成超大数据集，对大数据进行分析，以回应议题需要。爬取量大但短期内完成后就不爬了，等有新议题再启动。

我本人觉得这很像现在agent工具里的web search功能，ai根据一个未知点主动搜索相关信息加以分析应用，但是靠web search完全无法做到大规模真实数据爬取。

我个人构思是这样，web search完成不了，那能不能写个超级web search：
1、让ai有能力完全权限利用设备（浏览器，codex内置浏览器，终端，用户oauth等等都可利用）
2、自主形成爬取方案（数据类型及比例、来源及比例、关键词等等）后并行落实执行
3、ai负责自主动态分析站点特征，不断形成并优化专精爬虫，对各站点形成专精工作区及方案；具体数据爬取交给形成的方案（专精爬虫，必要时可接入ocr/视觉识别、用于格式化的小llm或免费llm、嵌入等非llm模型）执行，ai可以再验证监督执行过程和调优
4、多途径（api、模拟浏览器、ocr等视觉分析）高效去重爬取网络数据，并整合落实到本地（scv, xlsx等）

最后也有可能没必要写成程序，就直接在工作区内开codex下指令成不成呢？

求问佬们，现在的网络数据爬取都有什么新技术呢？有ai 赋能的先进实例工具或工作方案吗？短期大并行提效方案？就我这个需求有佬了解吗？

12 个帖子 - 10 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

爬虫大佬指点苦命应付一个 AI IT

爬虫大佬们，指点苦命人应付ai赋能爬虫🙏

[程序员] vebe coding 时代，是不是单体架构比微服务架构更合适 ？

[学英语] 靠“敲键盘”背单词，好像比单纯看单词更容易坚持

相关推荐

[程序员] vebe coding 时代，是不是单体架构比微服务架构更合适？