本人基本vibe coding,编码渣渣,顶多python入门水平,本人以前是vibe软件开发,做一些小工具之类的,对网页分析等了解不多。
这几天开始接触一些网络数据爬取分析的需求,基本要求十万条级别的数据量,且分数据类型(社交平台用户评论、专业报告、新闻报道、政府公告等)和数据来源进行爬取,最后还要分析。
基本需求是根据一个【确定议题】(对某产品的市场情况分析、社会热点的舆情监测、事业/政策反响调研之类的)进行泛爬取,最终形成超大数据集,对大数据进行分析,以回应议题需要。爬取量大但短期内完成后就不爬了,等有新议题再启动。
我本人觉得这很像现在agent工具里的web search功能,ai根据一个未知点主动搜索相关信息加以分析应用,但是靠web search完全无法做到大规模真实数据爬取。
我个人构思是这样,web search完成不了,那能不能写个超级web search:
1、让ai有能力完全权限利用设备(浏览器,codex内置浏览器,终端,用户oauth等等都可利用)
2、自主形成爬取方案(数据类型及比例、来源及比例、关键词等等)后并行落实执行
3、ai负责自主动态分析站点特征,不断形成并优化专精爬虫,对各站点形成专精工作区及方案;具体数据爬取交给形成的方案(专精爬虫,必要时可接入ocr/视觉识别、用于格式化的小llm或免费llm、嵌入等非llm模型)执行,ai可以再验证监督执行过程和调优
4、多途径(api、模拟浏览器、ocr等视觉分析)高效去重爬取网络数据,并整合落实到本地(scv, xlsx等)
最后也有可能没必要写成程序,就直接在工作区内开codex下指令成不成呢?
求问佬们,现在的网络数据爬取都有什么新技术呢?有ai 赋能的先进实例工具或工作方案吗?短期大并行提效方案?就我这个需求有佬了解吗?
12 个帖子 - 10 位参与者