【RPA】为了运营小红书,我做了一个素材收集机器人

多态苔藓
• 阅读 372

大家好,我是船长,一个AI+RPA探索者。如果你对以下内容或脚本感兴趣,欢迎加我VX:TXZO1006

最近有朋友需要收集小红书的爆款文案,想让我开发一个自动收集素材的RPA机器人。

细聊之下才明白是想构建一个自己的文案素材库,这样可以节约很多的素材收集时间。

刚好我最近也报名的了破局的小红书项目,想着自己不久后也会有这样的需求,于是就花了点时间,做了个RPA机器人出来。

下面内容就是就给大家分享一下这个RPA应用,如果你也有相关的素材收集诉求,可以尝试一下,希望会对各位同学有所帮助。

效果演示

RPA应用是从小红书的官网https://www.xiaohongshu.com来采集爆文素材,需要提前登录你的小红书账号,然后再启动RPA。

【RPA】为了运营小红书,我做了一个素材收集机器人

如何获得

如果你对这款RPA机器人感兴趣,想要搜集小红书素材,让你的内容创作变得更加轻松高效,可以关注船长的公众号“船长笔迹”,并回复“小红书笔记”,获取影刀RPA工具分享链接。或者也可以扫描下方二维码加船长VX来获取。

【RPA】为了运营小红书,我做了一个素材收集机器人

RPA设计思路

下面是船长在设计实现这个RPA机器人的一些总结,如果你对于RPA机器人的设计与实现比较感兴趣,可以继续往下看。

数据来源:小红书目前的采集途径主要有小红书APP和小红书网站两个来源,但是考虑到如果从APP采集数据会比较麻烦一些,要么需要连接手机,要么需要下载模拟器,所以放弃这个途径改为从小红书网站来获取数据。

RPA工具:常规的RPA或自动化脚本应用都是可以用的,无论是影刀、UiBot、或是Automa、其他RPA应用都是可以的,自己熟悉就好。这里船长用的是影刀。

采集流程:完全模仿正常用户的操作流程。

  • 打开小红书网站(已登录状态)

【RPA】为了运营小红书,我做了一个素材收集机器人

  • 在上方的搜索框输入搜索关键字
  • 点击搜索按钮,延时几秒钟,等待搜索页面加载完成

【RPA】为了运营小红书,我做了一个素材收集机器人

  • 获取搜索结果列表,循环每一条图文笔记

【RPA】为了运营小红书,我做了一个素材收集机器人

  • 点击每一条图文笔记,获取封面、标题、笔记内容、笔记地址、点赞收藏数等等信息

【RPA】为了运营小红书,我做了一个素材收集机器人

  • 将获取到的信息作为一行数据写入Excel中

【RPA】为了运营小红书,我做了一个素材收集机器人

  • 等待图文采集完成,关闭保存Excel

设计难点

  • 小红书网页图文列表是动态变化的,会随着页面上下滚动而发生变化,不可以直接循环采集

解决思路:RPA工具对于这种动态加载的网站内容好像都没有太方便的解决方案,影刀也是如此。

因为网页会随着上下滚动不断变化,可能影刀获取到图文的标题是A,结果一滚动,页面动态加载了标题为B的图文,那么影刀还是按照之前标题A的图文去采集数据,那么就会报错,采集不到A的数据了。

为了解决这个问题,需要监控一个数据,那就是页面是否发生了动态加载。如果在采集数据时发现页面动态加载了,那么就需要重新获取一遍图文列表,取得动态加载后的页面数据再采集图文内容。

这里船长用于判断页面是否发生了动态加载的标准,是滚动条的位置。只要滚动条动了,那就重新抓取数据。

【RPA】为了运营小红书,我做了一个素材收集机器人

此外,重新抓取数据还会带来一个小问题,那就是可能产生重复数据,需要去重,这个问题大家可以自行探索解决。

  • 小红书笔记存在图文和视频两种形式,页面结构是不一致的,获取封面时该如何兼容处理?

解决思路:因为影刀中提供了直接编写JS和Python脚本的功能,所以这里船长直接使用了JS脚本直接获取封面的地址。

大致的逻辑如下,先获取图文笔记的封面,如果没有获取到就尝试获取视频笔记的封面。

【RPA】为了运营小红书,我做了一个素材收集机器人

可能你不会写这些脚本代码,但是没关系,实际上这些代码是可以让AI替我们生成的,上面这么一大段内容都是用通义千问生成的。我们只需要在此基础上进行测试,修修改改就能用了。

【RPA】为了运营小红书,我做了一个素材收集机器人

总结

  1. 我们需要通过实践来丰富自己解决问题的经验,很多知识不能只懂,更要会用。船长在实现这个RPA机器人的过程中遇到很多的问题,这些问题从来不会出现在书本中,但是你踩过一遍坑后才会发现自己真的会用这个工具了。
  2. AI工具就像是一个全能型的助手,能够帮助你完成很多基础性的、重复性的功能,如果使用得当,对于效率的提升会非常明显。
  3. 希望船长分享的这个小红书RPA机器人能够对你所有帮助。

本文由mdnice多平台发布

点赞
收藏
评论区
推荐文章
Karen110 Karen110
4年前
小红书很难爬?最新爬取方法教给你啦~
Python进击者第184篇原创文章前言大家好,我是Kuls。之前写的那篇App抓包软件charles的配置说过,超过30在看,马上更下一篇。所以加班加点给大家写了今天这篇文章。本文将会带着大家完完整整的爬取小红书的全过程小红书需要做的前提工作就是装配好mitmproxy具体的配置过程,我建议大家参照崔大写的来进行安装https://zhuanlan.z
Easter79 Easter79
3年前
TiDB HTAP 助力小红书业务升级
作者介绍:张亿皓,小红书基础技术部资深开发工程师,负责数据库相关的研发和落地工作。TiDB在小红书业务场景的应用简介2017年,小红书已经开始在生产业务中使用TiDB,真正成体系的去做TiDB的落地是在2018年,为什么要选择使用TiDB?当今很多公司的业务都是数据驱动,面对小红书A
Easter79 Easter79
3年前
TiDB 在小红书从 0 到 200+ 节点的探索和应用
小红书使用TiDB历史可以追溯到2017年甚至更早,那时在物流、仓库等对新技术比较感兴趣的场景下应用,在2018年5月之后,我们就开始逐步铺开,延展到其他适合TiDB的场景中去。截止目前,小红书使用的TiDB节点数在200个,未来也有更大扩展空间。本文根据近两年TiDB在小红书的落地过程,和大家一起探讨一下,小红书在新数
Immerse Immerse
5个月前
掌握这个API,让你的网页展示效果提升10倍
不用CSS硬改,不用第三方库,原生API轻松搞定小红书同款效果,前端开发者必学的网页交互技巧!
幂简集成 幂简集成
2个月前
无需API接入!5大国产AI大模型文本生成能力实测对比(附试用入口)
本报告以小红书风格文案为例,针对5款国产顶流AI大模型(Deepseek,通义千问,KimiGPT等),通过API试用工具进行横向评测。首创对比方式:无需API接入!单条指令同步触发5大模型API,确保测试条件完全一致。重点考察:风格匹配度、核心性能指标、
幂简集成 幂简集成
1个月前
无需API接入!5大国产AI大模型API文本生成能力实测对比(附试用入口)
本报告以小红书风格文案为例,针对5款国产顶流AI大模型(Deepseek,通义千问,KimiGPT等),通过API试用工具进行横向评测。首创对比方式:无需API接入!单条指令同步触发5大模型API,确保测试条件完全一致。重点考察:风格匹配度、核心性能指标、
Json根据商品ID获取小红书笔记评论API返回值说明,小红书API接口
小红书笔记评论是指用户对于在小红书上发布的购物笔记进行的评价和评论。用户可以在购物笔记页面下方对笔记进行评论,并与其他用户进行互动和交流。在小红书的购物笔记评论中,用户可以表达自己对笔记内容的观点、感受和疑问。他们可以提出问题,寻求更多细节或购买建议。他们
想天浏览器 想天浏览器
1年前
如何搭建一个类似小红书的社区网站?
社交电商是一种结合社交媒体和电子商务的商业模式。它利用社交媒体的社交功能和用户互动特性,将销售和购物行为融入社交平台中,提供社交化的购物体验。社交电商网站,用户可以通过社交功能和用户互动,且社交电商基本都是围绕商品来开展沟通的,比如对商品的介绍,测评,使用