基于Coze开发网页数据采集助手

AI作画软件中文版 2025-07-27 16:55:45
 
今天给大家分享一下如何基于扣子开发网页数据采集助手。首先我们来看一下效果图,比如说我们想要做一下这个功能,我现在输入一个文章的关键字,然后希望这个工作流可以帮我们去目前一些网站上面抓取一些数据,然后把它变成一篇文章。然后我们针对这个文章的话,可以做一些改写。就比如说我们要做一些小红书的爆款文案改写,那我不想把整个文案复制过来,粘贴到这里面去改写,我只是想给他一个UIL连接,然后他自动的就帮我分析小红书某些文章,它的一些包括一些热点,一些火热程度?包括整个文章的结构,我都希望分析下来,或者是某某短视频平台,我想把整个短视频里面的一些脚本,也得做一些分析改写,比如说我们后面要做这么一个应用的话,怎么来实现?今天的话就给大家来从0到1来搭建。
 
好,首先我们来做一个一个整个结果的一些过程的一些描述。我们如果说想做这么一个功能的话,应该是一个什么流程?首先这个里面我们会用到扣子的工作流,包括一些代码的节点,还有一些搜索的一些插件。
 
首先我们需要说一下这个实现方案,首先我们要需要使用这个搜索插件去检索数据。比如说你给他一个UIL,也就是我们这个地址,给他一个小红书的一个链接,那他去这个上面去搜索这个数据,搜索到这个数据之后,完了之后他需要去抓取这个数据里面的一些逻辑。但是你首先你去先找到小红书的一些链接,对不对?比如说他去小红书搜这个里面到底有哪一些文章,你可能会搜出一堆文章出来。那一堆文章里面其实每一篇文章对应都有一个UIL地址。那我希望比如说我只抓取第一条的第一条的这个数据,那你希望抓前三条的话,你可以把参数改一下,改成前三条,就是top 3。我把前三个热点度比较高的文章抓出来,抓出来完了之后的话可以做什么呢?可以做一些内容的一些处理,就是把内容的关键词抓出来,抓出来之后干嘛呢?通过这个大模型,就AI大模型的这个能力,帮去把文案做一个改写,改写之后文案再输出,输出完之后,如果说你想跟做更复杂的功能,比如说你想去生成一篇一个视频,生成一个什么东西,就整个工作流搭建起来的话,你就可以做很多丰富的一个功能。
 
所以说今天给大家讲的是一个入门的,就是一个我们只分析UIL里面的内容,然后把内容拿到,去做一些内容的一些处理,或者做一些改写。好,先把这个流程给它串清楚,也就是需要这么一个节点。这个就是下面的话我们就带他来实战,就是基于整个一个工作流的一个逻辑当用户输入这个内容之后,这种体的话就是开始去调用这个工作理由去处理任务,并返回用户一个结果。所以说首先我们首先登录到cos的一个官网上面去,打开这个工作空间,打开我们左边有一个资源库的这么一个菜单,然后在右上角有一个资源加号,点开这个工作流。比如说我们创建一个叫handle such task,就用这个名称task,我们叫workflow work,这个叫处理搜索,叫处理web search,就网页搜索的这么一个work flow。这个工作流的一个描述就是根据搜索结果查看第一个链接内容并返回。这就是我们大致要做的一个内容。
 
那创建完成之后,大家看啊,首先这个工作流这里有两个节点,一个是开始节点和结束节点,那我们接下来要创建这个网页搜索,因为我们要抓取内容,抓取内容你首先肯定有得有一个插件去给你搜索内容是吧?然后包括执行代码一些逻辑,就是说我们会加一些插件节点。如果大家对这个工作流不太清楚的话,可以听一下我之前讲的一期关,专门讲了这个扣子工作流怎么来使用,那个是一个入门的,这里的话我们就带大家直接去实现了。
 
首先按照我们刚刚提到那个流程,就是第一步你得有干嘛呢?你得有一个搜索是吧?搜索插件怎么样实现的呢?那我们添加这个插件,插件里面第一个B搜索就是我们要用的这个插件,把这个加进来,这个插件下面有两个工具,一个是冰的这个搜索引擎,还有一个是轻量版的,两个其实都可以用,看大家想用哪个,我们就用第一个就可以了,然后把这个插件内容加进来。
 
首先这里大家看啊,这里我们需要做的一个事情就是用户最开始输入那个提示词,我们要把这个参数传给这个插件,怎么传呢?首先把它连起来,连起来之后点击这个插件,在这个地方有一个query,就是用这个插件最主要的一个参数就是这个快速查询内容。就跟你去搜索引擎上面搜内容一样,你首先得把这个查询的内容参数给它定义好啊。
 
定好之后大家看啊,在这个地方我们引入引入开始一个输出,就是我们最开始输入节点里面有个参数,就是我们对话的时候,你要传一个参数进来,这个参数的话我们直接传给这个并搜索的这个插件。然后这个插件完了之后,他最终会给一个什么东西呢?他会给一个结果响应结果响应我们要拿到这个结果响应干嘛呢?去执行一个代码的一个逻辑,就是因为我们刚刚提到要什么要去提取第一条数据的一些链接,因为我们刚刚就提到要用代码去,因为你搜索它会搜索一堆这个UIL地址,地址对应的一些内容。所以说这个里面我们需要找到第一条数据的链接,并且去解析这个内容,那怎么办呢?大家看我们在这里添加一个节点叫什么呢?叫代码这个代码节点的话大家看啊,在这个地方我们把这个两个插件,一个是搜索插件,一个是代码节点。
 
把这两个东西连起来,连起来之后大家看啊就是代码节点,它需要拿到搜索这个插件返回的内容。所以说代码节点这里有一个输入参数,这里要选择这个bin web search这个插件输出的一个结果。也就是说你拿的并我给大家演示一下,就是这个并点com大家看你去搜,比如说我说说AI最新资讯,你就直接去搜,大家会去搜,然后切一下语音。
 
选这个,有中文吗?看一下。好,大家看啊,我就搜这个AI最新资讯,我就搜了一堆。大家看有很多文章对不对?你看文章对应下面都是一个链接的,是吧?也就是说我搜出这一堆东西出来,那我现在比如说我想要拿这个链接里面的这个资讯,我现在拿到这个里面的信息怎么办呢?这个就是这个逻辑所在,就是在这个代码节点里面大家可以看到,我在这个input里面我要拿到这个响应是吧?
 
那这个响应怎么来的呢?就是这个插件里面有一个变量,这个搜索完之后他会给你一个变量。就是这个web s里面,我们滑到最下面有一个东西叫做好看一下,放到最下面有一个叫response for modern,它会给你一个响应的内容,就说白了是一段这样的一报文,他会把所有收到内容会给你拼装成一个格式。我来看一下这个格式怎么样,首先把这个跑一下,比如说我现在输入一个AI,资讯新闻,我觉得对比这里的我就直接拿这个词来搜AI最新资讯。来大家点运行看一下,大家可以看一下这个输出,你看这个里面有一个东西,就有一堆内容,什么response for model。这里面大家看它的一个格式的话,就是这个链接的一个内容,就是这个里面的一个简短描述,应该就是这个简短描述。
 
然后还有他们下面的一些UIL,你看这篇文章里面会对应一个URL,一个URL在这里这里一个URL,那这个UIL的话你是可以打开的,打开的话大家就可以看到头条的。你看这个是他帮你搜到一个头条的一个新闻是吧?你看这个里面是不是涉及到AI的一些资讯。那也就是说比如说我们要加抓取第一条数据的话,那其实就是抓这个网站上的内容,把它给处理一下是吧?
 
好,那现在所以说你光有这个数据还不行,我们现在用代码把它解出来,怎么解呢?我们拿到这个内容的返回之后,大家看我们要在写代码的是吧?在这个写代码里面去实现的那写代码的话,这里下面我其实给大家准备了一些代码,大家把这个代码复制一下加进去就可以了。这个代码的话其实也比较好理解,他就是去解析它内容的一些输出内容一些输出,然后把这个输出结果干嘛呢做一些解析,然后拿到里面第一条数据,就是你要看有个match一匹配第一条数据,我要拿到一条数据就完事儿了,直接取第一条。所以我现在需要复制一下这段代码,然后把它粘贴到我们刚刚这个地方,大家这里写就可以了。你就直接做一个匹配,就是他刚刚拿的那个报文,你就匹配掉一条。这里的话其实就是做那个格式化的一个,因为正则表达式它会帮你提取到里面包含link的这个HTTPUIL。
 
也就是我们刚刚其实可以看到一个什么东西呢?就是这个里面刚刚提到那个b web设置,它给你返回的一个内容的话,其实是一个什么呢?一个UIL带内容的,他现在把它解出来,比如说我们刚刚收到了,比如说你想就单步运行一下,比如说AI最新资讯。来运行一下运行的一个结果。
 
大家可以看到你看下面有一个格式是什么呢?就是一个在这里有一个link,大家看有个n link。他刚刚那个代码的意思就是我现在需要把这段报文里面的内容给你分析,里面包含n link的东西,这段关键字,然后帮你找到一个这个UIL,其实就是帮你找到头条的这篇文章这个地址。有了这个地址之后,他接下来就可以去采集数据了,是吧?
 
所以说这个代码的这个逻辑的话是一定要什么呢?一定要具备去解析这个报文的这么一个能力的。所以说他帮你匹配到这个UIL,说白了就是帮你找到这个UIL,是吧?
 
那我们现在其实就是把这两个东西给串联起来。然后他拿到这个内容之后,我们其实把它可以输出一下。最终我们其实想要拿到一个UIL。你看最终它的一个返回的话,就是返回一个output是吧。你看在这个里面它有一个output,output的一个结果其实就是拿到这个是吧?然后我们这里的话就可以把这个写上去,叫output。然后变量类型的话就是一个string类型的。这个是一个前端代码,是个javascript。如果大家对GS不了解的话,你可以用python来写,目前就支持这两种语言,都可以去实现。
 
好,然后完了之后我们最终其实这个返回变量里面就可以拿到一个UIL是吧?那这个UIL就是它的一个内容的话,其实就算匹配到了匹配到了那这个地址,有了这个地址之后,我们可以干嘛呢?去匹配到它对应的一个数据解析。大家看一下这个里面我们还会用到一个东西,叫数据解析的一个什么呢?拿到那个UIL对应的一个内容,就是那个内容的话其实已经在在那个报表里面。我们这里只是说去做一个解析,就是做一个正则表达式的一个解析,相当于我现在需要哪一段内容?做一个匹配。好,来我给大家看一个效果,把它打印出来,然后结束这里的话,输出我们选择代码节点的这个output就完事儿了。
 
来试运行一下,大家可以在这个工作流里面去试运行。比如说我就说这个AI最新资讯资讯来跑一下来看看结果。好,大家看啊,其实这个output这里是不是已经有了,对不对?已经有了?已经有了这个地址,我们是不是拿到头条这个文章的地址了,对不对?好,光有这个还不行,因为我们刚刚说到这个需求是干嘛,我们要把内容解析出来,对不对?大家对比一下这个效果图,大家看啊我们最终需要把这个整篇文章给抓到,整篇文章给抓到。
 
现在只是拿到这个UIL,还没完,是吧?那接下来干嘛呢?接下来还要用到一个东西,叫做一个插件,叫有一个插件叫什么呢?叫链接读取。链接读取其实就是这个插件。这个插件的话就是你给他UIL的话,他给你返回这个UIL下面的标题跟内容。但是有些网站它有限制,就是有个防防爬虫的这个协议,就你不能抓,你也抓不到,可能会有这个问题。所以说一般我们要去抓一些可以允许可以去允许抓的内容,这个是有一些限制的,那我们用官方的这个头条去抓取内容,就没什么问题。
 
那我们现在用这个把一个插件加进去,加进去这个插件的话有了这个插件之后,我们就把刚刚那个UIL那个节点连接到这个插件上面去,由这个插件干嘛呢?这个插件可以传一个参数,最主要的参数的话就是这个UIL。就是你要把刚刚那个头条那个网页UR也要传给他,传给他之后他才能去帮你去获取内容。好,传了它之后大家看在这里我们选择那个代码节点的一个auto put,这个UIL就给他了。给他之后大家看啊,这个插件最终是要帮你拿数据的,拿数据之后这个数据怎么来的呢?我们就是要看它的一个输出,看它的一个输出,看它的一个输出结果是怎么样的,在这里的话我们就要把它结果打印出来,结果怎么打印呢?
 
我给大家看一下一些结果,首先我们把它连起来,结束这里我们要输出几个东西。首先的话就是第一个叫first source link,就是第一个链接,就是我们刚刚那个头条那个链接,我们在哪里呢?就是这个我们用代码节点的output就完事儿了,这个是我们要抓文章那个链接,然后的话我们还有第一个链接,first link内容,就这个文章的内容我们要拿到那内容怎么来的呢?引用这个插件的一个什么呢?Data就是数据,这个就是网页的这个内容。
 
然后还有什么呢?就是搜索的一个结果,就是我们刚刚讲的那个并搜索的搜了一堆了。也就是说我除了第一个链接以外,那之前收到结果你也返回给我,给我做一个参考。所以我们还要加一个东西叫search,这是什么呢?Without结果是吧?搜索结果,然后这个结果的话,我们就用in插件的那个最后一个叫response for model,大家把这个给说出来,这样就可以了,然后我们来试运行一下,同样的AI最新资讯。
 
好,大家看啊,你看结果有了头条什么M头条这个地址,然后你看发布时间,什么新一轮估值,我们打开这个文章,看抓的对不对。什么AI传出重磅消息,4月2号的一篇文章AI企业故事达到一个新的高度,是不是?然后大家看达到一个新的高度是吧?是这篇文章,没错吧?没抓错,没有问题,但是这个内容比较长。
 
然后大家下面看还有一个东西叫search result。就是你看他帮你搜了一堆文章,就是什么头条的,什么其他的文章,是吧?那还有一些什么什么文章,比如说我想搜第二篇文章了,比如说大家就可以把这个参数改一下,在代码里面比如说你想搜第二篇文章,看看你想搜第二篇文章,你就可以直接改一下。改一下之后,比如说我们再来运行一下。AI资讯他就给你抓的是第二篇文章。
 
AI传出重磅消息,电影文章这里有问题,改一下。代码节点paris less。Input可能第二篇文章里面没有,march 2,这个点填一,他可能没那么多数据,可能就抓了一篇出来了,没关系,我们就先看这一篇的效果。我们试运行之后,这个结果是有了。但是我们现在的一个结果的话,我们是希望这种结果对不对?刚刚那个只是一个工作流测试,它那个数据看起来就是一些原始的报文。
 
那现在我们这个工作流就是完了之后,我们还要有一个智能体,这是一个智能体的聊天页面呈现出来。那现在我们还需要创建一个智能体,对,创建一个叫网页网页数据采集助手,要有这么一个整体。然后在这个工作流里面点这个加号,加号大家看我们要选那个,但是你这里去看,其实你找不到刚刚我们搭建的那个那个工作流。你要这里选未发布,未发布这里你要点开,一定要把它发布。这个大家注意一定要点发布才能用,我们就坚持发布,发布刚刚那个提示是你没有测试过。如果说你测了一遍的话,它就直接那你可以发布了,你就没有跳那个提示了。
 
来发布0.1版本。发布完之后,这里大家看就有一个提示,他说工作了,已经发布成功了,是否添加到当前智能体,然后点确认添加。好,这里大家可以看到这个工作我就加进去了,然后到这一步大家就可以问问题了。比如说这个AI最新资讯,麻烦给我推荐一下,因为咱们的需求是只需要一条吗?当然为你找到一些AI资讯。你看他其实帮你匹配多条,我们刚刚那个虽然是一条,但是因为我把内容返回了,所以说它这里会带有多条。但是你可以给他提要求,我只想要一条。你看他这个是从并搜索帮你搜出来的一堆的一些文章,然后再帮你做一些总结归纳的。这个内容有点多,稍微。
 
我不想让他输入这么多,我就直接。给我推荐。一条科技新闻,我要一条,我只需要一条。
 
但他这里没有调用那个插件,看一下,刚刚好歹也调用了插件是吧?AI最新资讯。输出一条。
 
他没有用AI的,没有用我工作流的一个能力是吧?看一下。
 
输出。实在不行的话,我们可以指定这个工作流,那大家看现在就有了,有时候不会触发,有时候它会有些幻觉没有触发,来为你找到一条最新资讯。然后我现在还需要一个链接是吧?我想看全文带原文链接,我需要原文链接。
 
当然其实文章每次都不一样,你看原文链接是不是出来了,点开看一下。多领域创新与变革,meta看一下这篇文章对不对,应该是meta发布了拉马斯的这个多模态开源大模型?你看是不是有了,这个是一个简短的一个描述,然后附上一个链接。因为最开始它不会输出很多内容,也就是说大家可以基于这个工作流,在整合咱们智能体的话,你可以做很多个性化的一些需求,最终他会用到这个工作流的一些能力,包括一些链接,一些内容,包括一些搜索结果,那其实都会给你。比如说我们现在再问一个出出一条,然后类似的搜索结果。也。推荐三条。给我带原文链接,也就是说我们除了本身内容以外,我你之前说过的结果也给我三条,然后把原文链接都给带上。
 
大家看类似资讯是吧?123是不是都有?你看第一条推荐给我的,然后类似资讯123你看是不是三条。
 
是不是这个结果还OK,是我们想要的一个结果。其实就是这个里面他帮你匹配到的一些内容,就是刚刚那个been search这个搜索它的搜索一堆,那你想要多少钱,你给他可以提要求,这个就是智能体的强大之处。它可以根据你搜索的一个结果做一个总结归纳,甚至可以发起多次调用。比如说第一次要是没搜出一些比较好的结果怎么办?他会去便利这个工作量,得到这个结果跟你的想要的内容比较匹配以外,就是要做一个匹配是吧?好,然后比如说大家还有具体的一个要求,比如说我想我不希望是这种格式,我希望你能不能给我一个表格格式的。大家可以在做最左侧有一个叫人设与回复逻辑,这里我们可以写提示词。比如说它提示词模板有很多,有些是通用结构,有些是任务执行的,有些是角色扮演的,你有各种各样的一个步骤,一般工作流我们用通用结构或者是任务执行就可以了,比如说我们就用通用结构,简单一点,这些东西我就不写,就是你角色你自己随便定义,包括目标也是的,但是你可以什么呢?
 
把输出格式这里给优化一下。比如说我希望输出的格式是表格形式的,就是你希望让它以表格的数据输出。然后我们再来问一下这个问题,大家看一下这个结果有什么区别,来走一下。
 
大家看这个是不是以表格输出了是吧?是不是以表格的形式,你看表格内容原文链接是不是这个结果就不一样了?所以说这个里面你可以提不同的一个优化,包括你一个限制,比如说限制限制我现在这个字应该挺多的,比如说我限制一下每天。每条资讯这个字符字数,字数不超过20个字,你可以跟他提具体的一个要求,我不希望超过20个字。来再来走一下,看一下这个要求能不能满足。
 
好的,大家看是不是匹配了没有超过20次。基本上,当然这个不能保证百分百,只能说大概率它会控制在这个以内。因为它要保证语义的通畅性,所以说20个字那个语义不一定就通畅了。所以说它是大致帮你去控制在20个字范围以内,但是也不能百分百的保证,这是大家需要注意的。
 
对,这个就是限制,你可以提具体的一个要求,然后的话就是你还可以去提一些更加具体的一些目标,包括一些什么细节,角色定义。比如说你是一个什么资讯新闻搜集助手,你是一个娱乐新闻搜集助手,那它对应的一个帮你出的一些内容,一些包括一些具体的细节的话,可能就会不一样。大家在这个提示词库里面你可以去找一些,包括比如说你这里还可以用一些AI的功能,我们要自动优化提示词,就是你可以给他提要求,比如说我希望内容都是。都是什么呢?今天最新的,就是我必须要今天的新闻,其他以前的新闻我就不需要了。你要保证最新的那?你看这个里面它就可以开始帮你写了。
 
你看包括具体的格式,他都帮你做出来了。比如你可以替换,这样这个就写好了。所以说这个功能非常实用。你不知道怎么写,你就AI生成,按你的,你只要提你的要求就可以,它可以自动去拓展是吧?然后咱们再看一下最终拓展之后的一个要求,这个结果。
 
大家看现在还是这个类别是吧?多企业多动作,然后比如说我限制还要求一下就是这个。文章。开头需要写一下。
 
新闻二期,我需要知道这篇资讯新闻是吧?资讯。需要写一下新闻发布日期,我需要这个日期,因为我不知道哪一天发出来的,我现在需要这么个东西,现在这个没有日期,我让他加一下来再跑一下。
 
好,大家看,因为新闻日期都是今天是吧?都都是今天的,都是今天的。所以说这个结果是OK的,就是我需要的一个时间。你看这个的话就是我们希望的一个网页采集助手,就是你需要有什么需求,你就直接写在左边。对我们整个逻辑其实都是基于这个工作流去实现的。但是实现出来的内容结果,我们还可以基于智能体做一个包装优化再处理。
 
这时候就需要智能体的整个的一个提示词这一块的逻辑。所以说大家基于那个插件出来的这个结果,你想要它以什么样的形式去呈现的话,你其实在这个提示词里面写的很详细的话,这个结果它可以做更丰富的一个展示,这个就是智能体的一个强大之处。并且的话它会不断的去优化重试,直到跟你这个结果相匹配为止,OK这个就是他的一个逻辑。好,这个课后可以自己去练一下,就是把这个搭一下,看一下这个效果。
 
那整个流程我们来再来总结复盘一下,其实就是这个流程,就是这个工作流。首先有一个开始节点,开始节点我们用户输入了一段提示之后,我需要去用病的那个搜索插件搜索出来。那就是搜索出来一堆这个文章是吧?文章每个对应有个链接,那我们需要拿到这个数据,就是它文章的内容描述以及链接丢给这个代码节点。这个代码节点就是帮你去抓取其中一条第一条数据的。抓取出来第一条数据之后再丢给这个什么呢?叫linked read,叫paging。这个就是链接读取,它会根据你链接里面内容帮你去抓取原始的内容,就是文章里面帮你把内容抓出来。
 
抓出来完之后我们现在输出,输出的话这个分几块。第一块的话就是我们最开始搜索的那个内容要抓出来,要显示出来,然后网页里面的内容要显示出来。一个是搜索标题,一个是网页内容,还有一个的话是之前相关的搜索都要抓出来。拉出来之后我们就可以做很多的一个优化,包括我现在需要把它用表格形式呈现,我们直接在左侧提示词里面去加,包括你对新闻的字数有要求的也可以去加,还有包括你要写发布日期的也可以加,就是各种各样的格式形式怎么呈现的,这个大家在智能体里面去加提示词就可以了。
 
工作流的话,它只是帮你输出一个原始的一个数据,就是你想让工作者帮你输出什么内容,这个他是可以的。但是你要把内容做的很丰富,做一些格式化输出的话,这个建议用智能喜剧做就可以了,这一块也是非常智能的。