前言
在数字化浪潮汹涌澎湃的当下,TikTok 无疑成为了全球瞩目的焦点,尤其在音乐领域,其短视频承载着海量流量与巨大影响力。对于音乐创作者而言,这是展示才华、获得认可的绝佳舞台;对于营销人员来说,是推广音乐作品、吸引受众的有效渠道;对于音乐爱好者而言,也是发现佳作、享受音乐的丰富宝库。然而,要在这个竞争激烈的平台上脱颖而出,深入洞察音乐短视频的流行趋势、用户喜好和内容特点至关重要。为此,本篇文章将教大家如何零基础制作 TikTok 音乐领域热门短视频分析 AI agent。接下来,将从工具选择、数据收集、搭建智能体三大关键环节展开详细阐述。
工具选择
正常制作一个 AI agent 需要经历以下几个步骤:
- 数据收集:从 TikTok 平台收集相关的音乐短视频数据,包括视频本身、音频、标题、描述、标签、点赞数、评论数、分享数等信息。
- 数据预处理:清洗数据,去除重复、无效或低质量的视频和信息。对文本数据(标题、描述、标签等)进行自然语言处理,包括分词、去除停用词、词性标注等。
- 模型选择和训练:根据问题类型选择合适的机器学习或深度学习模型。
- 模型评估和优化:使用合适的评估指标(如准确率、召回率、F1 值、均方误差等)对模型进行评估,分析模型的优势和不足。
这需要开发人员掌握 Python 语言、数据收集与预处理能力、特征工程知识、掌握传统机器学习算法和精通深度学习框架和模型等技术。为了让大家零基础也可以制作,这次我选用两个十分好用的工具来进行。
首先是数据收集和数据预处理部分,我选择亮数据平台,亮数据在数据收集和预处理方面优势显著。数据收集时,其零代码抓取工具和强大的代理网络,可轻松突破地域限制,高效获取全球海量公开数据;在数据预处理环节,能够自动清洗、转换格式并整合多源数据,输出高质量、格式统一的数据集,极大提升数据可用性,助力用户快速开展深度分析与应用。
当数据收集并处理好以后,我选择在文心智能体平台搭建。文心智能体凭借创新的训练方法、强大的技术支撑、多元统一的奖励系统以及专业的工具平台,在模型选择与训练、评估与优化的全流程中高效提升模型性能,精准贴合用户需求。
数据收集
首先,在亮数据平台的官方网站完成注册和登录,进入用户控制面板,然后点击Web Scrapers,选择Web爬虫库。
在爬虫市场我们搜索tiktok.com
这里提供了许多关于tiktok的爬虫工具,这次我们选择TikTok - Posts - discover by keyword,
TikTok - Posts - discover by keyword可以根据关键词查询视频信息。
选择无代码抓取器,这个不需要代码基础可以直接获取。如果有代码基础也可以选择爬虫API
输入关键词、爬取数量和国家,点击Start collecting
在web Scrapers页面可以看到正在运行的抓取器,等完成后可点进去查看。
点击日志后可以看到我们的爬取记录,这里选择csv格式下载。
搭建智能体
进入文心智能体后点击创建智能体,选择工作流模式,不要用基础模式。
先完成智能体的简介、开场白等基础设置,再添加知识库以及大模型的节点。
知识库节点上传我们之前下载好的数据
大模型这里可以根据需要选择,一般ERNIE-3.5-8K即可。提示词部分要进行设置,让大模型对知识库数据进行分析整理,然后回答用户的问题。
完成设置后可以在最右侧进行调优测试,如果回答效果不满意可以及时调整。
智能体回答效果如下。
总结
本次实验充分证明了利用现有先进工具,即使零基础的用户也能高效完成复杂的 AI agent 制作任务。其中亮数据平台的表现十分给力,其零代码抓取工具极大降低了技术门槛,让我们无需编程基础就能轻松进行数据收集。强大的代理网络成功突破地域限制,确保了全球数据的全面覆盖。在数据预处理环节,自动清洗、格式转换和多源数据整合等功能,极大地提升了数据质量,为后续分析奠定了坚实基础。体验链接https://get.brightdata.com/wpyechu