- 博客(500)
- 资源 (6)
- 收藏
- 关注
原创 闲聊人工智能对媒体的影响
技术总是不断地改变信息的传播方式。互联网促进了社交媒体的蓬勃发展。网络媒体成为主流。大语言模型为代表的人工智能的出现,又会对媒体传播带来怎样的改变呢?媒体的演变反映了社会和技术的演变。人工智能(AI) 将继续对整个媒体行业产生变革性的影响。在这个行业中,其最重要的三大功能是和。
2025-04-22 08:48:08
790
原创 AI时代,该做点什么?
传统的信息系统擅长处理语法/语义严格定义的数据,这些数据采取XML,JSON 格式定义,为了实现数据的共享,对数据格式和交互协议制定了各种标准。大语言模型就像钢笔,橡皮,字典类似,是一个万能文具盒,而使用这个工具盒的场景是碎片化的。大语言模型能够有效地提升人类的写作能力,人类不需要纠结文字表达的细节,只需要能简单的口语表达自己的想法,AI就可以生成十分专业的文章。按照你的想法,撰写文章。AI 使翻译的成本大幅度下降,大批量翻译国外优秀的著作和影视作品将使人们能消除语言的隔阂,更加全面,准确地了解世界。
2025-04-17 17:40:16
574
原创 AI 给我们带来了什么?
人们对大语言模型的看法是复杂而矛盾的。一方面,人们惊叹于AI技术的巨大威力及其对未来发展的深远影响;另一方面,又困惑于AI在实际应用中的具体落地场景。有人认为AI更适合企业服务(2B),有人则看好消费者市场(2C),还有人主张先2C后2B。一个被誉为“最伟大的发明”为何难以找到明确的应用方向?这是一个值得深思的问题。要回答这个问题,我们首先需要探讨AI究竟能做什么,以及它能为我们带来哪些实际价值。
2025-04-17 11:13:49
973
原创 MAC Mini M4 上测试Detectron2 图像识别库
断断续续地做图像识别的应用,使用过各种图像识别算法,一开始使用openCV 做教室学生计数的程序。以后又使用YOLO 做医学伤口检测程序。最近,开始使用meta 公司的Detectron2.打算做OCR 文档结构分析
2025-04-14 14:52:25
458
原创 qwen-vl 实现OCR的测试
文本识别,也称为光学字符识别 (OCR),可以将印刷文本或手写文本转换为易于编辑、搜索和分析的数字格式。它涉及分析文本图像并识别其中包含的字符和单词。深度学习彻底改变了文本识别,显著提升了准确性和性能。目前已有多种基于深度学习的文本识别方法。使用深度学习进行文本识别卷积神经网络 (CNN):CNN 通常用于基于图像的文本识别。输入图像由卷积层驱动,提取特征并学习文本表征。然后,CNN 的输出被传递到循环神经网络 (RNN) 进行进一步处理和文本识别。
2025-04-11 20:15:30
585
原创 AI 时代,我们该如何写作?
当ChatGPT/DeepSeek能在几秒钟内产出一篇文章,而且生成能力日益精进,你是否也曾思考,我还能做什么?但是很少有人评论。但是人类读者却少了。我之前写一些小众的自动化行业的内容,现在写AI技术领域的内容,可能人们对我写的博文不感兴趣。无论如何,这是令人沮丧的事情,我到底为什么写博客?为谁而写?写什么?如果自己写的文章仅仅是为了向AI 大语言模型训练语料的话。似乎没有什么意义在写了。
2025-03-29 21:02:09
1055
原创 MCP 学习笔记(1)
AI 时代的新鲜事层出不穷,MCP(Model Context Protocol)又火了起来。Anthropic 于 2024 年 11 月推出了,这是 LLM 与各种数据源之间数据交换的开放标准。该协议为 LLM 提供了一种简化的方法,可以与工具和服务集成以执行任务,例如在本地系统上搜索文件、访问 GitHub 存储库以编辑文件以及简化与外部平台的交互。如何理解模型上下文协议这个名称?我一直主张将context 翻译成“,MCP 翻译成大模型脉络协议。比较容易理解,MCP 协议是大模型应用中信息。
2025-03-28 14:28:02
881
原创 每个人的“大模型”
几乎每个人都在谈人工智能和大语言模型,其实,我们每一个人都拥有一个独一无二的“大语言模型”,就是我们的大脑。我们不妨称它为人类大模型(human LLM),相比而言,人工大模型称为人工智能大模型(AI LLM)。闲下来深入地思考人类大模型和AI 大模型之间的相似性和差别是非常有意思的事情,而且引发我们更深入的思考。
2025-03-20 15:29:26
707
原创 播客的未来
一个似乎迫在眉睫的趋势是播客小额支付的演变和兴起。不难想象,未来播客可以完全融入这些类型的多媒体体验,为听众创造更加身临其境、更具吸引力的体验。随着世界变得越来越互联,技术也不断发展,越来越多的人可能会将播客作为信息、娱乐和联系的来源。想象一个世界,你可以告诉你的人工智能助手你想要什么,它会推荐符合这个标准的播客。随着技术的不断发展以及对个性化和沉浸式媒体体验的需求不断增长,播客的受欢迎程度和影响力很可能会继续增长。未来十年,这种媒体将如何适应和发展,以及将出现哪些新趋势和创新,这将是一个有趣的话题。
2025-03-17 09:56:36
273
原创 Gradio ,一个实用的大模型界面
Gradio是的开源项目,GitHub 28k+ star。能够方便地构建AI应用的网页界面。最大的优点是简便。对于不熟悉前端的程序员,能够迅速地构建基于web的AI应用。
2025-03-15 15:46:35
332
原创 Apple 播客统计数据
其次是社会和文化类别,播客数量超过 380 万集,其次是商业类别,播客数量为 340 万集。Apple Podcasts 吸引了许多年龄段的听众,但其听众中 35-54 岁年龄段的听众比例最高,为 43%。然而,这个年龄段的听众已经是收听播客的第二大人群。Apple Podcasts 是 2024 年第二受欢迎的播客收听应用程序,总市场份额为 26.9%。对于播客创作者来说,它提供了广泛的选择来放置他们的节目。Apple Podcasts 上有 71,131,238 集,但不同类别的集数不同。
2025-03-03 10:49:52
1043
原创 Python 调用 iTunes 搜索 API
尝试了许多种方法收集播客的数据,最后发现还是itunes 上的数据比较靠谱,spotify ,喜马拉雅,小宇宙这些播客平台相对比较封闭,文档也有限。listener notes 等播客搜索平台都是收费的。本博客记录使用Python 通过itunes search API 搜索播客信息的方式。
2025-03-02 11:00:06
381
原创 全球播客数据(2024 年新数据)
在某种程度上可以预见的是,与许多媒体形式一样,疫情在 2020 年推高了播客数量。然而,新播客的数量最近有所下降。尽管如此,确切的数字可能会因多种因素而有很大差异,最明显的是包含不活跃的播客。2020 年与疫情相关的激增推动了播客领域的发展,但疫情前的上升轨迹仍然持续。一半的播客节目在发布后的第一周下载量不到 29 次。在过去十年的大部分时间里,新播客的数量逐年增加。然而,Audible 上的播客数量是无声读物的。并且播客的数量在不久的将来可能还会继续增长。播客行业的发展自然带来了播客数量的增加。
2025-02-26 20:10:58
1094
原创 基于大语言模型的推荐系统(2)
本博文继续研究如何利用大语言模型(LLM)来构建播客推荐系统。DeepSeek 笔记:推荐的spotify listener 记录格式从上面的信息中,截取一部分重要的部分,构建一个用户记录。用户收听历史(UserListenHistory)关注的播客(UserFllowingPodcast)History ,Follow,Like 的列表可以数组的方式存储在听众表中 播客表(Podcast)节目表(Epicodes)推荐算法 使用Embedding 模型,
2025-02-26 10:49:55
866
原创 相似性搜索(2)
的主要用途是计算两个向量或矩阵之间的线性核(Linear Kernel),也就是它们的点积(dot product)。它在机器学习和数据科学中常用于衡量样本之间的相似性,尤其是在使用核方法(Kernel Methods)或支持向量机(SVM)时。如果你的数据是线性可分的,或者你需要一个高效的相似性度量方法,这里的输出是一个相似性矩阵,其中每个元素 (i,j)(i,j) 表示 XX 中第 ii 个样本与 YY 中第 jj 个样本的点积(即线性核值)。如果数据是非线性可分的,线性核可能无法捕捉复杂的模式。
2025-02-24 10:40:15
784
1
原创 矢量数据库 Milvus
2022 年,Milvus 支持十亿级向量,2023 年更是稳定扩展到数百亿,为超过 300 家大型企业的大规模场景提供支持,包括 Salesforce、PayPal、Shopee、Airbnb、eBay、NVIDIA、IBM、AT&T、LINE、ROBLOX、Inflection 等。Milvus 捕获数据变化 (CDC) Milvus-CDC 可以捕获并同步 Milvus 实例中的增量数据,并通过在源实例和目标实例之间无缝传输业务数据来确保业务数据的可靠性,从而轻松实现增量备份和灾难恢复。
2025-02-23 11:22:47
972
原创 基于chroma 数据库和千问embedding 的相似性搜索
Vector DB 的一些示例包括:Chroma、Pinecone、Weaviate、Milvus、AwaDB、DeepLake、BagelDB 等。嵌入数据库,可用于存储嵌入及其元数据、嵌入文档和查询以及搜索嵌入。上面的例子中使用的是sentence-transformers。我们感兴趣的是使用openai 或者其它大模型实现embedding 是否更好,网络上介绍阿里的千问。Chroma 提供了自己的 Python 以及 JavaScript/TypeScript 客户端 SDK,可用于连接到 DB。
2025-02-23 10:17:47
513
原创 基于大语言模型的推荐系统(1)
推荐系统是非常重要的,事实上,搜索引擎,电子商务,视频,音乐平台,社交网络等等几乎所有互联网应用的核心就是向用户推荐内容,商品,电影,音乐。推荐系统几乎无处不在。传统的推荐系统就是依据各种数学算法实现,伴随着推荐系统的发展,也催生了人工智能技术的发展。推荐技术的核心就是AI。这就不难理解,为什么像Google,Meta 这样的公司会如此重视发展AI技术。目前的许多推荐系统内部是基于各种神经网络,深度学习技术实现。例如Tiktok 的推荐系统就是基于tensorFlow 构建的AI 模型。
2025-02-21 15:53:35
1294
原创 TensorFlow LiteRT 概览
LiteRT(简称 Lite Runtime,以前称为 TensorFlow Lite)是 Google 面向设备端 AI 的高性能运行时。您可以找到适用于各种机器学习/AI 任务的 LiteRT 就绪模型,也可以使用 AI Edge 转换和优化工具将 TensorFlow、PyTorch 和 JAX 模型转换为 TFLite 格式并运行。
2025-02-19 09:20:25
843
原创 Spotify AI 技术(1)使用 TensorFlow 和 TF-Agents
我们的许多音乐推荐问题都涉及为用户提供有序的项目集,以满足用户在那个时间点的收听偏好和意图。我们根据以前与应用程序的交互来提供当前的推荐,抽象地说,由于我们不断向用户推荐内容,因此我们面临着一个连续的决策过程。强化学习 (RL) 是一种成熟的顺序决策工具,可用于解决顺序推荐问题。我们决定探索如何使用 RL 为用户打造聆听体验。在我们开始训练代理之前,我们需要选择一个 RL 库,使我们能够轻松地构建原型、测试和部署我们的解决方案。在 Spotify,我们将TensorFlow。
2025-02-19 09:06:51
1117
原创 利用人工智能增强可读性:自动为文本添加标点符号
在数字通信时代,文本的清晰度和可读性至关重要。无论是转录口语、处理原始文本数据还是改进用户生成的内容,标点符号在传达预期信息方面都起着至关重要的作用。但是,手动编辑文本以添加标点符号可能非常耗时且容易出错。这就是人工智能 (AI) 发挥作用的地方,它提供了一种强大的解决方案,可以自动将标点符号插入句子中。目前,利用大模型的能力,完全可以胜任添加标点符号的工作,不需要其它特别的处理程序。
2025-02-15 10:44:00
355
原创 解决whisper 本地运行时GPU 利用率不高的问题
3 最关键的是 在model.transcribe的参数中设置 beam_size = 5,一下子GPU 的利用率到了20%,当beam_size = 8 时,GPU 利用率可达30%左右。我在windows 环境下本地运行whisper 模型,使用的是nivdia RTX4070 显卡,结果发现GPU 的利用率只有2%。beam size(又名 beam width)控制生成输出时每个步骤中探索的路径数。表示我的cuda 是可用的。2 使用小的whisper 模型,我使用。下面是我完整的测试程序。
2025-02-02 19:57:22
803
原创 ONNX 简介
ONNX (Open Neural Network Exchange)是一套表示深度神经网络模型的开放格式,由微软和 Facebook 于 2017 推出,然后迅速得到了各大厂商和框架的支持。目前,在数家机构的共同维护下,ONNX 已经对接了多种深度学习框架和多种推理引擎。通过短短几年的发展,已经成为表示深度学习模型的实际标准,并且通过 ONNX-ML,可以支持传统非神经网络机器学习模型,大有一统整个 AI模型交换格式。
2025-01-23 18:00:37
509
原创 whisper在不同 GPU 的性能基准测试
做了一些实验来查看不同GPU上转录的时间成本。结果可能有助于您选择购买或租用哪种类型的GPU。代码。
2025-01-20 05:44:48
826
1
原创 AI 在播客领域的应用
作为以语言交谈为主的播客领域,是大语言模型AI 可以大展拳脚的地方,比如播客简介,播客节目笔记(show notes)的自动化生成,播客节目单自动化推荐等等。笔者做了一些探索性实验工作,结果发现,在现有播客的文本描述(通常称为播客的元数据)基础上实现AI 推荐是不理想的。这主要是现有的播客节目的文本元数据质量参差不齐,大模型难以生成。目前播客存在的问题 据统计,全世界有几百万个播客节目。要求如此之多的播客主改进元数据是不现实。我们尝试直接从播客的语音生成节目文本,通过AI大语言模型生成节目简介
2025-01-11 09:54:58
780
原创 播客的技术,创新和商业化(1)
2024年,爱上了听播客。从听喜马拉雅的播客节目,后来又转向小宇宙,为了彻底的研究播客行业又开始研究Spotify,listen notes ,podcastAI等网站, 开始关注播客领域的种种技术。这些技术包括播客的内容制作,平台,发布服务,推广全过程。作为语言为中心的播客产业,以语言大模型LLM 的AI将会产生巨大的影响。本文也探讨AI 在播客领域应用的可能。播客的优势与当下流行的短视频相比,播客的能够比较深入地传播知识,观点和新闻。通常一个播客节目时长在15到45分钟。
2025-01-01 08:55:12
728
原创 AI 时代:无数据,不软件
网络上都在抱怨,软件行业越来越卷了,竞争惨烈。据中国软件上市公司发布了 2024 年上半年财报,软件行业几乎是全行业亏损。小型软件企业更是如此。作为信息化时代的朝阳行业,竟然落到如此境地,令人唏嘘。问题究竟出在哪里呢?笔者看来,国内软件行业逐步失去了护城河。基于开源软件的程序开发变得越来越容易,加上知识产权制度的不完善,软件技术的门槛越来越低。进入AI 时代,大语言模型代码生成能力的迅速提升,将迅速加快软件行业这种局面的恶化。不是软件行业不行了,而是传统的软件企业不行来。那么,出路在哪里呢?
2024-12-17 11:24:59
329
原创 构建AI友好型信息服务
ChatGPT 为代表的人工智能的横空出世,AI已经成为推动各行各业创新和转型的重要力量。在这个过程中,需要重塑传统的信息的基础设施。互联网的初衷是为人提供信息。比如网站,搜索引擎,即时通讯,社区平台,电商 等技术都是为提高人类获取信息的便捷和体验而生的。移动互联网只是将人机交互的界面从电脑屏幕转向的移动终端。互联网通信的基本方式是,人们通过web 前端或者App 访问后端平台,获取信息。而互联网基础设施的盈利方式主要依靠广告,商品销售以及少数的收费网站和App。
2024-12-05 10:57:55
1033
翻译 一人互联网公司背后的枯燥技术
实际上,我在 2014 年为我的前雇主做了一些早期的 Docker 工作,这对于一家市值数十亿美元的中型初创公司来说是件好事,但对于一个人的小型初创公司来说可能有点矫枉过正。当您阅读一些有关 Amazon 或 PayPal 早期历史的书籍时,您就会知道这两家公司都有类似的通知机制:每当用户注册时,都会发出“叮”声通知办公室里的每个人。是的,我知道,这很无聊。因此,我需要一个好的且相对昂贵的私人办公室:)我不是为了花费更多的时间和节省金钱而优化,而是为了减少花费的时间和赚钱:)中运行(几乎)相同的基础设施。
2024-12-02 19:38:20
90
原创 播客的历史
您知道吗,“播客”一词实际上是在 2004 年创造的,也就是 iPodder 创建的同一年?播客历史的时间线充满了有趣的里程碑和将媒体塑造成今天的关键人物。当您探索播客从早期到现在的演变时,您将发现这种形式的数字媒体如何彻底改变我们消费内容和与不同声音联系的方式。
2024-11-25 08:10:15
1113
原创 健康老龄化:适合老年人的播客
什么是播客?好问题。对于那些还不熟悉这个术语的人来说,播客有点像在线广播或电视节目。这是一个可下载、可流式传输的程序,定期发布剧集,时长从几分钟到一个多小时不等。您可以在计算机、智能手机或平板电脑上收听或观看。它是一系列音频或视频剧集,涵盖各种主题,从讲故事和教育到新闻和娱乐。将其视为剧集的集合,就像一本书中的章节一样,您可以订阅播客以自动接收新剧集。播客可在各种网站和应用程序上使用,由个人、组织或公司制作。您可以选择在线收听或观看它们,或者下载剧集以供以后欣赏,即使您处于离线状态也是如此。
2024-11-24 20:15:38
901
原创 C# 实现BLE Client 程序与ardunioESP32 通信
编写一个C# Windows 桌面应用程序,与ardunio ESP32 Client 通信。
2024-11-20 19:00:26
539
原创 BLE 蓝牙客户端和服务器连接
这是出于安全和隐私的需要,并为用户提供控制的权利。用户决定是否允许 Web 应用连接到设备,当然还有已经被允许连接的设备。GATT (Generic Attribute Profile) 代表通用属性,它定义了向连接的 BLE 设备公开的分层数据结构。客户端扫描附近的设备,当它找到它正在寻找的服务器时,它会建立连接并监听传入的数据。并为函数提供配置对象,该对象含有关我们要使用哪个设备,以及都有哪些服务可用的信息。,以 ArrayBuffer 的形式传递想要写入的值 ,这是二进制数据的存储方法。
2024-11-18 08:48:09
1669
2
原创 NodeJS 百度智能云文本转语音(实测)
百度智能云注册和开通了文本转语音的服务,尝试使用NodeJS 实现文本转语音服务。但是百度的文档实在有点难以琢磨,网上也鲜有实例。本博文分享自己的代码。百度智能云提供下面几种语音服务:语音识别语音合成短文本在线合成长文本在线合成呼叫中心语音我开通了长文本在线合成。
2024-11-15 20:04:07
1010
1
原创 广播的未来:使用 AI 创建量身定制的广播节目
无线广播历史悠久,是人们最简单,直接的传播信息的手段。在不远过去,收音机是普通百姓获取信息的唯一方式,在笔者的童年时代,几乎所有的歌曲都是从收音机中学会的。一个飞跃牌三极管收音机成为家里唯一的家电。大学里同学的一台短波收音机是宿舍里学习外语的唯一工具,晚上熄灯后,大家一起收听外语电台。仿佛就在昨天,令人难忘。近年来,广播的格局发生了重大转变。随着互联网的兴起和流媒体服务的出现,传统的地面广播电台正面临来自在线平台的激烈竞争。
2024-11-13 11:08:47
750
原创 由播客转向个人定制的音频频道(1)平台搭建
电子设备中经常使用旋钮来选择参数,最简单的是旋钮是电位器,它是一个滑动电阻,高端家电,汽车中使用的是编码器Encoder。将 1.mp3 视频文件每 15 秒生成一个 ts 文件,最后生成一个 m3u8 文件(1.m3u8),m3u8 文件是 ts 的索引文件。网络上有许多网络广播电台的m3u8 的节目源地址,有的可以播放,有的不行。笔者看来,播客是一个被低估的服务,其实依靠短视频很难接收有效的信息,靠几分钟很难讲清楚一个观点和知识。所以,要完整地了解一些有用的内容,语音比短视频更好。
2024-11-12 18:47:34
1364
《梯形图的FPGA 实现》
2022-02-06
信息物理系统建设指南(2020)
2020-10-08
(正版标准)ISO_IEC8825-1-2008.pdf
2020-07-16
IEC 61499-1-2012.pdf
2020-06-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人