上班摸鱼?不可能!卡内基梅隆准博士生开发一款 AI 程序:监控电脑屏幕,一分心就吼你...

🐱 个人主页:TechCodeAI启航,公众号:TechCodeAI

🙋‍♂️ 作者简介:2020参加工作,专注于前端各领域技术,共同学习共同进步,一起加油呀!

💫 优质专栏:AI相关最新技术分享(目前在向AI方向发展,欢迎大佬交流)

📢 资料领取:前端进阶资料可以找我免费领取

🔥 摸鱼学习交流:我们的宗旨是在「工作中摸鱼,摸鱼中进步」,期待大佬一起来摸鱼!

天天处于上班状态的您,究竟拥有多少“摸鱼”的时段?此前,澳大利亚悉尼大学的研究人员于《Educational and Developmental Psychologist》期刊之上发表了一篇题为“Rest breaks aid directed attention and learning”的研究论文,指明摸鱼能够提升工作的效率,五分钟的大脑休憩,能够使后续任务的表现以及生产力平均提高 57%,对后续的工作更为有利。

然而,在实际情形中,究竟有多少人在随意浏览朋友圈、微博、X 等社交媒体平台以后,时间被耗费掉了、工作却没有完成多少,最终致使天天需要加班的?

为了处理不时分心、工作效率不高的状况,刚刚从康奈尔大学本科毕业、即将在今年秋季攻读卡内基梅隆大学计算机科学博士学位的程序员小哥 James Campbell 利用空闲的时间,开发出了一款被称作 ProctorAI(监察 AI)的软件,

此项目已开源:https://github.com/jam3scampbell/ProctorAI。

这个 AI 应用程序不但能够监视您的屏幕,进行截图操作,还会运用当下主流的 Claude-3.5-Sonnet、GPT-4o 等大型模型对截图的内容予以分析,倘若发觉您存在“摸鱼”的举动,就会发出警示的声音,促使您认真工作。

属于自己的监工——ProctorAI

在您开启这款应用之际,将会获得这样的一个屏幕:

图片

页面上将会存在一些提示,例如今天您规划着去完成什么?喜爱何种行为?您期望这款应用程序准许什么以及不准许什么......

在这一提示之下,您能够在输入框明晰地书写出自己的需求,比方说:

今天我计划探究一个 ML 的可解释性项目。

我被准许开启一个 VS Code 编辑器、一个终端(Terminal),以及一个网页浏览器,但仅仅是为了查阅相关资料。

图片

然后点击“开始”(Start),画面呈现如下所示,这款应用程序就会开始对您的电脑屏幕进行监测,然后每隔几秒分享一下您的最新状态。

图片

如果您通过浏览器打开了 StackOverflow 网站,AI 大模型在分析截图之后给出的状态是 productive,它会推测您是在工作,正在寻找问题的答案,属于正常研究项目时查阅资料的状态。

图片

倘若您打开了 Twitter 悠哉悠哉地刷起来之后,这款应用程序便会开始分析您的这一行为是不是在工作以及是否符合您最开始定下的规则,判定为不符合之后,这款 App 会采取行动来控制您的屏幕。

图片

就像上图所示,在 AI 大模型判定您是在“拖延”之后,跳出一个不可关闭的全屏弹窗,然后语音提示:

好啊好啊,James!我看您把机器学习项目研究换成了无意识的滚动。您的 ML 可解释性项目是不是很无聊,以至于您宁愿去看陌生人的神秘推文?据我所知, X 并不是 Python 生态系统的一部分。关掉小鸟应用(Twitter 应用),飞回您的 VSCode 老巢,不然我会把您的工作效率当成一个大大的零!

图片

读完之后您会发现屏幕下面还有一行小字,以及一个输入的文本框,要求您写下保证书——

请输入以下内容以继续工作:

我保证关闭 X,只使用 VSCode、终端和相关 Web 资源,将重点重定向到我的 ML 可解释性项目。

输入完成之后,屏幕上会跳出一个 15 秒倒计时的窗口,让您在 15 秒内关闭 Twitter。

图片

通过这样的方式,当您在工作、研究、学习分心时,系统会自动提示您。对此,身为作者 James Campbell 还引用了一张截图来形容 ProctorAI 的存在:

「计算机程序员 Maneesh Sethi 的故事是这样的:他每次使用 Facebook 时,都会雇一个女人在他脸上扇一巴掌,结果他的工作效率大幅提高。」

图片

James Campbell 表示,ProctorAI 的目标是成为这样的女人,但可以随时待命、更加尖刻、并且全面了解你的工作。同时,他认为,ProctorAI 就像一个活生生的同事,在你身后看着你,一旦你有分心的举动,系统就会警告你,由此可以大大提高生产力。

图片

ProctorAI 的工作原理

那么,ProctorAI 究竟是如何实现的?

James Campbell 解释道,这款应用的工作原理是每隔几秒钟(可以指定时间间隔)来对你的电脑屏幕进行截图,并将其输入到 GPT-4o、Claude-3.5-Sonnet 和 LLaVA-1.5 等多模态模型中。

正如上文所展示的,如果 ProctorAI 确定你没有集中注意力,它将控制屏幕并用个性化消息对你大喊进行口头教育。在让你保证停止拖延后,ProctorAI 会给你 15 秒的时间来关闭拖延的根源,否则会继续骚扰你。

James Campbell 称,这是「一个知道什么算拖延、什么不算拖延的智能系统」。与传统的网站拦截器相比,ProctorAI 非常智能,能够理解细微的工作流程。

为了满足不同用户的行为习惯,在每次 Proctor 会话之前,用户都会输入他们的会话规范,明确告诉 Proctor 他们计划做什么、会话期间允许什么行为以及不允许什么行为。

因此,ProctorAI 可以处理细微的规则,例如“我可以上 YouTube,但只能观看 Andrej Karpathy 关于 Makemore 的讲座”。

“没有其他生产力软件可以处理这种级别的灵活性”,James Campbell 说,「Proctor 的一大设计目标是让人感觉它是有生命的。根据我的经验,我往往不会违反规则,因为我能直观地“感觉到人工智能在监视我--就像考生在考试时感觉到监考人员在监视他们一样”,这样他们作弊的可能性就会大大降低。」

图片

设置和安装

当前,James Campbell 将这一项目在 GitHub 上开源出来:https://github.com/jam3scampbell/ProctorAI/。同时,也分享了较为简单的设置和安装方法,即要启动 GUI,只需输入 ./run.sh。你可能会看到一些弹出窗口,要求你允许终端访问某些程序,你应该启用这些实用程序。

git clone https://github.com/jam3scampbell/ProctorAI

python venv -m focusenv

source focusenv/bin/activate

pip install -r requirements.txt

./run.sh

然后,根据你想要使用的模型,可以将以下 API 密钥定义为环境变量:

OPENAI_API_KEY

ANTHROPIC_API_KEY

GEMINI_API_KEY

ELEVEN_LABS_API_KEY

在这一项目中,为了降低 API 成本,James Campbell 还实现了双层路由系统。你可以对其进行设置,使请求首先发送到较小的模型(如本地运行的 LLaVA),只有当行为被标记时,才会向上发送到较大的模型。

图片

其他一些功能

除了上面介绍的功能之外:

你还可以在会话期间与 ProctorAI 聊天,向它汇报你的研究进度;

该程序也有文本转语音功能,ProctorAI 可以对你进行口头训斥

更改 ProctorAI 截图的频率,让 你感觉不到 ProctorAI 一直在盯着你

时下  ProctorAI 这款应用刚起步,James Campbell 透露,这个项目仍在积极开发中,其希望未来添加一些更多的功能,包括:

更多个性化和情境知识

针对特定任务/分布对 LLaVA 模型进行微调

记录、时间跟踪和汇总统计

让退出程序变得非常烦人(至少在用户完成预定义的会话之前)

......

图片

每日运行费用在 50 美分以下

之所以研发这款工具,James Campbell 表示只是为了优化自己的工作效率,并尝试对它进行定制,使其尽可能有用。从经验来看,它的效果相当不错,尤其是在帮助自己长时间深入工作而不分心方面!

后期如果不少人觉得这款程序有用,他也考虑将其打包成一个易于下载的应用程序,供普通用户使用。

对此,也有不少网友担心,日常拿到手的工资与运行 AI 大模型 API 带来的成本会不会造成入不敷出的情况,James Campbell 回复道:

这款程序每天在线工作时的运行成本主要取决于以下几个因素:

是否使用路由,

路由模型的误报率,

截图的频率,

它被激活的时间长短。

基于我对这些因素的平衡调整,每天的费用通常在 50 美分以下。

对于个人用户而言,不少人觉得 ProctorAI 是一个不错的主意:

图片

然而有人认为,James Campbell 的出发点虽好,但似乎已经开启一个“潘多拉”魔盒:

“我希望你知道,你现在已经打开了一个更大的关于关键绩效指标(KPI)和工作监控的潘多拉盒子。这个原本无害且令人惊叹的想法,但资本主义会证明它并非如此。这也不是你的错。”

如果你需要惩罚自己才能提高工作效率,那你就做错了,相反,你应该问问人工智能如何看待和创建工作流程。

那么,你如何看待 ProctorAI 这款工具?

来源:https://x.com/jam3scampbell/status/1813218640608829553

项目地址:https://github.com/jam3scampbell/ProctorAI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值