开发了一个和截屏无缝集成的 AI 应用

9次阅读

共计 594 个字符，预计需要花费 2 分钟才能阅读完成。

LLM 越来越强大，一些多模态模型也逐渐成熟，但在交互方式上还有许多可以改善的方式。目前助手类应用（Copilot AI）的交互逻辑多是：模型能够理解图片 -> 添加上传图片的按钮 -> 处理图片、模型能够理解语音 -> 添加支持语音输入的按钮 -> 处理语音.

更好的处理方式可能是，从数据产生的源头推测用户意图，例如用户在截图时，就可能已经包含了“需要理解图片”这一意图。在截图这一动作结束后，实际上就可以开始执行进一步的“理解”了。这样就可以缩短用户得到答案的路径。

另外，考虑到在工作、生活、创作中，我们可能涉及到大量资料查阅的“临时小需求”，却又不想分心去做细致的查询，希望可以马上得到答案，继续创作。我得到的解决答案是：任意的桌面内容解析 + 多模态模型。

因此开发了这个应用 MacCopilot。

开发了一个和截屏无缝集成的 AI 应用

使用应用需要自有的 API key。

欢迎大家分享宝贵建议～

正文完

发表至： V2EX

2024-06-15

0

做了个简单的小工具，学习下前端

MacCopilot