不服 GPT4-Turbo！马斯克发布最新多模态大模型 Grok-1.5V

共计 1935 个字符，预计需要花费 5 分钟才能阅读完成。

原文链接：挑战 GPT-4V！马斯克发布 Grok-1.5V

OpenAI 刚刚发布了最强的 GPT4-Turbo 模型。

就在 4 月 12 号，马斯克就推出了 Grok-1.5V，Grok-1.5V 模型不仅能理解文本，还能处理文档、图表、截图和照片中的内容。

Introducing Grok-1.5V, our first-generation multimodal model. In addition to its strong text capabilities, Grok can now process a wide variety of visual information, including documents, diagrams, charts, screenshots, and photographs. Grok-1.5V will be available soon to our early testers and existing Grok users.

官方博文表示：「Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型，从多学科推理到理解文档、科学图表、图表、截图和照片。」xAI 还表示，在接下来的几个月里，预计将在图像、音频和视频等各种模态上显著提高模型能力。

不服 GPT4-Turbo！马斯克发布最新多模态大模型 Grok-1.5V

我们看到了 Grok-1.5V 与 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。

Grok 表示：「Grok 在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的 RealWorldQA 基准测试中，Grok 的表现优于同类产品。对于下面的所有数据集，我们都是在没有思维链提示的情况下对 Grok 进行评估的。」

但是从我自己的使用体验来看，GPT4-Turbo 目前还是最好用的，尤其是在编码方面，其他的大模型还是和 GPT4-Turbo 有很大的差距。

按照 ChatGPT4 Turbo 升级教程，可以升级体验下最新版本 GPT4-Turbo。

referer:https://x.ai/blog/grok-1.5v

目前，Grok-1.5V 将很快对我们的早期测试者和现有 Grok 用户开放，还没有开放源代码。

referer:https://x.ai/blog/grok-1.5v

虽然 Grok-1.5V 没有完全对用户开放，但是在博客中展示了 Grok-1.5V 的七个示例。

这所有的例子中，都是要求 Grok-1.5V 识别图像，然后回答问题

分别是：

根据图表编写代码
计算卡路里
根据图片讲故事
解释梗图
将表格转换为 CSV 文件格式
辨别木头的腐朽程度
解决 Leetcode 中等难度的问题

看下最后解决 LeetCode 中等难度题目的例子吧

不服 GPT4-Turbo！马斯克发布最新多模态大模型 Grok-1.5V

提示词

Prompt：Can you write Python code that solves this?（你能编写 Python 代码来解决这个问题吗？）

Grok 回答

def find_triplets(nums):
    result = []
    nums.sort()
    
    for i in range(len(nums) - 2):
        if i > 0 and nums[i] == nums[i - 1]:
            continue
        
        target = -nums[i]
        left = i + 1
        right = len(nums) - 1
        
        while left < right:
            if nums[left] + nums[right] == target:
                result.append([-target, nums[left], nums[right]])
                left += 1
                right -= 1
                while left


 我看了下官方给出的示例，看起来 Grok 1.5V 的 OCR 功能确实还可以。
 大家有兴趣，也可以去看看官网给出的例子。
 希望 Grok-1.5V 给出的例子是真是的，不要到后面开放的时候被打脸了。(不过马斯克这个人真不太好说 
 总结 
 从 Grok-1.5V 放出来的实例来看，Grok-1.5V 的图片识别能力还是很强的。毕竟 Grok-1.5V 是马斯克的，估计是借鉴了特斯拉的图像识别技术。
ChatGPT 刚刚更新了最新最强大的 GPT4-Turbo，马斯克这边立马放出来了 Grok-1.5V。
 看来各家的大模型技术又要卷起来了啊。
 现在的大模型的竞争，让我想起了当年国产手机的发布会的感觉，各家都不断迭代开发新技术发布新手机，都给我卷起来！
 现在工作都离不开 ChatGPT 了。希望后面的大模型可以给我们带来更多的惊喜，最终收益的还是我们这些普通用户，