不服 GPT4-Turbo!马斯克发布最新多模态大模型 Grok-1.5V

16次阅读

共计 1935 个字符,预计需要花费 5 分钟才能阅读完成。

原文链接: 挑战 GPT-4V!马斯克发布 Grok-1.5V

OpenAI 刚刚发布了最强的 GPT4-Turbo 模型。

就在 4 月 12 号,马斯克就推出了 Grok-1.5V,Grok-1.5V 模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。

Introducing Grok-1.5V, our first-generation multimodal model. In addition to its strong text capabilities, Grok can now process a wide variety of visual information, including documents, diagrams, charts, screenshots, and photographs. Grok-1.5V will be available soon to our early testers and existing Grok users.

官方博文表示:「Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,从多学科推理到理解文档、科学图表、图表、截图和照片。」xAI 还表示,在接下来的几个月里,预计将在图像、音频和视频等各种模态上显著提高模型能力。

不服 GPT4-Turbo!马斯克发布最新多模态大模型 Grok-1.5V

我们看到了 Grok-1.5V 与 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。

Grok 表示:「Grok 在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的 RealWorldQA 基准测试中,Grok 的表现优于同类产品。对于下面的所有数据集,我们都是在没有思维链提示的情况下对 Grok 进行评估的。」

但是从我自己的使用体验来看,GPT4-Turbo 目前还是最好用的,尤其是在编码方面,其他的大模型还是和 GPT4-Turbo 有很大的差距。

按照 ChatGPT4 Turbo 升级教程 ,可以升级体验下最新版本 GPT4-Turbo。

referer:https://x.ai/blog/grok-1.5v

目前,Grok-1.5V 将很快对我们的早期测试者和现有 Grok 用户开放,还没有开放源代码。

Grok-1.5V 实际表现

referer:https://x.ai/blog/grok-1.5v

虽然 Grok-1.5V 没有完全对用户开放,但是在博客中展示了 Grok-1.5V 的七个示例。

这所有的例子中,都是要求 Grok-1.5V 识别图像,然后回答问题

分别是:

  • 根据图表编写代码
  • 计算卡路里
  • 根据图片讲故事
  • 解释梗图
  • 将表格转换为 CSV 文件格式
  • 辨别木头的腐朽程度
  • 解决 Leetcode 中等难度的问题

看下最后解决 LeetCode 中等难度题目的例子吧

不服 GPT4-Turbo!马斯克发布最新多模态大模型 Grok-1.5V

提示词

Prompt:Can you write Python code that solves this?(你能编写 Python 代码来解决这个问题吗?)

Grok 回答

def find_triplets(nums):
    result = []
    nums.sort()
    
    for i in range(len(nums) - 2):
        if i > 0 and nums[i] == nums[i - 1]:
            continue
        
        target = -nums[i]
        left = i + 1
        right = len(nums) - 1
        
        while left < right:
            if nums[left] + nums[right] == target:
                result.append([-target, nums[left], nums[right]])
                left += 1
                right -= 1
                while left 

我看了下官方给出的示例,看起来 Grok 1.5V 的 OCR 功能确实还可以。

大家有兴趣,也可以去看看官网给出的例子。

希望 Grok-1.5V 给出的例子是真是的,不要到后面开放的时候被打脸了。(不过马斯克这个人真不太好说

总结

从 Grok-1.5V 放出来的实例来看,Grok-1.5V 的图片识别能力还是很强的。毕竟 Grok-1.5V 是马斯克的,估计是借鉴了特斯拉的图像识别技术。

ChatGPT 刚刚更新了最新最强大的 GPT4-Turbo,马斯克这边立马放出来了 Grok-1.5V。

看来各家的大模型技术又要卷起来了啊。

现在的大模型的竞争,让我想起了当年国产手机的发布会的感觉,各家都不断迭代开发新技术发布新手机,都给我卷起来!

现在工作都离不开 ChatGPT 了。希望后面的大模型可以给我们带来更多的惊喜,最终收益的还是我们这些普通用户,

正文完
 0