比 ChatGPT4 还强？深度测评最新AI神器 Claude3-阿呆学习呀

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

2个月前发布

0300986

Claude3，正式上线。

这个由 OpenAI 分裂出去的兄弟公司 Anthropic，在悄然无息之间，就这么默默地把 Claude3 发了。

没有所谓的发布会，没有什么华丽的舆论，就仅仅在 X 上发了个帖子。

我发现现在的这些 AI 公司真挺有意思，都把 X 当成发布主阵地了。。。

字很少，但是事挺大。

一口气发了 3 个模型，Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。

这个名字就取的…很有故事。

Opus 大概意思就是史诗级乐章，牛逼上天那种。

Sonnet 是十四行诗。

Haiku 是俳句，日本的那种三行短诗。

所以可以简单的理解成：Opus（超大杯）、Sonnet（大杯）、Haiku（中杯）

这三个的区别没什么特别可说的，文章最后放三张截图就能看明白。

主要还是他们附加的这么一张图。

Claude3 的 Opus 模型，全面超越 GPT4。

而且还是在几个任务 0-shot 的情况下。

我用图里面的举下例子，比如 MGSM，多语言数学推理这个测试集。

Claude3 Opus 达到 90.7%的准确率，用的是 0-shot，GPT4 是 8-shot，达到了 74.5%。

0-shot 意味着大模型没有在 Prompt 里给任何示例，就直接被要求完成任务。而 8-shot 则是在干活前，给了 8 个示例。

你这就能看出来区别了。。。一个没给示例直接上，一个给了 8 个示例，给了 8 个示例的 GPT-4 反而还打不过 Claude3。

在复杂的推理任务上，Claude3 可以说是全面吊打 GPT-4。

而在另几个比如 MMLU、GSM8K 这种语言类知识类的测试集上，跟 GPT4 基本上差不太多，所以整体核心上，还是推理能力的巨幅提升。

反正，这个 Claude3 Opus 还是很吸引我的。。。

但是吧，Claude 这个狗东西，果然跟 OpenAI 学的一套一套的，免费的只能用 Sonnet，Opus 只有氪了 20 刀的会员才能用。。。。

呸。。。狗男人。。。

在我 TM 的炸了 8 个号之后。。。。。。。。。。。。

所以那咱咋办呢，那只能送他 20 刀。。。

在疯狂的跑了几个小时之后。。。也测了很多在 2023 年 8 月后的 case 之后。

我给 Claude 总结 3 个特点，分别是：

独一档的推理能力、跟 GPT4V 打平的多模态、200K 长文本优化。

一、独一档的推理能力

其实从上文就能看到，Claude3 进化最大的，就是推理，就是逻辑。

不过单看参数，肯定感受不到，那就放几个我觉得很有代表性的例子吧。

解释补集法的概念，并用补集法计算这道概率题：”一家公司有两个部门，A 部门 3 个男生，2 个女生，B 部门 4 个男生，6 个女生，现在要派 3 个人去出差，要求每个部门至少出一人，那么至少有一个女生被派出的概率是多少？”

一道致命题，在已经明确补集法的情况下，GPT4 的错误率依然高达 50%。但是 Claude3 Opus，我测了 10 遍，准确率 90%，就很爽。

张三是一名推销员，她在绿房子卖掉了三分之一的吸尘器，在红房子多卖了 2 台，在橙房子卖掉了剩下吸尘器的一半。如果张三还剩下 5 台吸尘器，她一开始有多少台吸尘器？

当然，还可以直接上物理题，直接传图就行。全对。

化学，也行。

在中文语境下的一些逻辑怪圈，也没问题。

整体看，Claude 在逻辑和推理上的进化巨大，初中的理科题基本都能横着走，不过高中题基本都还是全线阵亡状态。

而一些弱智吧的问题或者语义逻辑，都难不倒 Claude3 了。

二、跟 GPT4V 打平的多模态

GPT4V 也出来很久很久了，多模态，绝对是让人永远离不开的功能之一。

这次 Claude3，终于把他的视觉能力给补齐了，可以直接扔图进去了。

在玩了几个小时后，我整体的评价是，跟 GPT4V 大致打平手。

官方的数据，也大概是这样的倾向。

除了在科学示意图(Science diagrams)这个领域超的稍微多一些之外，其他基本没有差别。

放个科学示意图的 Case，还是很强的。

一个网站的截图直接还原网页的源代码~

猜个地名，那自然更是小 Case。

再根据作品猜个艺术家？OK。

当然，也可以整一些花活。比如这个照片。

Claude3 Opus 给出了标准的答案，完美。

整体上，跟 GPT4V 大差不差，对中文的支持也不错。算是弥补了一直以来 Claude 的短板。

三、200K 长文本优化

之前我曾写过一篇文章，怒喷过 Claude2.1….

花 7000 块实测 Claude2.1 – 200K Token 的超大杯效果究竟怎么样？

因为他的上下文准确性实在是太差太差太差了…

就直接红成半边天，红成这个鬼样子。

这一次，他们终于有了大幅度的改善。

终于达到了，99%。嗯，还是没有 100%。

我直接甩了我的文章 PDF 数据集上去，测一下我直接写 Kimi 的时候，大海捞针里面那个很经典的 case：

“你写妙鸭相机那篇文章时，用了一个人的照片作为案例，那个人是谁？”

在过了很久很久以后，终于给我回复了。。。

内容倒是对的，没有问题。

但是这个速度，实在是太慢了，起码等了 1 分钟左右。

但是有比没有好。

再放一个文档内跨度比较大的查询的 case。

整体精准度和语义理解都很不错。

基于超长文本的对话、总结、查询的能力，也终于在 Claude3 中补齐了。只能说补齐，毕竟，这玩意 Kimi 都做了快半年了，Claude3 现在也就刚刚达到 Kimi 在长文本这块的水平。。。

但是综合来看，Claude3 Opus，依旧是目前最为水桶的大模型。

或者可以说，就是当前的，No.1。

写在最后

当然这次更新，Claude3 还有一些别的特点。

比如减少不必要的拒绝，比如准确性更高等等，但是我觉得就不展开说了。

最后再贴三张图给大家看一下 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 的区别。

三张图一眼就能看明白，牛逼的更贵，便宜的更快。

总结一下。

Claude3 这次更新后，有独一档的推理能力、跟 GPT4V 打平的多模态、还有 200K 长文本优化。

可以当之无愧的说，就是市面上目前最强的大模型。

不过按照 OpenAI 和奥特曼的尿性。

他们应该忍不了这口气。

所以评论区里，网友说出了我的心声：

奥特曼赶紧的，发个 GPT5 狙击 Claude3 啊，别怂。

打起来。

那样我们才能最快速度，迎接加速而来的。

THE END

AI创作 ChatGPT

喜欢就支持一下吧

点赞86 赞赏

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容