type
status
date
slug
summary
AI summary
AI translation
tags
category
password
icon
💡
OKX欧易开户即可获得:现货合约永久返佣10%,手续费8折,永久获得青猫会员高级指标使用特权,高级交易系统免费内测,会员技术指标定义开发等专属服务。
💡
欧易交易所blackcat1402邀请注册(国内,无需魔法)链接:
💡
欧易交易所blackcat1402邀请注册(国外,需要魔法)链接:
Claude 2.1 (200K Tokens)- 长上下文回忆的压力测试
我们都对增长上下文长度感兴趣 - 但实际效果如何?
Anthropic 主动提供了 Claude 2.1 的早期访问权限,因此我重复了我之前在 GPT-4 上进行的“大海捞针”分析。
以下是我的发现:
关键发现:
  • 当文档达到 200K 个标记(大约 470 页)时,Claude 2.1 能够在文档的某些深度回忆起事实。
  • 文档最上方和最下方的事实几乎以 100% 的准确率被回忆起。
  • 文档顶部的事实回忆表现不如底部(与 GPT-4 相似)。
  • 从约 90K 个标记开始,文档底部的回忆性能开始明显下降。
  • 在较短的上下文长度下,并不能保证有好的表现。
这意味着什么:
  • 精心设计提示的重要性 - 值得花时间调整提示,并进行 A/B 测试以评估信息检索的准确性。
  • 没有绝对保证 - 你的信息不一定总能被检索出来。不要假设它们一定会在你的应用程序中被找到。
  • 更短的上下文意味着更高的准确性 - 这是常识,但尽可能减少发送给模型的上下文量,可以提高其回忆的能力。
  • 位置很关键 - 也是众所周知的,但放在文档最开始和下半部分的事实似乎更容易被回忆起来。
为何进行此测试?
  • 我非常欣赏 Anthropic!他们在推动语言模型性能的边界,并为全球创造强大的工具。
  • 作为语言模型的使用者,理解它们的工作原理、优势和局限非常重要。
  • 这类测试虽不完全精确,但有助于展示现实世界的案例,感知它们的工作方式。目的是将这些知识应用到实际场景中。
测试过程概述:
  • 使用 Paul Graham 的文章作为“背景”标记。利用 218 篇文章很容易达到 200K 个标记(必要时重复文章)。
  • 在文档的不同深度插入一个随机陈述。使用的事实是:“在旧金山最好的活动是在阳光明媚的一天吃三明治,坐在多洛雷斯公园里。”
  • 请求 Claude 2.1 仅使用提供的上下文回答这个问题。
  • 使用 @LangChainAI 的评估工具评估 Claude 2.1 的回答。
  • 重复测试,针对文档深度从 0%(文档顶部)到 100%(文档底部)(采用 sigmoid 分布)和不同的上下文长度(1K 标记 > 200K 标记)进行 35 次。
进一步的下一步:
  • 为了更严谨,应该进行键值检索测试。但为了便于理解,我在 PG 的文章中加入了关于旧金山的句子,这样更清晰,也更具实用价值。
  • 多次重复测试,以提高统计显著性。
注意事项:
  • 回忆的数量很重要 - 假设当模型需要检索多个事实或进行合成推理步骤时,其性能会下降。
  • 改变你的提示、问题、要检索的事实和背景上下文会影响性能。
  • Anthropic 团队联系我并提供了重复这个测试的积分。他们还提供了提示建议以最大化性能。重要的是要澄清,他们的参与仅限于后勤支持。结果的完整性和独立性得到了保障,确保了我的评估反映了我无偏见的看法,并且不受他们支持的影响。
  • 这个测试的 API 调用成本约为 $1,016(每百万标记 $8)。
 
Reference link:
[Reprint] Greg Kamradt: Needle In A Haystack - Pressure Testing LLMs[Reprint] Unlock the true power of 100k+ contextual large models with one sentence, increasing from 27 points to 98. Suitable for GPT-4 and Claude2.1.
blackcat1402
blackcat1402
This cat is an esteemed coding influencer on TradingView, commanding an audience of over 8,000 followers. This cat is proficient in developing quantitative trading algorithms across a diverse range of programming languages, a skill that has garnered widespread acclaim. Consistently, this cat shares invaluable trading strategies and coding insights. Regardless of whether you are a novice or a veteran in the field, you can derive an abundance of valuable information and inspiration from this blog.
Announcement
type
status
date
slug
summary
AI summary
AI translation
tags
category
password
icon
🎉Webhook Signal Bots for Crypto are Coming!🎉
--- Stay Tuned ---
👏From TradingView to OKX, Binance and Bybit Exchange Directly!👏