IT之家3 月 26 日消息,谷歌研究院昨日(3 月 25 日)发布博文,推出全新极端压缩算法 TurboQuant,有望重塑 AI 运行效率并解决大模型键值缓存(KV Cache)的内存瓶颈。 向量是 AI 模型理解和处理信息的基础,但高维向量会消耗海量内存,从而在键值缓存(KV Cache)中引发严重的性能瓶颈。 IT之家注:键值缓存是大语言模型生成文本时使用的一种高速缓存机制,通过存储历史计 ...