36氪获悉,沪深两市成交额突破1万亿。
谷歌推出一种可能降低人工智能系统内存需求的压缩算法TurboQuant。TurboQuant压缩技术旨在降低大语言模型和向量搜索引擎的内存占用。该算法主要针对AI系统中用于存储高频访问信息的键值缓存(key-value cache)瓶颈问题。随着上下文窗口变大,这些缓存正成为主要的内存瓶颈。TurboQuant可在无需重新训练或微调模型的情况下,将键值缓存压缩至3bit精度,同时基本保持模型准确率不受影响。对包括Gemma等开源模型的测试显示,该技术可实现约6倍的键值缓存内存压缩效果。(财联社)
3小时前
8亿估值,张雪峰“清仓”
8点1氪丨张雪峰医疗文件疑似泄露,苏州卫生健康委回应;黄仁勋谈死亡:希望在工作中突然离世;OpenAI将停止Sora视频生成服务,精简产品线
推送和解读前沿、有料的科技创投资讯
一级市场金融信息和系统服务提供商
聚焦全球优秀创业者,项目融资率接近97%,领跑行业