关键词搜索
顶部横幅广告

AI回复几百字,为何扣费比想象多?揭秘Token隐形消耗

【金色港湾资讯网为您推荐阅读】

输入输出价格差六倍 背后是芯片效率的天壤之别

在主流大模型有关的计费体系当中,输入Token的定价和输出Token的定价之间的差距,通常普遍能够达到6倍左右的样子。拿某头部模型当作例子来说,输入每百万Token所要收取的费用大概是2元,然而输出相同数量的Token,所要收取的费用却是12元。这样的差异是源于芯片在处理这两类任务的时候存在着根本的不同。在处理输入的时候,所有的Token会被并行着送入GPU,成千上万个核心会同时开展矩阵运算,这属于计算密集型的工作,GPU在这种情况下效率是极高的。

在生成输出之际,模型得逐个Token串行生成,每一次生成之时,都得从显存里搬运诸多参数数据。GPU 的核心多数时间都在等着数据送达,真正用于计算的时间占比仅仅 1%到 5%。输出Token 的高昂代价,本质上是在为芯片以极低效率运转的那部分时间支付费用,这是算力跟内存带宽之间由来已久的不匹配。

你看不见的消耗 藏在对话历史和思考过程里

每回用户进行提问,界面里所显示的常常仅仅是几百字的回复,然而实际上耗费的Tokens远超这些。系统发出的指令尽管不会在对话里呈现,可是会参与每一轮的计算。更为隐蔽的是对话的上下文,当你接连不断地提问时,模型得读取全部的历史记录才能够理解当下的问题,对话持续得越长,单次的消耗也就越大。

AI回复几百字,为何扣费比想象多?揭秘Token隐形消耗(图1)

模型若具备深度推理能力,便会于回答之前开展内部推演。它会去比较不同答案之后再去输出最优结果。就此而言,这段“思考过程”同样会被计入Token消耗。一个看似简单的回复背后,或许存在着几十轮对话。并且还会有数万个Token的连锁消耗。用户所感知到的仅仅是冰山一角。而真正的计算资源消耗远远超出屏幕所呈现的景象。

芯片物理结构决定成本下限 内存带宽成最大瓶颈

用于数据中心主流的H100芯片,云租赁价格大概是每小时约2.5至2.5美元。一块芯片在单位时间之内能够处理多少Token,这直接决定了模型推理的成本。在处理输入的时候,GPU能够实现满载运行,效率是极高的。然而在生成输出的时候,内存带宽却成为了瓶颈,芯片大部分时间都在空转等待数据。

每一代全新芯片的算力大概会翻倍着,与此同时其内存带宽的增长速度仅仅是算力增长速度的一半。这就表明,处理输入这个过程,会变得越发快速且越发便宜,然而生成输出方面的改善程度可就要小得多。这种存在于物理层面的不对称,乃是定价差异的那个底层原因。不管模型架构怎样去优化,只要计算以及存储依旧是处于物理分离状态的两个部分,数据搬运所存在的瓶颈就很难被彻底消除掉。

技术进步层层压价 推理成本持续下降

即便有着上述那些瓶颈,该行业依旧借助多种技术办法来削减推理成本。投机采样使得小模型先迅速猜出来几个词,随后再由大模型一次性去验证,把部分串行计算转变成并行。混合专家架构促使每个 Token 仅仅激活模型的一小部分参数,极大地降低每次需要搬运的数据量。

AI回复几百字,为何扣费比想象多?揭秘Token隐形消耗(图2)

这些技术,若单独去看,其效果是有限的,然而要是将它们叠加起来,那成效便会显著起来。存在硬件那一层,存在系统那一层,存在架构那一层,再加上开源模型所带来的价格竞争,推理成本就这样被层层地压缩了。在近两年期间,有着更多的数据,有着更好的训练方法,还有着更成熟的架构设计,这使得较小规模的模型,在部分任务上,也能够逼近甚至超越上一代更大的模型,而由于模型变小,所带来的显存占用和计算开销也同步降低了。

Token定价是多重因素交织的结果

Token的定价不是只因一个因素而定,它是芯片物理结构、能源成本、模型架构、市场竞争一起发挥作用而产生的结果,同样的一度电,拿去供应满载在运行的芯片以及处于空转状态的芯片,所能够处理的Token数目会相差出数量级,模型具备的能力愈强,参数规模越大,解决复杂问题的本事就越强,价格当然也就会更贵。

各厂商所采用的定价策略,会依据商业模式而出现差异,有的厂商,会将Token消耗,打包进订阅制里面去,而另外有的厂商,则是按照用量来计费,然而不管是哪一种形式,其背后所蕴含的成本逻辑均是统一的,即每单位时间之内能够处理的Token数量,决定了价格的下限,用户对于Token价格的感知并不是很强,原因在于对话消耗大部分都涵盖在免费额度或者月费当中,但是这并不表明它不耗费资金。

未来Token会像流量一样普及 但变化可能更快

以Token作为计量单位并非毫无瑕疵,其价格方面的细节繁杂且变动极为频繁,绝大多数用户对它依旧觉得陌生。然而从发展的趋向来看,它极有可能迈向与流量相类似的路径,也就是伴随着技术的进步以及竞争的加剧,单位成本持续降低,应用场景不断拓展。不同之处在于,AI技术的迭代速率远远超过往昔的网络基建,这样的一个过程或许会来得更为迅速。

模型架构正朝着愈发聪慧的方向转变,硬件效率在不断地持续提高,开源生态促使价格竞争加剧。对于普通用户来讲,短期内可能仍旧不需要直接去面对Token账单,然而对于企业以及开发者而言,弄明白这套计价逻辑,是对AI应用成本效益予以评估的根基。当技术切实普及之后,Token的计价方式最终将会变得如同现今的流量套餐那般,被大众所熟知。

你认为,未来AI服务的计费办法,是会持续保持依据Token来计价的方式,还是会产生更适宜普通群众理解的打包举措呢?欢迎于评论区域分享你的见解。

分享更多
7
0

您可能还会对下面的文章感兴趣:

底部横幅广告