大模型测试费,研发加计的“暗礁”在哪?
这几年,AI企业如雨后春笋般冒出来,大家手头都攥着几个大模型——有的是开源微调的,有的是自研的。我接触过不少创业者,他们最常问的问题之一就是:“我们用大模型做内部测试,一个月烧掉好几万GPU算力费,这笔钱能算研发费用加计扣除吗?”坦白讲,这个问题挺烫手的。因为税务上虽然有“研发费用”这块甜饼,但大模型测试这种新业态,边界模糊得就像雾里看花。核心在于:你的测试活动,是不是真的在“研发”,而不是简单的“试错”或“应用”。
我见过一个典型案例,叫“智简科技”(化名),他们花了半年时间微调一个20B参数的法律大模型,内部测试了上千轮。财务在申报时把所有测试费都放入了加计扣除,结果被税务稽查要求解释。最后我们协助他们把“基础模型微调”和“针对特定客户的功能测试”剥离出来,前者可以,后者被判定为市场活动。你看,一个细节就差了40%的加计扣除额。
根据《关于完善研究开发费用税前加计扣除政策的通知》(财税〔2015〕119号),研发活动必须有“系统性、创造性”并取得“新知识”或“实质性改进”。大模型测试能否沾边,关键在于测试是否具备“探索性”和“不确定性”。如果只是把现成的API接过来,跑几个case看反应,那叫功能性验证;但如果你在测试新架构、新训练算法,甚至是在跟模型“较劲”——比如刻意输入模糊指令看它能否理解“经济实质法”这类复杂概念,那可能就符合条件。
测试场景与研发活动的边界
要搞清这个问题,得先给“测试”分分类。我通常把内部测试划成三档。第一档:模型开发中的中间层测试。比如你在训练过程中,每迭代一个版本,都要跑一套benchmark看loss值。这种测试是研发的有机组成部分——你根本不知道下次迭代会不会过拟合,这种不确定性本身就是研发的特征。这类费用,十有八九可以算进去。
第二档:产品化的用户接受度测试。比如你把一个已经调好的模型,放到一个Demo页面里,让内部员工模拟客户提问。这种测试主要是为了确定“产品好不好用”,而非“模型本身有没有突破”。这类费用,税务那边大概率会认为属于市场推广或运营成本,不能加计扣除。我处理过一个做AI客服的企业,他们把500小时的内部众测费用全申报了,最后被驳回了近70%的金额,就是因为忽略了测试性质的区分。
第三档:合规性或安全红队测试。为了解决“税务居民”身份判定、识别“实际受益人”这类金融合规问题,你特意给大模型准备了一堆边界案例。这种测试既有技术不确定性(模型可能回答错误),又有明确的研发目标(提高模型的安全性)。如果测试过程中形成了新的算法调优方案,完全可以申报。但如果你只是用现成的安全工具测了一遍,没产生新的技术方案,那就悬了。
| 测试类型 | 能否加计扣除及原因 |
|---|---|
| 模型训练中benchmark测试 | 可以。属于研发过程中的数据验证,具有探索性。 |
| 产品功能泛化测试 | 谨慎。若仅验证已有功能,属市场活动;若发现新问题并引发算法修改,则部分可算。 |
| 合规安全红队测试 | 视情况。若产生新的对抗训练方法,可以;仅用现有工具,不可以。 |
费用归集的“潜规则”
就算判定测试属于研发活动,费用归集也是个大坑。很多AI公司把“GPU云服务费”、“数据标注费”一股脑全算进去。但税务上对研发费用的口径有严格限定。人工费、材料费、折旧费、设计试验费、其他相关费用,这五项是标准科目。大模型测试最烧钱的是算力费,这属于“设计试验费”中的试验用动力费。
难点在于:你得有证据链。我见过一家企业,把3个月的阿里云GPU账单直接堆上去,没有测试日志、没有技术文档、没有明确的研发立项书。结果税务局要求提供“测试对应的具体研发项目”证明。后来我们帮他补了《测试方案记录》和《测试结果分析》,才勉强通过。平时做测试时,一定要留好“干什么、为什么这么干、发现什么”的文档痕迹,哪怕只是写的很随意的内部Wiki记录,也比什么都没有强。
一堆测试如果同时服务于多个研发项目,需要合理分摊。我一般建议按GPU使用时长去分摊,参考阿里云或腾讯云的后台计费数据,这比较容易解释得通。千万别随便拍个比例,比如“估摸着50%”,那在稽查时基本等于送分题。
个人感悟:别把灵活当随便
干了这行6年,我最大的感受是:很多AI创业者习惯于“野路子”做事情——代码写得好,合规意识却停留在“我能解释清就行”。但税务上,解释需要文书。法律不是看你怎么想,而是看你怎么证明。我处理过一个客户,“云想智能”,他们用LLM做了半年内部RAG测试,结果被要求解释“测试与研发的直接关联”。我们花了三个星期,从Git提交记录、测试报告、技术周报里扒出了证据链,才保住那笔申报。代价是客户的CTO再也不愿意参与这种文书工作,他说“比写模型还痛苦”。所以我的建议是:一定要让业务部门和技术部门明白,那些看似无用的“文档”,关键时刻就是钱。
另一个挑战是“实际受益人”这一概念在测试中的体现。有些AI测试会涉及用户数据,但测试本身的目的可能是发现模型的偏差,调整训练数据。如果你对测试结果进行了系统性分析,并形成了新的算法或规则,那么测试费就能靠上研发。但如果你只是把数据一股脑丢进去,没做任何后续技术改动,那就天然像一种“数据清洗”或“体验测试”,很难跟研发挂钩。这中间的区别,就是有没有产生“不确定性问题的确定性技术方案”。
结论与实操建议
大模型测试费用能否享受研发费用加计扣除,不能一概而论。核心看两点:第一,测试是否属于研发活动的必要环节,具有探索性和不确定性;第二,费用归集是否有清晰的技术文档和项目链接。如果你在做的事,是“为了解决一个已知的未知问题”,那多半能行;如果你只是在调参、做产品外壳测试,那最好分账处理。实操上,建议AI企业设立《内部测试项目登记表》,每个大测试项目都做好立项、过程记录和结果摘要,这样在申报时,你才能挺直腰杆跟税务局说:“这就是研发。”
澄算通见解总结大模型测试费加计扣除的关键在于“测试目的”与“技术成果”的匹配。企业需避免将功能性验证与探索性研究混为一谈。我们建议,对测试场景实行“标签化管理”,明确划分基础研究、应用开发与市场验证三类活动,并配套相应的技术文档与费用明细,以在合规前提下最大化享受政策红利。真正的风险不在于费用本身,而在于缺乏支撑研发性质的证据链。