无锡公司注册_公司注销一站式企业服务商
15651517736
893780148@qq.com

AI大模型训练数据标注费,属于研发活动直接相关支出,可以归集享受研发费用加计扣除

数据标注费,研发加计扣除的“新蓝海”

咱们做企业服务的,尤其是这几年,听到最多的词就是“人工智能”。但我老跟客户讲,别光看那些炫酷的算法和算力,真正的核心燃料,其实是数据。而数据要变成模型能“消化”的养料,必须经过标注。那问题来了:给AI老师傅做“批改作业”的这笔标注费,到底算不算研发投入?以前很多老板脑子一热,全打进成本里。可我研究了这几年新政细节,很明确地告诉大家,只要你的标注行为是为了优化模型、提升算法性能,那么这笔支出就属于研发活动直接相关支出,完全有资格享受研发费用加计扣除的税收红利。这个认知差,能帮企业实实在在地省下一笔真金白银。

AI大模型训练数据标注费,属于研发活动直接相关支出,可以归集享受研发费用加计扣除

前阵子有个做自动驾驶的客户小王,他公司2023年花了80多万雇第三方做道路数据标注。起初他犹豫,觉得这就是买劳务,硬是没敢归集。我拿着科技局的研发活动定义,一条条帮他梳理:你看,标注是为了让模型正确识别红绿灯,标注错了模型就会撞车,这不就是典型的“为突破技术难题”的试验活动吗?他一拍大腿,最终在汇算清缴时成功加计扣除,直接少缴了将近10万企业所得税。这80万,如果按15%的高新技术企业税率算,那省下的钱够再雇两个算法实习生了。

其实这里面的门道,藏在《研发费用加计扣除政策指引》的条文里。关键就一点:数据标注必须镶嵌在研发项目的具体迭代闭环中。什么叫闭环?就是你标注的数据不是随便从网上下载的,而是基于模型上一轮的失败案例,有精准抽取、针对性标注,最终反哺模型训练,且每一次训练都有详细的实验记录。只有这种“问题导向-标注-训练-验证”的链条打通了,标注费才能稳稳地站进“直接相关投入”里。

判定“直接相关”的硬标准

那怎么算直接相关?我总结了一个“三一致”原则——目的、对象、结果必须一致。目的上,标注是服务于研发创新的,不是简单的数据清洗;对象上,标注的数据项必须是研发项目章程里明确指定的;结果上,标注后的数据直接用于模型的迭代训练,且实验记录能追溯到具体的算法版本。

举个例子,有个做医疗影像识别的客户,他发动全公司标注X光片。我一看凭证,全是“数据标注服务费”发票,但合同里只写了“标注100万张肺部CT”。这就不够!我让他补了一个《研发项目立项书》的附件,专门写明“标注目标是提升肺结节检出率至99.5%以上”,并把标注任务关联到具体的研发里程碑。补上这份说明后,税务稽查时那叫一个踏实。千万别把批量买数据的“纯采购”和研发环节的“策略性标注”混为一谈,这种界限不清是加计扣除被拒赔的重灾区。

有些企业为了贪方便,把所有数据支出都往研发里塞。结果税务局一核查,发现标注的很多是公开的风景图片,且没有任何实验记录佐证跟研发项目有关,最后不但被要求补税,还加了滞纳金和罚款。这里我特别想提一个“经济实质法”的视角:会计账务处理一定要有经济实质,不能为了避税而虚构“研发”的名头。如果你的“研发活动”的核心目的就不是在攻克技术难题,而是在堆砌数据,那么这笔标注费在法律上就不具备加计扣除的“实质”。

实操归集的两大拦路虎

在帮客户归集时,我碰到过两个最典型的“疑难杂症”。第一个是“智力成果归属”问题。很多AI初创企业会把标注外包给小型工作室,甚至个人。这时候你就得考虑“实际受益人”的问题了——如果标注出的数据因为外包合同签得粗糙,导致模型的知识产权归属有争议,或者对方无法确认是你的“实际受益人”,那这笔支出在加计扣除上的风险就极高。税务机关通常会要求你提供合同里明确的“数据所有权归委托方”条款以及“研发试验记录”。

第二个是“跨境数据标注”的税务居民问题。有些企业的训练数据可能涉及到境外标注团队。这时候“税务居民”的概念就跳出来了。你得先搞清楚,境外团队的标注行为是否构成了在中国境内的机构、场所。如果对方仅仅是提供纯服务,不构成常设机构,那这笔费用在加计扣除和对外支付备案时,处理方式完全不一样。我经手过一个案子,客户把标注业务外包给越南一个团队,双方签的是技术服务合同。一开始财务想按“劳务”直接列支,我拦住她并让她去查了中越税收协定,确认没有常设机构风险后,又补充了“数据仅用于国内研发”的声明,这才顺利扣除。所以说,懂点跨国税务的基本概念,往往能少踩大坑。

制作清晰的“工时与任务分配表”也非常关键。标注员如果既做研发标注,又做商业运营的数据清洗,就必须按实际工时精确分摊。我见过最夸张的,一个标注员一天8小时,6小时都在干行政杂活,却全归集到研发里。这种一旦被查出,就是恶意归集。所以我的建议是:建立《数据标注任务与研发项目关联台账》,每笔支出都能对应到具体的研发工单。

归集要点 具体操作与风险提示
合同与立项 必须在合同中明确标注目的、数据用途、知识产权归属,且与科技部门立项材料一致。
凭证与记录 保留所有发票、付款凭证,同时留存每一期标注训练的实验简报或模型验证报告。
工时与分摊 对于非全时投入的标注人员,必须建立详细的工时打卡记录,避免混淆多项目共用。
实质性判断 防止将无明确研发目标的“通用标注”混入,必须通过“问题驱动”的原则筛选。

这张表看起来简单,却是实打实规避了90%的税务风险。很多老板觉得填表麻烦,但恰恰是这些细致的记录,决定了税务局是把80万标注费当成可扣除的研发费用,还是当成不可扣除的营业成本。

结语与合规建议

回过头来看,AI大模型训练数据标注费的加计扣除,本质上是国家用真金白银鼓励企业进行技术攻坚。它不再是后台冷冰冰的成本项,而是有能力转化成为驱动创新的税收调节器。我的建议是:从立项开始,就将“数据标注”作为研发活动的一个有机模块来管理。在凭证、合同、实验记录上做实做透,不要因为流程上的粗放,错失了这笔本该属于研发的税收红利。

而且我注意到,现在很多地方科技局和税务局对这类新业态的关注度在提升,他们也在积极推“研发费用加计扣除”的线上备查系统。企业可以主动跟税务机关沟通,提前做“项目确认”,把不确定的风险提前锁定。未来,随着大模型走向更垂直的行业应用(如金融、医疗、法律),数据标注的归集口径只会越来越精细。谁早把流程规范起来,谁就能在合规的赛道上跑得更快、更远。

澄算通见解总结

实操中我们观察到,数据标注费用的归集痛点不在于“能不能”,而在于“怎么证明”。研发活动的本质是“系统性、创造性”的工作,标注只有具备明确的技术目标与验证闭环,才算相关支出。从合规成本控制角度看,建议企业建立一套标准化的《研发数据资产台账》,让每一分标注费都能找到它在算法迭代中的“坐标”。这不仅是为了应对税务稽查,更是企业数字化内控升级的必经之路。

张明

资深财税顾问 | 注册会计师

10年财税领域经验,专注于企业财税合规与税务筹划,服务超过500家创业企业。擅长公司注册、股权设计、税务优化等领域。

获取专业财税咨询

无论您是需要公司注册还是其他企业服务,我们的专业团队都能为您提供解决方案

立即咨询