从版权交易平台到 AI 数据服务:图虫加码多模态 AI 数据服务能力建设
随着大模型技术演进,AI 对数据的需求正由“拼规模”转向“拼质量、结构与合规”。模型能力提升,越来越依赖高质量、可追溯、可合法使用的数据资产。
据国务院新闻办公室披露,中国日均 AI Token 消耗量已达 30 万亿级,半年内增长超 300 倍。在规模快速扩张的同时,数据质量、结构化程度与合规性,正成为制约模型效果与商业落地的核心因素。目前,高质量数据集规模已超过 400PB,占数据交易比重提升至 80%,数据标注、加工与合规流通逐步成为大模型研发的重要基础设施。
在此背景下,图虫正由版权内容平台向多模态 AI 数据服务延展,构建覆盖数据采集、加工、标注与交付的一站式服务体系,并在多个实际项目中得到验证,服务对象涵盖多家头部行业客户,覆盖互联网、智能制造等多个重点领域,相关合作案例持续落地,为大模型及行业模型研发提供稳定、合规的基础数据支持。
从内容积累出发,延展 AI 数据服务能力
图虫成立于 2009 年,长期深耕视觉内容领域,旗下业务涵盖图虫创意、IC Photo 以及图虫社区等板块,持续沉淀了8亿+版权关系相对清晰、结构多样的内容资源。
随着多模态 AI 的发展,内容资源在模型训练中的价值不断放大。围绕模型对图像、视频、音频、文本及 3D 数据的综合需求,图虫在原有内容与版权能力基础上,将业务延展至 AI 数据服务赛道,逐步形成面向模型训练的多模态数据资源与配套加工能力。
1. 多模态成品数据集
基于既有多模态数据库与数据集能力,图虫已沉淀海量丰富类型的版权内容资源,并完成核心数据的结构化与标签化处理。
相关数据覆盖动植物、风景、人像、建筑等多个高频与长尾垂类场景,可按需进行定制化组合,缓解在大模型训练过程中,出现的数据多样性不足与垂类样本稀缺问题,提升模型在真实业务场景中的泛化能力与稳定性。
2. 专业化数据标注服务
围绕真实业务场景需求,图虫提供覆盖文本、图片、音频、视频及多模态大模型数据的高精度标注服务。通过标准化流程与定制化方案相结合,实现从需求理解、任务拆解到质量审核的全链路管理。
在标注过程中,重点保障数据语义一致性、场景适配性与质量可控性,持续提升专业领域模型的训练效果。
3.定制化数据采集服务
针对垂直行业模型对数据针对性要求更高的特点,图虫为 AI 模型厂商与技术团队提供覆盖全球范围的垂类定制化数据采集服务。根据客户在行业、场景或语义层面的具体需求,开展定向寻源、采集、加工与开发,构建可用于模型训练与优化的专用数据集。
以合规素材赋能 AI 创作
围绕 AI 工具在内容生产环节的落地应用,图虫已与多款主流 AI 创作工具形成能力协同。通过向 AI 工具提供合规、可商用的素材库资源,支持 AI 生图、智能匹配与内容生成等场景,帮助模型在生成过程中调用具备明确版权来源的基础素材。
基于这一模式,由 AI 工具生成的内容可获得明确的商用版权授权,在提升创作效率的同时,降低企业与创作者的合规风险。
以版权与合规经验,回应 AI 行业数据新要求
在生成端保障素材合规之外,图虫也将这一套版权与合规经验延伸至模型训练数据层面。
随着生成式 AI 应用加速落地,训练数据的版权与合规问题日益凸显,数据来源是否清晰、授权是否完整、使用范围是否可追溯,已成为企业选择数据服务的重要考量。
基于多年内容审核与版权运营经验,图虫将成熟的授权管理与使用范围界定机制引入 AI 数据服务体系,通过明确数据来源、授权主体与应用场景,为模型训练及后续商业化提供合规保障,降低应用落地风险。
在此基础上,图虫推出“萤火虫基金计划”,以创作者自愿参与为前提,构建面向 AI 场景的内容授权与激励机制。“萤火虫共创计划 2.0” 在半年内吸引千余名签约创作者参与,产出并上架大量 HD 与 4K 实拍视频素材,其中符合标准的内容已授权用于 AI 模型训练。
通过实际项目验证,萤火虫计划逐步形成 AI 训练数据从合规获取到价值回馈的闭环,推动创作者、平台与 AI 应用之间的可持续共创。
图虫紧扣大模型训练与 AI 创作需求,将版权优势延伸为可落地的多模态 AI 数据服务,其数据集建设、采集标注及生成端合规供给等能力已获项目验证,为 AI 研发与内容生成筑牢合规根基。
未来,图虫将以合规为基、质量为核,推动相关能力在更多真实业务中验证复用,为 AI 产业高质量发展注入稳定数据动能。















