专注于声音指纹识别,「ACRCloud」想让听歌、搜歌这件小事更简单

36氪 显示图片

试想,当你听到一段喜爱的旋律却不知道歌名的情况下,第一反应或许便是打开微信 “摇一摇”,用手机录一段听到的歌曲片段来识别,而这背后的本质便是通过音频指纹检索的方式获知到歌曲的名称。今天要聊的 ACRCloud ,同样也是一家专注于声音指纹技术及应用的公司。

简单来讲,音频指纹技术是指通过特定的算法将一段音频中独一无二的数字特征以标识符的形式提取出来,用于识别海量的声音样本或跟踪定位样本在数据库中的位置,作为内容自动识别技术的的核心算法,可广泛应用于音乐识别、版权内容监播、内容库去重和电视第二屏互动等领域。

据联合创始人Tony介绍,在ACRCloud正式成立之前,公司前身其实是 Syntec TV,主要应用于电视广告互动领域。在Tony看来,在电视广告中,不受角度及光线影响的声音识别是比二维码更有效的互动方式。但随着业务的不断发展,基于音频指纹识别,公司也在逐渐开始往其他方向进行拓展。ACRCloud 已先后研发了音乐识别、哼唱识别、直播互动触发、点播视频识别等多项自动识别服务,以及为各大互联网运营商及广电合作伙伴提供稳定、可靠的内容识别平台。目前,ACRCloud除了对接电视广告互动业务之外,也相继推出了听歌识曲、音乐监播两款核心产品,其中:

听歌识曲,ACRCloud Music 主要服务于音乐播放器、流媒体,以为用户在检索音乐时提供直接便利。官方表示,ACRCloud通过跟音乐数据库合作方式,覆盖了全球超4000万的音乐声音指纹库,同时支持Youtube、Deezer、Spotify、iTunes、Music Story 等第三方歌曲ID信息,还支持服务运营商的曲库定制。目前,1对1的识别准确率可达99%以上,哼唱识别的模糊匹配则会受到用户的哼唱水平影响,理想状态下平均准确率可达95%,平均2-6秒可识别出歌曲和播放进度,同时也会支持针对音乐变频变速和提前录音的识别。

音乐监播,Broadcast Monitoring可监控、统计各种以流媒体形式播放的电台及电视台中播放的音乐,并形成报表以便于版权管理单位、唱片公司、艺人和数据研究机构对电视及电台等媒体音乐播放情况的统计与实时数据报告。目前,在全球的监测频道已达数千个,更多服务于国外市场。

除此之外,通过ACRCloud提供的接口和SDK,方便各种类型的智能设备企业对环境中播放的音乐进行识别,未来也可以广泛用于车载音乐的识别、智能音响、酒吧灯光根据歌曲切换等自动化领域。

至于如何推向市场,Tony表示,目前ACRCloud主要服务于国内、国外市场的电台广播等流媒体、第三方情报分析机构等。官方表示,鉴于本身在行业的影响力及技术的先进性,现阶段的客户多是主动找过来;此外,也会通过渠道合作的方式进行拓展。而针对不同客户的需求,可以通过数据调用、年费、监控频道、电视并发量等不同方式获取盈利,目前已实现千万级营收,典型的客户包括淘宝、乐视、小米、多米、上海文广、Musixmatch等。

事实上,音频指纹技术最早应用于听歌识曲功能,基于音频指纹技术,全球著名歌曲识别应用有Shazam、Musixmatch、Soundhound等。但从目前的市场情况来看,除了一些公司如Facebook、Google、Shazam等使用自主研发的音频指纹技术外,大多数公司均采用第三方的技术服务。相比之下,Tony表示核心优势在于技术上具有一定的领先性,在2016国际音频检索评测大赛(MIREX)中, ACRCloud在“音频指纹”及“哼唱识别”项目中获得双项第一。

团队方面,核心成员多来自于国内外音频及图像领域,在音频及图像检索算法、技术创新和企业管理等方面具有丰富经验。