近日,阿里云天池重磅发布“天池科研加速计划”。该计划将面向国内外科研人员,提供在线训练的天池实验室工具以及免费AI算力资源,赋能学术科研相关创新工作全面提速,加快科研成果落地进程。
作为大赛场景的重要升级,天池这一举措将帮助TOP高校及科研院所实现在线使用阿里云的算力资源,进一步赋能高校开展人工智能学科建设,助力学术研究和科研创新快速发展,夯实技术创新升级基础,进一步赋能我国相关技术领域培养AI进阶人才。
聚焦认知智能领域,天池首发两大热门课题
“天池科研加速计划”初期聚焦于“短视频highlight检测”与“电商搜索相关性”两大首发课题,围绕当下互联网热门课题进行深入研究。
近几年,短视频内容形态快速崛起,相比传统长视频,短视频更符合移动化、社交化的趋势,用户规模迅速扩大。此次天池开展的“短视频highlight检测”课题正是通过对电商场景的短视频(10s-5min)进行深度语义内容理解,结合深度学习、多模态融合分析、机器学习等手段,代替原本手动操作截取视频的繁琐,自动为用户截取并生成时长在5s左右的视频highlight片段作为视频动态封面,有效帮助用户在有限时间内全方位展现商品信息,提升用户体验,促进点击等关键业务指标。
而“电商搜索相关性”课题将更为深入的研究电商搜索引擎相关性模块,通过人工智能算法从商品标题文本计算与查询文本的语义相关性,判断查询文本和商品标题语义是否相关。一般采用深度模型,以查询和商品标题文本作为输入,输出0/1的相关类别标签或者0-1之间的相关性分数,从评估商品和查询的语义相关性层面,提升用户使用过程中的体感。
该课题涉及计算查询文本和商品标题文本语义匹配程度,在学术界也有类似的研究方向。但不同之处在于,除了人工标注样本以外,通常的方案是采用搜索日志中的点击数据训练相关性模型。但在电商搜索领域,用户的点击行为受到相关性、商品价格、展现位置、用户个性化偏好等多方面因素的综合影响,其推算过程与结果更为复杂。“电商搜索相关性”课题是一个有价值并且有挑战的研究课题,其研究结果也将对整个电商领域的搜索推荐算法有深远影响。
随着短视频、直播等各种新模式的出现,消费者对于推荐系统有着更多元化以及更高的要求,对于消费者需求的认知推理工作也就必须获得更系统化的解决方案。正是基于此,天池在全球月活用户和流量最大的电商平台手机淘宝的推荐系统上,不断打磨和落地第二代AI系统认知智能计算平台。
该平台主要包括三个模块:基础数据层、推理引擎层和用户交互层。数据基础层专注跨领域知识图谱的构建,打通跨域跨场景各类行为数据,全方位建模经济体内行为,差异化理解多模态行为数据背后的含义,在意图感知的实时性与认知深度间做平衡,层次化强化消费者理解。推理引擎层则聚焦多模态预训练和理解,对商品理解和进行全域召回,加强手淘生态建设,利用超大规模图神经网络系统进行消费者意图推理。用户交互层,则会通过用户交互的视觉智能和文本智能,通过短视频改变和引导购后消费者心智,理解消费者意图,助力消费者决策,同时填补目前学界和业界空白的基于用户交互的弱监督内容理解方向。
以科研加速计划为契机,逐步上线数据集开放计划
云计算的逐步普及为各高校和科研院所大大降低了计算能力的成本负担,优质数据的稀缺成为了科研机构和个人开发者在研究过程中的较大阻碍,很大程度上影响了学术研究的前瞻性与先进性。
作为一名研二海洋遥感领域研究生,越天骄在疫情期间除了上网课,还需要完成毕业论文初步研究。但目前能够搜索到的开源数据在精度和实效性上,显然不能满足越天骄的研究需要。如何获取数据成为越天骄论文完成阶段的最大问题。在天池平台上活跃着大量类似越天骄这样的学生。他们希望能够有优质的开源数据集帮助他们论文的完成与发表。
为了更好的满足开发者科研场景需求,天池将在未来推出三方合作的垂类数据集开放,陆续推出海洋、天文、医疗、农业、工业、交通、新零售等垂类开放入口,致力于打造业界数量和质量双领先的AI数据集开放门户。告别过去数据滞后单一等问题,为各科研机构和AI开发者们提供海量优质数据集。通过深层次的资源共享开放,推进人工智能相关学科的建设与研发,吸引各环境中的潜在AI开发者,赋能AI领域人才培养,进一步加速我国人工智能领域相关工作向更高层次发展。
当然,优质的数据集离不开大量用户共同参与内容生成共享。未来,天池还将联合数据合作方发布数据集创新大赛、数据集长期英雄榜等活动,通过一系列赛事活动,号召全球AI领域人才关注加入,丰富数据集的数据多样性与准确性,同时为各开发团队提供数据助力,在更广范围内形成人工智能领域的共赢生态效应。