模型真的那么重要吗?

发布于 2021-09-21 13:47

在各行各业中,模型与数据的博弈在工业界中呈现出如下现象:
  • 没有人会在起始点拥有大量的标注样本,因为商业的本质是赚钱,而每个标注样本都是带有成本的。

  • 鲜有人会在工业应用中使用固定的训练/验证/测试集分割。

  • ……


这些话题目前在学术界所能看到研究很少。
 
一个最典型的例子是 — 交叉学科。在交叉学科应用中,尤其是实验科学中,由于可使用的数据量少(或没有),并且数据标注成本门槛高、成本高、周期长,使得现有几乎全部论文中提出的模型和方法都难以得到部署和落地。举例来说,在药物发现和化学材料筛选中,每个数据点都对应一个实验,需要耗费大量人力物力。由于这类问题的标签通常无法迁移,冷启动在所难免。现有的交叉学科AI研究很多(过于)着重于模型架构的设计,却忽视了对数据集和问题本身性质的研究。
上述设计的问题和可研究方向很多,其中主动学习就是一种和上述实际场景契合的方法:
  1. 它在起始点没有数据;

  2. 通过上一批数据训练出来的模型,对下一批待标注待实验的数据点进行筛选;

  3. 重复上一步,直到效果满意。


现有的研究试图通过对不确定性等信息度量的设计,提高有标注池对数据分布的代表性、混合策略、生成方法等手段实现主动学习,但它们都面临着性能瓶颈的问题;半监督手段和主动学习结合的方式能够较大地提升性能,但这样的做法并不能适用于所有的数据集,所以仍然面临难以落地的问题。

日前,纽约大学的博士生谭济民和浙江大学的赵俊博课题组,在传统的主动学习框架上提出一种新的方法:自适应主动学习(Adaptive active learning)。

自适应主动学习和传统主动学习最大的区别在于,每一步模型的训练所使用的数据是动态变化的。他们在主动学习的基础上,加入了「删除」这一动作来实现数据集动态变化的目标。实验结果表明,删除后的数据集更加高效,模型的学习效果更好。

9月22日,纽约大学的博士生谭济民和浙江大学的赵俊博课题组讲带来线上分享,介绍这一工作。


分享主题:一个必要的重新审视:模型 vs 数据

嘉宾简介:
  • 赵俊博,浙江大学百人特聘研究员、博导。人工智能方向连续创业者,接触多个领域:金融科技、电商、工业自动化、养殖、标注、医药等。纽约大学人工智能方向PhD,师从图灵奖得主Yann LeCun,截至目前论文引用数9200余次。

  • 谭济民,纽约大学医学院博士二年级在读,方向为生物医药与人工智能。目前工作项目包括医学影像,染色质结构预测和计算蛋白质组学。

  • 杨嘉南,浙江大学2020级博士生,人工智能方向,来自浙江大学数据智能实验室(Data Intelligence Laboratory of Zhejiang University, DILAB)。


分享摘要:到底是模型重要还是数据重要?这可能是一个亘古不变的辩论议题,甚至是目前学术界中诸多方法难以在工业界中落地的重要卡点。本次分享拟系统性重新审视模型 vs 数据,这里面蕴含大量可以研究的点,出现在数据供给侧层面,本次分享主要围绕主动学习和一个相对典型案例(交叉学科)进行技术介绍。

分享时间:9月22日19:00-20:00

直播间
直播交流群:本次分享设有QA环节,欢迎大家进群交流提问。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「主动学习」即可加入。

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

机器之心机动组
人工智能技术社区
11篇原创内容

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材