博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
主动学习-1
阅读量:6229 次
发布时间:2019-06-21

本文共 1110 字,大约阅读时间需要 3 分钟。

   

主动学习目的:

尽可能少的标注,获取尽可能好的训练结果

一般来说我们希望我们训练的模型能够对于natural distribution也就是说truly underlying distribution表现最好

   

对于数据集合的随机抽取标注能够做到这一点,但是对于主动学习比如上面的策略,我们会倾向选取靠近分类面的点,那么我们的训练集合的数据点就会集中在分类面两侧,也就是说随着我们主动学习策略不断迭代,我们选取的训练集合会离truly underlying distribution越来越远

   

我们真的需要对这样一个训练集合进行训练 optimize?

   

这就引出了Biased Sampling

   

The labeled points are not representative of the underlying distribution

   

   

提问: 这会是主动学习的本质带来的?主动学习是要选取choosing instance而不是随机选取instance

回答: 我们是要选取最有信息量的点,于此同时我们期望选取的训练集合能够在随机数据也就是truly underling distribution上表现最好,因此看上去这里有一些tradeoff或者说是conflict,因此我们这里就是要解决这个问题。

   

   

这里主动学习策略会误认为5%绿色是红色。。 但事实不是这样的

   

因此这里的主动学习算法不是consistant

   

consistant的定义:

当你选取的点集趋近无穷的时候,对应的训练集合的训练出来的模型应该是趋近最优的

   

Even with infinitely many labels, converges to a classifier with 5%

error instead of the best achievable, 2.5%. Not consistent!

   

   

Adaptive query能否解决这个问题?

   

There are two distinct narratives for explaining how adaptive

querying can help.

Case I: Exploiting (cluster) structure in data

Case II: Efficient search through hypothesis space

   

Case I: Exploiting (cluster) structure in data

   

这里的问题是定义不清晰,聚类本身存在粒度问题,5个cluster,6个,7个。。。?

另外每个cluster内部的label可能是不一致的

   

转载地址:http://rjtna.baihongyu.com/

你可能感兴趣的文章
苹果iMessage上线Business Chat功能
查看>>
戴尔EMC、日立数据系统和NetApp现已出货博科第六代光纤通道方案
查看>>
南航率先加入综合交通出行大数据开放云平台
查看>>
英特尔应当收购联发科原因:成功进入移动芯片市场
查看>>
宗宁:企业微博品牌榜的新时代意义
查看>>
实例:某大型企业遭受勒索蠕虫袭击纪实
查看>>
OA选型之技术与性价比
查看>>
《Clojure数据分析秘笈》——1.8节从网页表中抓取数据
查看>>
《交互式程序设计 第2版》一3.6 导入外部库
查看>>
“云计算”让城市智慧起来
查看>>
Google计划收购数据科学社区Kaggle
查看>>
中国RFID市场规模及结构浅析
查看>>
厂商掘金智能家居市场 三大路径殊途同归
查看>>
京津冀大数据走廊:张北风电光伏成亮点
查看>>
任正非:80后90后是一代将星在闪烁
查看>>
Oracle 12c多租户特性详解:PDB 的备份与恢复
查看>>
《Adobe Illustrator CS4中文版经典教程》—第0课0.1节简 介
查看>>
Dat Data 13.5.1 发布,点对点数据共享
查看>>
在浏览器中体验 Ubuntu
查看>>
中国证实互联网故障源于根服务器遭攻击
查看>>