数据标注这份工作,也不是谁都能做的

作者: 采集侠 分类: 科技 发布时间: 2019-01-20 00:03

在一排一排的电脑前,这里的年轻人们一边浏览照片和视频,一边标记他们看到的每样东西。有的是在为无人驾驶公司标注路上的汽车和红绿灯,有的是在为无人售货公司标注面包牛奶巧克力。

数据标注这份工作,也不是谁都能做的

河南省郏县睿金科技公司总部的工人正在标注数据

据《纽约时报》的报道,在位于中原腹地的河南河北,数据标注正在渐渐成为最新的劳动密集型行业。

有多少人工,就有多少智能。目前的人工智能在被投喂了大量数据之后,才能认出三岁小孩子都能认出的东西,学会“黑猫白猫都是猫”。

数据标注这份工作,也不是谁都能做的

当然,狸花猫也是猫

然而,在人工成本更高以及对数据标注要求更复杂的硅谷,工程师们需要寻找其他出路来获取大规模的高质量有标记数据。

众包

在人工费用高昂的硅谷,工人的最低时薪约为 13 美元左右。对于很多创业公司和中小企业来说,雇工人标注数据实在承受不起。最经济的方法就是把大量任务拆分成小任务,再以低廉的价格分发到用户手中。

其中最有名的在线众包平台就是亚马逊旗下的 Amazon Mechanical Turk 了。

在 Mechanical Turk 上,发布者可以自行上传标注任务,用户只需要填写简单的个人信息就可以开始工作。为了搞清楚 Mechanical Turk 到底是怎么工作的,硅星人也注册了一个账号。

在 Mechanical Turk 的开始页面,有各种奇奇怪怪的任务。这其中包括“标注厨房里的事物”,“找出电子邮件地址和发件人名字”,“给图片中的物体勾线”等等。

每个任务中包含若干个被称为 HIT(人类智能任务,Human Intelligence Task)的小任务,标注员每完成一个小任务可以获得相应的报酬。

其中最便宜的一个是给图片中的建筑分类,判断这个小楼是属于拉丁裔、亚裔还是中东人。每完成一个可以获得 1 美分(约 7 分人民币)报酬。

数据标注这份工作,也不是谁都能做的

而最贵的一个,是找一位中文母语者按要求录 150 句中文,可以获得 6 美元。

数据标注这份工作,也不是谁都能做的

除了这些简单易懂,点一下鼠标就能完成的任务,在 Mechanical Turk 上还有更多高要求的标注工作。

比如,有一个任务要求标注者看 10 秒钟视频,并用一句话描述视频里的内容。在描述时,不能出现拼写和语法错误,也不能加以主观臆断,在囊括所有重要内容的同时又不能描述太多不重要的细节。

而实现这么一个高要求的任务,发布者只需要付出 0.3 美元赏金。

数据标注这份工作,也不是谁都能做的

建议家长拿这个玩意儿训练小朋友写英语短句

尽管任务复杂报酬低廉,Mechanical Turk 上的任务还是供不应求。一些低要求的工作被放出来不到十秒,就被抢光了。

截至2011年1月,Mechanical Turk 上的注册工人数量已经达到了 50 万,在这些人的帮助下,有无数资金不充裕的人工智能研究得以实现。

此外,在网站输入验证码时,其实我们也在顺便做数据标注,只不过得不到报酬罢了。

数据标注这份工作,也不是谁都能做的

比如这种标出路牌的验证码

而其实, Mechanical Turk(直译为机械土耳其人)的名字早就剧透了人工智能训练的本质。

1769 年,初代 Mechanical Turk 的发明者——匈牙利机械师沃尔夫冈·冯·肯佩伦制造了一个“能战败人类”的下棋木偶。这个“智能”木偶在欧洲和美洲几乎战无不胜,连拿破仑一世和本杰明·富兰克林都成了它的手下败将。然而直到 1857 年,《国际象棋月刊》才揭露,其实傀儡里坐了一个象棋国手。

数据标注这份工作,也不是谁都能做的

而电脑屏幕背后的人,又和机器里坐着的象棋国手有什么区别呢?

和专业人士合作

众包模式固然有种种优点,但它的缺点也是致命的。

当我向一位 Google 工程师朋友提起 Mechanical Turk 的时候,他表示“我们不敢用 Turk 标注”。

因为众包模式,通过 Mechanical Turk 标注的数据良莠不齐,花钱标注已经花了大功夫,整理和“清洗”数据又要浪费很多时间。尤其对于很多专业领域来说,普通人根本无法完成数据标注。

数据标注这份工作,也不是谁都能做的

比如这种,你能告诉我哪个是有病变的吗?

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!