2020年2月,“人工智能训练师”正式成为新职业并纳入国家职业分类目录,随着数据标注这一行业被越来越多的人所熟知,之前关于数据标注我们也讲过很多,今天咱们从数据标注本身出发,说说数据标注这个行业。
一、什么是数据标注
数据标注是人工智能产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据,美国加州科技大学校长秦志刚教授在接受科技日报记者采访时表示,机器识别事物主要通过物体的一些特征。被识别的物体还需要通过数据标注才能让机器知道这个物体是什么。
二、数据标注的工作内容
人工智能就是让机器具备人类的思维和行为方式,而数据标注就是通过人类标注正确的数据样本,让机器学习成长的一种方式。数据标注师的工作就是对图片、语音、文本、视频等数据内容进行标注,使用的标注工具通常有2D框、3D框、点标注、线标注、语义分割等等。
三、常见的数据标注类型
数据标注的类型非常多,比如文本分类,图片拉框,语音转写,人像打点等。下来我们就几个常见的标注业务进行简单的讲解。
1.图像的拉框/打点
图像标注的是最常见的一种标注形式,且对标注人员的要求不高。计算机需要看到人类眼睛看到的东西。例如,人类有识别和分类物体的能力。同样,我们可以使用计算机视觉来解释它接收到的视觉数据。这就是图像标注的作用。
常见的领域:人体拉框、车辆车牌、机械影像等主要应用在人体识别、物体识别等领域。
2.语音转写
语言标注与生活中的众多方面息息相关。语音转写指听一段语音,语音标注即标注人员把所听到语音的内容转录出来形成所对应的“文字”,并不断修正语音和文字之间的误差。
语音标注常见的领域:客服录音语音标注、即时通讯工具语音标注等。主要应用于语音识别领域。
3.文本标注
文本标注指将文字、符号在内的文本进行标注,让计算机能够读懂识别,从而应用于人类的生产生活领域!
文本标注的常见领域:文本标注应用范围很广泛,例如客服行业、金融行业、医疗行业等。
应用类型主要有数据清洗、语义识别、实体识别、场景识别、情绪识别、应答识别等。
4.OCR
OCR是光学字符识别的缩写,OCR技术简单来说就是将文字信息转换为图像信息,然后再利用文字识别技术将图像信息转化为可以使用的输入技术。其本质就是利用光学设备去捕获图像并识别文字,将人眼的能力延伸到机器上。
目前OCR文字识别行业上主要应用于票据、身份验证、内容审核、教育、保险、医疗、交通以及拍照识别/翻译等领域上。
5.3D拉框/打点
3D标注用于从2D图片和视频中获得空间视觉模型,测量物体间的相对距离和得到灭点,目标物体包括车辆、行人、广告标志和树木等。
四、数据标注行业及数据标注岗位浅析
行业持续性:
如果将人工智能比作“火箭”,那么,数据就是助推火箭上升的“燃料”,人工智能与数据标注的关系密不可分,人工智能无论是在企业需求还是在产业链都是稳定增长,数据标注行业基本会随之发展的。
工作多样性:
不同的平台及行业对于数据标注的规则和要求各有不同,因此标注行业会随着订单去接触到新鲜的事物,激发学习能力,相比普通的职业可能会更早地接触到未来各行各业的发展方向,及未来生活的真实场景,从而有一定的时间差和信息差的优势,找到更多的机会。