近日,百度在其官方公号上发布了一份引人注目的年终盘点,介绍了“用人工智能做的8件小事”。从推动智慧农业到开发无障碍技术,从推动落后地区教育公平到AI数字人助力农产品销售……人工智能切实提升了人们的生活质量,而非仅仅停留在行业趋势的宏大叙事中。
然而,在这些成就的背后,有一项基础而关键的工作常常被忽视,那就是数据标注。数据标注作为AI技术的“营养来源”,不仅是模型性能优劣的关键因素,更是推动AI产业应用落地的重要力量。
2024年12月4日,百度智能云(韶关)人工智能基础数据产业基地(以下简称“百度智能云韶关数据产业基地”)正式启动运营。这不仅是韶关与百度公司合作的里程碑,更是韶关抢抓人工智能发展战略机遇,打造数据要素集聚发展高地、加快构建绿色算力产业体系,强力推进数字经济创新提质的重要成果。
目前,基地已具备语音、图像、视频、文本等多种数据标注场景的标注能力,培育数据标注企业6家,可同时容纳200名数据标注员。
人工智能背后的人工力量
走进位于武江区粤港澳大湾区数据应用产业园A栋4楼的百度智能云韶关数据产业基地,百余名年轻人正坐在电脑屏幕前,对着眼前所观察到的每一个细节不断进行着拉框、标点等操作。这些图片、视频、文本等数据就像老师写“教案”一样,机器人学习后才能变得更聪明、智能。
该基地由韶关数投公司与百度公司于2024年5月签约合作共建,并于7月15日试运营。
“我是韶关人,之前从事会计工作,去年7月入职成为一名数据标注员。”今年26岁的陈美怡告诉记者,出于对AI数据服务产业的好奇,以及一份在韶关当地还算中等水平的薪资,让她决定来“试一试”。
陈美怡主要负责自动驾驶和应用识别相关项目,需要通过标注平台识别并标注车辆、行人、交通标志等,标注后的数据将被用于训练AI模型,提高其识别和处理能力。这些对于她而言是完全陌生的领域,通过入职培训和实操训练,她才能掌握工作要领进行操作。
数据标注行业对于今年27岁的李卓彬而言,同样也是一份相对新兴的行业。“我大学期间学习的是美术相关专业,能够熟练使用ps等软件,所以这份工作对于我而言并没有什么操作上的难度。”
李卓彬所承担的主要工作是为自动泊车技术、无人驾驶提供高质量的图片、文字等标注数据,进而让车载大模型更具学习能力。
“画框也是有门槛的,比如检测目标是车,我们就要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能‘学坏’。如果我需要对地方方言或外国文字进行标注,就需要掌握那门语言。”李卓彬表示,“在工作中能明显感受到各行各业对高质量、高精度的数据标注需求持续增长,我打算先把数据标注工程师证书考下来,未来才能应对这个行业的机遇与挑战。”
据统计,百度智能云韶关数据产业基地数据标注员90后占比16.87%、00后占比83.13%;大专及以上人员占比96%以上。
“大模型的发展为标注产业的发展带来了新的浪潮和增量,生成式AI的加速落地,使专业场景化数据的需求显著提升。”百度智能云韶关数据产业基地负责人表示,技术发展相对应的数据标注需求,无论是从数据规模、质量、标注复杂度,还是对智能算法、作业人员质量的要求,都经历了从简单到复杂的演进路径,如今数据标注已从早期的低门槛、劳动密集型产业,逐渐向智能化、自动化、专业化程度提升,成为兼具技术密集型和知识密集型的优质数据产业。
数据标注驱动AI发展
近年来,韶关在国家“东数西算”战略风口乘风而上,围绕数据中心集群建设大力布局新兴产业,广东省第一批数据要素集聚发展区在韶关设立,为数据要素相关产业发展塑造良好生态。
当前,韶关已成功吸引了22个数据中心项目,投资额达621亿元。随着算力基础设施的不断完善,韶关为企业和创业者提供了丰富的资源。
刘鑫星是一名韶关学院信息与计算机学院的大四学生。他认为,在百度智能云韶关数据产业基地2个月的实习经历为他打开了大数据产业的“一扇窗”,也让他看到未来韶关在人工智能和大数据产业发展的万千可能。“我想从事AI和大数据相关行业,但目前韶关的就业机会对比北上广深而言还是比较少。这次实习的经历,令我更加期待未来有更多的企业入驻粤港澳大数据产业园,能让我为家乡的数字产业发展贡献一份力量。”
事实正如刘鑫星所展望的那样,百度智能云韶关数据产业基地为AI模型训练提供了高质量的数据,这不仅能为韶关带来新经济增长点,提供更多就业岗位,与其相关的算法、算力也会因为这一产业发展而得到带动,承载着韶关未来产业创新的希望。
作为深耕人工智能技术多年的公司,百度有全国领先的市场份额,有基于大模型重构的智能化标注算法,有服务于全场景的标注能力,还拥有完备且庞大的资源生态,通过建设专业的标注基地,保证标注所需的高质量标注人员供给。
“数据标注作为高附加值产业,将有力推动韶关数据服务产业集聚和数据人才培育。”百度智能云韶关数据产业基地负责人说道,“通过百度智能云韶关数据产业基地的建设,百度将自身的技术能力、运营经验等提供给韶关,同时开展数据标注与标注企业孵化、标注人才的培养与认证,促进区域数据的开放、共享与流通,为韶关提升数据要素供给能力和数字技术创新能力,加速数据产业生态培育,实现区域数据产业的全面发展。”
同时,记者注意到,国家数据局在去年举行的多个会议上,强调了数据标注的重要性,并明确了要探讨建设国家级数据标注基地的目标。由此可见,百度智能云韶关数据产业基地不仅仅是地方经济发展的助推器,更是助力国家数字经济战略的一部分。
百度智能云韶关数据产业基地负责人表示,未来,百度智能云将以韶关基地为抓手,打造人工智能数据底座,提升数据服务能力,探索更多人工智能应用场景,促进韶关形成数字产业集聚,进而推动人工智能产业链的发展壮大。
相信在不久的将来,百度智能云(韶关)人工智能基础数据产业基地将不仅是一个产业平台,更将发展成一个推动数据技术、商业模式和人才培养的创新高地。(转载韶关日报 熊恬)
(严禁第三方复制和转载)