Image

“千言”数据共建计划发布 已涵盖7大任务

2020-08-27

近年来,尽管自然语言处理技术飞速发展,但在模型鲁棒性、可解释性、复杂知识表示与文本融合、跨模态语义理解等方面依然面临挑战。为了解决自然语言技术发展中所面临的挑战和推进中文信息处理技术的进步,8月25日,百度大脑语言与知识技术峰会在线上召开,百度联合中国计算机学会、中国中文信息学会共同发布“千言”数据共建计划。同时,百度技术委员会主席吴华发布了算力共享计划,希望通过数据集的共建与算力的共享,与学界、产业界共同推进技术进步。

据介绍,截至目前,第一期千言项目已涵盖了7大任务、20余个中文开源数据集,包括开放域对话、阅读理解、机器同传、情感分析、语义解析、信息抽取和文本相似度等。由百度携手来自哈尔滨工业大学、清华大学、中国科学院信息工程研究所等10所顶尖高校和企业的数据集作者共同建立完成。吴华表示,“希望通过这些计划,与业界同仁一起解决中文信息处理技术发展中的挑战,并在世界范围内建设中文信息处理影响力。”

除两大重磅计划公布外,此次峰会凝聚了百度在语言与知识领域十年的技术积累和产业实践。百度CTO王海峰发表主旨演讲,解读了百度语言与知识技术的发展历程、最新成果及趋势展望,百度集团副总裁吴甜重磅推出5款产品的新发布,加速技术大规模应用发展。

吴华表示,在未来3年中,千言计划面向超20个任务,收集和建设不少于100个中文自然语言处理数据集,全面覆盖知识图谱、语言理解、语言生成、跨模态融合、NLP 应用系统等多个领域,也期待更多数据集作者能够加入共建,共同推动中文信息处理技术的进步。 

除数据外,算力是语言与知识技术发展中面临的另一大挑战。超大规模深度学习模型带来显著效果提升的同时,算力的需求也呈现出指数级的增长。算力的缺乏已经成为了许多开发者、研究人员进行技术研发的一大瓶颈。为此,百度发布了语言与知识算力共享计划,通过AI STUDIO平台,百度将提供算力支持,为语言与知识技术开发者助力。吴华表示,后续百度会邀请“千言”数据集的使用者,百度语言与知识开源开放的用户以及更多的中文语言与知识技术开发者、研究人员免费使用这些算力。(一鸣)

责任编辑:郭旭晖 龚丽华
阅读
转发
点赞
评论
加载中...

相关新闻