2022 年第十届 CCF 大数据与计算智能大赛正式开赛,规模宏大、含金量高
2022年大数据与人工智能领域年度盛事——第十届CCF大数据与计算智能大赛正式拉开帷幕!规模宏大、阵容豪华、含金量高、奖励丰厚,在行业内具有良好的知名度、关注度和认可度。堪称“年度最有价值的国际大数据和人工智能盛会之一”。大赛介绍
CCF大数据与计算智能大赛(CCF Big Data & ,简称CCF BDCI)由中国计算机学会于2013年创办,是大数据领域算法、应用和系统的大型挑战赛事和人工智能。迄今已成功举办九届,吸引了来自全球25个国家、1500余所高校、1800余家企事业单位、80余家科研机构的16万余人次参会。已成为中国大数据和人工智能领域最具影响力的机构。它是世界上参与规模最大、最成熟的综合性赛事之一。
经过十年的努力和创新,2022年第十届CCF BDCI将进一步聚焦数字经济技术发展和人才培养,助力推动我国大数据技术和产业生态发展。大赛收集了百度、华为、360等10余家知名企业和科研机构的大规模数据和真实场景,形成了涉及图像识别、自然识别等不同技术方向的20余道赛题。语言处理、数据挖掘和系统优化。通过在线排名自动评审和院士专家评审相结合的方式评选出优秀团队。
比赛亮点
国际权威赛事
由中国计算机学会(CCF)、CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF高性能计算专业委员会、CCF计算机安全专业委员会、CCF计算机应用专业委员会、CCF软件工程专业委员会、教育部主办易办由发展中心、兰亭、北京数联众创科技有限公司联合主办,大赛平台(DF平台)作为大赛官方平台,提供专业支持和服务。
顶尖专家齐聚
在梅红、李国杰、倪光南、徐宗本等七位院士的指导下,百余名国内外学术专家和来自百度、华为、360等十余家知名企业的技术专家组成了大赛专家委员会,产学研结合,共同支持赛事。
百万级奖项
总奖池近百万元。入围入围者将获得政府和知名投资机构的招聘、投融资、孵化支持绿色通道,以及各合作单位提供的项目成果申报和试点机会,以及周冠军以及邀请名单。等待比赛和各种活动领取礼包。
顶尖企业共创
国内各技术领域顶尖企业——百度、华为、360、筑云、大观数据、计算、联通数码、书院灵科技、智能芽、蚂蚁科技研究院等企业作为竞赛合作伙伴,共同打造顶级赛事。
探索硬核技术
大赛收集重点行业和应用领域需求,以前沿技术和行业应用问题为导向,旨在推动行业发展和产业升级。它利用众智、众包的方式,汇聚国内外产学研的智慧,共同探索前沿硬核技术。
精选优质竞赛题
精选20余道高质量赛题,涵盖自然语言处理、数据挖掘、计算机视觉等各个技术领域,以及知识挖掘、分类问题、图像分割、知识图谱、性能优化、图计算、关系提取等等技术方向。为不同研究方向的数据爱好者提供多维度的参与机会。
共同构建开源生态
如果条件允许,所有入围作品都将开源,通过全球技术精英的力量,惠及所有大数据和人工智能参赛者、学习者和实践者。
竞赛与实践结合促进学习
比赛采用竞赛与训练相结合的模式,以大奖赛和训练赛并举,以赛促学,以赛促学。鼓励玩家在训练赛道上分享开源,帮助初学者培养基础能力,协助大学开展相关专业和课程教学实践。工作。
跟踪竞赛问题
算法轨迹
精通各种算法并热爱编程?
快来【算法赛道】与数据科学爱好者“编码”PK!
《基于文心CV大模型的智慧城市视觉多任务识别》
出题单位:百度
比赛奖金:5万元
技术方向:图像分类
难度等级:★★★
大赛背景:近年来,大型预训练模型一次又一次打破记录,展现出惊人的成绩。然而,由于计算能力和存储的限制,大型模型无法直接部署在边缘设备上。针对大型模型的开发和部署,VIMER-UFO提供了One for All解决方案,将不同参数量、不同任务功能、不同精度的模型训练过程变成训练一个超级网络模型。
竞赛任务:参赛者需要使用 ()深度学习框架,基于人脸、人体、车辆、产品四大场景任务训练统一的视觉模型。
《系统访问风险识别》
提问单位:筑云科技
比赛奖金:5万元
技术方向:分类问题
难度等级:★★
大赛背景:在当前IAM的探索过程中,最容易实现的方法是基于规则的行为分析技术。它具有很强的可理解性,可以很容易地与身份认证技术联系起来,但它是基于经验的,缺乏数据层面来证明某人是否试图窃取/验证非法获得的身份信息,或者正在使用被盗的身份。信息。
竞赛任务:根据用户历史系统访问日志以及是否存在风险标记等数据,结合行业知识,构建必要的特征工程,建立机器学习、人工智能或数据挖掘模型,并利用模型预测未来是否存在风险。系统访问会存在风险。
《高端装备制造知识图谱自动构建技术评价任务》
出题单位:大观数据
比赛奖金:55,000日元
技术方向:知识图谱关系抽取
难度等级:★★★
大赛背景:各高端设备领域的故障案例文字是由业务专家或专业维护人员撰写的描述相关设备异常情况及排除步骤的记录。其利用率受到数据结构化程度的影响,因此识别数据中的问题核心实体(例如组件单元、性能表示、故障状态和故障检测工具)以及它们之间的关系至关重要。
竞赛任务:通过从大量故障案例文本中提取部件、性能表征、故障状态、检测工具等实体及其关系,为后续构建故障知识图谱以及智能故障维护和真实故障打下坚实的基础。 ——高端装备制造业的及时诊断。该任务需要从故障案例文本中自动提取4种关系和4种实体(具体参见竞赛页面)。
《回乡发展人群预测》
出题单位:中国联通数学
比赛奖金:5万元
技术方向:分类问题
难度等级:★★
竞赛题目背景:近年来,随着新一线城市的快速发展,引领我国经济稳步发展,新一线城市对人才的吸引力也逐年增强,紧追不舍。与一线城市。越来越多的年轻人不再局限于在一线城市寻找就业机会,而是选择回到家乡就业。
竞赛任务:基于中国联通的大数据能力,利用中国联通的信令数据、通话数据、上网行为等数据进行建模,判断个体是否会回家乡工作。
《小样本数据分类任务》
提问单元:智慧芽
比赛奖金:42,000日元
技术方向:文本分类
难度等级:★★★
竞赛问题背景:常见的分类系统有国际专利分类(IPC)、联合专利分类(CPC)、欧洲专利分类(ECLA)等,但这些分类系统相对复杂、专业性强、使用难度大对于非 IP 人员。一定的困难。
竞赛任务:为了解决上述困难,智慧雅构建了新的分类系统,提供了958条训练数据和对应36个类别的分类标签。要求参赛者设计一套算法来完成测试专利数据的分类任务。 。
独立平台轨道
热衷于研究算法并喜欢学习?
快来体验【自主平台赛道】吧!
《基于文心NLP大模型的阅读理解可解释性评价》
比赛奖金:5万元
技术方向:知识挖掘与阅读理解
难度等级:★★★
竞赛背景:神经网络(NN)模型已成功应用于多项NLP任务,并取得了良好的效果。然而,神经网络模型的黑盒性质降低了用户对其结果的信任。因此,NN模型的可解释性、鲁棒性等问题受到了广泛关注。进一步推动模型可解释性研究的发展。
竞赛任务:选手需要使用 ()深度学习框架,根据给定的文本T及其相关问题Q,从文本T中提取问题Q的答案,同时提供答案所依据的模型取决于。证据。
《基于盛思AI框架的肾脏肿瘤分割》
提问单位:华为
比赛奖金:5万元
技术方向:文本分类
难度等级:★★★★
大赛背景:近年来,深度学习方法在图像分割领域引起了广泛关注。尤其是UNet等网络在肿瘤分割方面取得了显着的成绩,但在结构设计、训练模式等方面仍有进一步改进的空间。
竞赛任务:参赛队伍利用竞赛提供的数据,分析数据特征,在华为胜思AI框架上设计开发可用于肾脏和肾脏肿瘤语义分割的算法模型,获得最佳的肾脏和肾脏肿瘤。测试集中的肾脏肿瘤具有语义分割结果的模型是获胜者。
《基于TPU平台的人群密度估计》
题目单元:计算
比赛奖金:5万元
技术方向:人群计数
难度等级:★★★★
竞赛背景:人群密度估计是计算机视觉中的一项重要任务,旨在同时识别各种情况下任意大小的目标,包括稀疏和杂乱的场景。主要应用于现实生活中的自动化公共监控,可以在公共安全管理、公共空间设计、数据采集与分析等方面发挥重要作用。
竞赛任务:参赛者选择预先训练的模型并将其部署在计算TPU芯片上,无需自行训练模型;在实现模型部署的过程中,参赛者需要兼顾准确性和推理速度。
系统轨迹
逻辑思维能力强,善于制定计划?
快来【系统赛道】提升你的系统优化能力!
《SQL语句内存使用预测系统》
提问单位:华为
比赛奖金:5万元
技术方向:性能优化
难度等级:★★★★★
赛题背景:全内存查询引擎因其高性能而被各大厂商广泛采用。然而他们面临的一个常见问题是,当SQL语句使用的内存超过系统内存大小时,就会导致SQL语句执行失败。甚至可能导致系统崩溃。因此,在运行SQL之前准确估计SQL内存使用情况对于系统稳定性尤为重要。
竞赛任务:本次竞赛仅涉及SQL语句内存使用预测系统。重点是根据SQL涉及的运算符、表数据量、计算涉及的列建立内存使用预测系统。
《数据湖流式和批量集成性能优化》
提问单位:树源灵科技
比赛奖金:5万元
技术方向:性能优化
https://wx4.sinaimg.cn/large/00604QYily4gh449h433hj30kw0uptb6.jpg
难度等级:★★★★★
竞赛题目背景:Lake 存储框架的流批一体化读写性能关系到数据能否快速准确地摄入到Lake 中,并进行高效的数据处理和分析。数据湖通常采用计算和存储分离的设计,需要支持多种计算框架、对象存储等,这给读写性能优化带来了巨大的挑战。
竞赛任务:参赛者可以选择数据湖存储框架,在保证数据准确性的前提下,通过调整参数、优化代码来优化性能、提高写入速度。
《挖掘大规模金融图数据中的异常风险行为模式》
出题单位:蚂蚁技术研究院
比赛奖金:5万元
技术方向:图计算
难度等级:★★★★
竞赛背景:业界常用的频繁子图挖掘算法可以帮助发现频繁出现的子图结构。如何利用频繁子图挖掘算法高效挖掘异常风险行为模式显得尤为重要。
竞赛任务:竞赛问题使用简化的金融模拟数据。这些数据是账户间交易、转账和其他带有时间戳和金额的数据。基于这些数据,自动挖掘出一组频率不低于(f >= 10000)的频繁子图模式。
数字安全专项大赛
担心重大安全风险并想保护数字安全?
快来为数字安全最优解决方案“战斗”吧!
《Linux跨平台二进制函数识别》
出题单位:360网络安全研究院、360未来安全研究院AI安全实验室
比赛奖金:人民币8万元
技术方向:文本预处理
难度等级:★★★★
竞赛背景:设备平台环境的多样性导致同一代码二进制形式的多样性。这种多样性给跨平台相似代码的识别带来了巨大的挑战。
竞赛任务:数据集分为两部分:训练集和测试集。参赛者需要首先根据训练集中的样本数据独立设计算法模型,然后对测试集中的功能进行类似的匹配和识别,从而尽可能找出与其他平台上类似的功能指定的函数。
《基于人工智能的漏洞数据分类》
问题作者:中国科学院信息工程研究所、360未来安全研究院工业互联网实验室
比赛奖金:人民币8万元
技术方向:文本分类关系抽取
难度等级:★★★★
赛题背景:CVE平台的漏洞信息包括CVE编号、漏洞评分、漏洞描述等,为了更好地理解和继续研究,需要对这些漏洞信息按照一定的规则进行筛选和分类。然而,人工筛选和分类效率低且耗时。利用人工智能和自然语言处理或许可以更好地解决这个问题。
竞赛任务:本次竞赛题分为A、B两题。平台将提供数据分类规则和具体内容。参赛者需要利用平台提供的标记数据和未标记漏洞数据来设计软件算法模型并不断改进模型。为了分析数据结果的准确性。
《大数据平台安全事件检测与分类识别》
题目作者:北京科技大学网络空间安全与大数据智能应用实验室
比赛奖金:人民币8万元
技术方向:文本分类
难度等级:★★★
竞赛题目背景:日志审计分析是针对数据安全问题非常有效的风险应对方法。基于大数据平台日志、安全设备日志、平台网络流量等多源异构数据分析,可以有效实现攻击行为的检测。发现或预测、溯源,保护企业或组织的内部数据安全。
竞赛任务:参赛队伍根据赛题提供的无标签大数据平台日志数据,利用机器学习、深度学习、UEBA等人工智能方法,为系统用户使用大数据平台和数据构建行为基线。安全事件识别和分类模型。 。
《Web攻击检测与分类识别》
出题单位:清华大学网络研究院-北京奇虎科技有限公司网络空间测绘联合研究中心、360信息安全中心
比赛奖金:6万元
技术方向:文本分类
难度等级:★★★
竞赛题目背景:如何快速、准确地识别未知威胁攻击,并对不同攻击进行正确分类,对于提高Web攻击检测能力至关重要。利用机器学习和深度学习技术对攻击数据包进行识别和分类成为解决这一问题的创新思路,有利于推动AI技术在威胁检测和分析场景中的研究和应用。
竞赛任务:参赛队伍需要对前期提供的训练集进行分析,通过特征工程、机器学习、深度学习等方法构建AI模型,实现对每个样本的正确快速分类,不断提高模型精度和召回率。
训练跑道
没有比赛经验但想尝试一下?
快来【训练场】开始你的第一场比赛吧!
《自动生成社区视频会议纪要》
问题作者:开放原子基金会
比赛奖金:18,000元
技术方向:文本摘要
难度等级:★★★
大赛背景:社区平均每周生成超过2400分钟的会议视频,这些视频会自动存档并上传到第三方视频网站。社区希望从视频内容中自动生成文字版的会议纪要,以便社区管理团队、社区运营团队、开发者可以通过文字阅读快速了解各个SIG组的开发进度,同时生成关键词、摘要和基于会议记录的适当文本。视频封面。
竞赛任务:开发可独立部署在22.03 LTS上的视频处理软件,通过CLI或API处理指定SIG小组会议的视频录制,从视频内容自动生成文本版本的会议纪要,并输出到指定位置。
《基于自然语言的查询引擎》
出题单位:华为
比赛奖金:18,000元
技术方向:性能优化
难度等级:★★★★
竞赛题目背景:普通用户可以通过数据库在线操作体验平台TryMe了解和学习数据库的基本操作,但很多普通用户不具备SQL基础知识。为了方便更多的用户了解和学习数据库,社区希望在现有的TryMe平台之上提供一个自然语言查询工具。普通用户可以通过日常使用的自然语言在TryMe平台上直接体验数据库。
比赛的任务是基于机器学习和AI算法识别用户输入的自然语言文本,然后经过NLP分析处理后转换为相应的SQL语句。生成的SQL能够满足用户的需求,并且能够在数据库中成功执行。
“社交网络与噪音的结合”
出题单位:中国计算机学会
竞赛奖项:CCF权威证书
技术方向:图计算
难度等级:★★★
竞赛题目背景:社交网络对齐就是在多个社交网络之间找到对应的用户。这些对应的用户属于现实世界中的同一自然人。实际应用中的网络差异信息和噪声可以简化为两种情况:网络结构差异和锚点监督信息噪声。无论是信息差异还是噪声情况都会给社交网络对齐任务带来困难。
竞赛任务:基于Email网络数据,利用机器学习、深度学习等相关技术,建立在存在噪声的情况下能够准确对齐网络实体的模型,从而分析和挖掘网络中用户的对齐关系。
《电磁信号调制方式的识别》
提问单位:中富资讯
竞赛奖项:CCF权威证书
技术方向:分类问题
难度等级:★★★
竞赛背景:信号调制识别作为信号检测和解调之间的中间过程,广泛应用于信号检测和识别领域。它可以自动判断和识别未知信号的调制方式,从而为非法信号的正确解调提供调制信息。调制识别技术已广泛应用于军用电子对抗、民用频谱监测与管理、软件无线电和认知无线电等领域,成为重要的研究课题和热点。
竞赛任务:利用软件无线电平台(GNU Radio)采集不同信噪比下不同调制方式信号的IQ数据,利用深度学习等相关技术建立鲁棒的信号调制方式识别模型,并识别未知信号的调制方法。类型。
《跨域评分预测》
出题单位:中国计算机学会
竞赛奖项:CCF权威证书
技术方向:分类问题
难度等级:★★★
大赛背景:跨域推荐技术是解决冷启动问题非常有效的方法。如何有效地将源领域知识迁移到目标领域,缓解目标领域的冷启动问题,是跨领域推荐系统是否高效的关键。钥匙。
竞赛任务:基于源域和目标域用户与产品的交互信息,利用机器学习、深度学习等相关技术建立有效的跨域推荐模型,使模型能够有效传递用户的知识在源域中。反过来,它可以准确预测给定目标领域中用户对产品的评分。
比赛日程
2022/8/29
竞赛名称已发布,报名开放
2022/9/5-11/7
初赛A轮名单阶段、资料下载及作品提交
2022/11/9
初选B名单阶段
2022/11/26-11/27
最终答辩审查
2022/2022 年 12 月中旬
比赛决赛(线下)
竞赛奖项
单题奖
CCF BDCI综合奖
设综合特等奖1个,最佳个人奖3个。所有参赛团队成员都将获得奖金、证书及相关荣誉。
参与特别奖
参与过程中,将根据参赛队伍每周排名、邀请等活动获得特别奖励。
就业和孵化机会
https://pic.rmb.bdstatic.com/bjh/news/00a9644ce5fb6eb0d50f6617bfe2e5b7.jpeg
优秀指导教师奖
各竞赛题一等奖将颁发给为竞赛指导、宣传、组织提供重要支持的指导老师和老师。
特别贡献奖
对大赛组织做出突出贡献的个人或单位均可领取。
优秀合作伙伴奖
对大赛组织工作给予重要支持的合作单位均可获得。
*注:每个竞赛主题的奖项设置略有不同。请参阅大赛官网公布的各竞赛题目详情页面。
组织架构
主办单位:中国计算机学会
主办单位:CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF高性能计算专业委员会、CCF计算机安全专业委员会、CCF计算机应用专业委员会、CCF软件工程专业委员会、教育部易班发展中心、兰亭、数字连接和大众创新
战略合作:百度、华为
专题竞赛合作:360未来安全研究院、苏州相城区人民政府
赛题合作:筑云、大观数据、算能、联通数字、书院灵科技、智能芽、蚂蚁科技研究院
官方竞赛平台:
生态合作媒体:CSDN、电脑宝燕岛(持续更新)
组委会专家
百余位专家学者全力支持,确保大赛公平、有序、规范开展,积极推动学术进步,落实技术成果应用,为实现人才培养贡献力量。
指导委员会主席
竞赛指导委员会是CCF BDCI指导机构,明确竞赛定位和发展方向,推动学术进步,落实技术成果应用,实现人才培养。
梅虹 中国科学院院士、中国计算机学会理事长
李国杰 中国工程院院士、中国科学院计算技术研究所研究员
倪光南 中国工程院院士、中国科学院计算技术研究所研究员
徐宗本 中国科学院院士、西安交通大学教授
吴建平 中国工程院院士、清华大学教授
陈纯 中国工程院院士、浙江大学教授
关晓红 中国科学院院士、清华大学、西安交通大学双聘教授
工作委员会主席
竞赛工作委员会是CCF BDCI的执行机构。工作委员会下设常设竞赛委员会、评审委员会、仲裁委员会、国际交流委员会和创业指导委员会,确保竞赛公平、有序、规范进行。
陈恩红 中国科学技术大学教授、CCF大数据专家委员会副主任
陈学斌 华北理工大学教授、CCF计算机应用专业委员会副主任
程学奇 中国科学院计算技术研究所研究员、CCF大数据专家委员会秘书长
窦志成 中国人民大学教授、CCF大数据专家委员会副秘书长
金波 公安部第三研究所所长助理、CCF大数据专业委员会常务委员
唐前林 公安部网络技术研发中心高级工程师、CCF计算机安全专业委员会秘书长
万晓军,北京大学计算机科学技术研究所教授、CCF自然语言处理专业委员会秘书长
中国科学院计算机技术研究所的研究员张云恩,CCF高性能计算专业委员会秘书长
(注意:按名称按字母顺序排序)
专家委员会
来自各种大学和行业专家的学者将参加竞争评论,技术报告和其他活动,以保护竞争。
中国科学院计算技术研究所副研究员Ao Xiang
蚂蚁财务总监Chen Tao
陈旺·温利(Chen ),苏州大学/教授
国防大学国民大学计算机科学学院陈·杨旺(Chen )
中国科学院航空航天信息创新研究所首席工程师和研究所邓
大学的常任副教授兼博士主管Zhai
中国科学学院计算机网络信息中心的大数据知识工程实验室主任杜伊(Du Yi)
北京技术大学信息学系副主任Fang Juan
党分公司秘书兼扬汉大学软件工程系教授冯·江口
Gao ,北京邮政与电信大学教授兼副主任
北京理工学院人工智能研究所院长黄海安(Huang Heyan)
中国科学院计算技术研究所高级工程师Jia
中国科学院计算技术研究所副研究员Jia Weile
匈奴大学信息科学与工程学院院长Jiang Bin
CCF大数据专家委员会副秘书长,中国科学院计算机研究所的研究人员Jin
阿里巴巴集团副总裁Li
万达信息有限公司的高级副总裁李·广雅(Li )
Li Ke,北京联合大学数据科学和大数据技术主管
Li ,董事长,北京大学教授
中国科学技术大学教授Lian Defu
林博,国家海洋环境预测中心教授级高级工程师
中国科学学院信息工程研究所副研究员林Zheng
信息学院院长Liu
国家平行计算机工程技术研究中心的研究人员刘Xin
Wuxi职业与技术学院计算机应用研究所主任Lu
的创始人兼首席执行官Lu Yilei
中富信息有限公司规划与研究所副总裁。
湖南大学信息科学与工程学院副秘书Lu
西安电子科学与技术大学计算机科学技术学院副院长Miao
Fudan 教授Qiu
大学计算机科学技术学院网络空间安全学院院长Ren Kui
Shao Hao,Fosun Group的AI业务负责人
北京邮政与电信大学的教授兼博士主管
中国科学院计算机技术研究所高性能计算机研究中心主任兼研究员谭·古明
洪南大学国家超级计算中心长沙的首席工程师兼教授Tang Zhuo
汤吉大学杰出研究员王·海芬(Wang )
中央南大学杰出教授Wang
智格大学教授Wang Zhibo
Wu Kang,省省公共安全部反恐怖主义团的第一级技术主管
汤吉大学电子与信息工程学院党教授兼副秘书徐杨
东北大学教授小汤
技术研发中心总经理Xie Jian
师范大学计算机科学学院的教授兼博士主管Xie
中国中小型企业研究所电子信息行业发展研究所的主任杨东利
南京师范大学教授兼博士主管杨明
Sun Yat-Sen 人工智能学院副院长Yin Jian,广东省省级主要数据分析和处理的主要实验室主任
北京一流技术有限公司的创始人兼首席执行官Yuan 。
郑Yan,杭州戴安齐大学/副教授
新疆大学院长张·林林(Zhang )
理工学院副教授Zhang ,计算机科学学院院长
北北京大学计算机科学研究所的研究员赵东山(Zhao )
副教授Zhao Zhou
国防大学计算机科学学院国内基础软件工程研究中心副主任周布,CCF大数据专业委员会成员
重庆技术大学教授朱小
Qilu大数据研究所董事长Zhu
北京Co.,Ltd。首席执行官Zhu 。
Baidu Times()Co.,Ltd。的数据科学家Zhu 。
页:
[1]