新闻详情

内存大数据查询引擎性能优化研究取得进展

发表时间:2022-03-31 09:44

在Spark SQL框架应用中,配置参数优化是常常面临的问题。现有的机器学习优化方法大多时间成本高、无法很好适应所处理的数据量变化。

近日,中国科学院深圳先进技术研究院先进计算与数字工程研究所异构智能计算中心提出低时间成本、能够适应输入数据集大小变化的配置自动优化方法LOCAT。该方法由三个核心技术组成。该研究首先设计了query与配置参数敏感性分析技术。在收集训练样本时,从给定工作负载中识别并删除与配置参数不敏感的query。其次,对于其余的query,LOCAT通过计算相关性系数来识别重要的配置参数,然后应用核主成分分析来降低配置参数搜索维度。最后,LOCAT设计了感知数据集大小的贝叶斯优化来搜索最优配置,以便能根据数据集的大小自动优化性能。基于TPC-DS、TPC-H与HiBench测试基准的实验表明,分别在8台高性能x86服务器的集群环境与4台高性能ARM服务器的集群环境下,较当前最先进的自动调优解决方案,LOCAT降低优化时间成本达9.7倍,而且获得了高达2.8倍的性能提升。

相关成果以LOCAT: Low-Overhead Online Configuration Auto-Tuning of Spark SQL Applications为题,发表在ACM SIGMOD(数据管理国际会议)2022上。

内存大数据查询引擎性能优化研究取得进展

LOCAT框架

扫码关注获取更多资讯

Tel:400-164-7890
商业合作:mkt@bytevi.com
销售咨询:Sales@bytevi.com


产品
ByteCare数据平台
ByteView数据平台
API治理平台
知识图谱构建平台
可视化数据应用平台




解决方案
企业数据中台
保险反欺诈
智慧园区大数据解决方案
多媒体可视化指挥预警分析系统



案例
银行数据中台
保险车险反欺诈
银行反欺诈
企业数据云平台



佰惟数据
关于佰惟
联系我们
在线支持
资源中心



企业愿景 丨   成为对用户最有价值的专业智能数据公司

企业使命 丨    数据驱动价值创造,让数据资产持续为用户增值
 
 
ABUIABAEGAAg8b3mhgYo4Y60FzCwCTjYBA
    联络佰惟 400-164-7890