Hive Sql - Multi Distinct（多个distinct在同一个query中）优化

Petra ·

更新时间:2024-11-13

· 628 次阅读

背景

当多个 distinct 操作同时出现在 select 中，数据会分发多次。容易造成Reduce数据倾斜

优化点 1、如果不要求精确值，可以使用 spark-sql approx_count_distinct函数（基数计数 hyperloglog） 2、修改SQL

基础数据准备如下， 需要计算 不同渠道下的 不同周期 的访问uv

presto:bi> desc tmp.multi_distinct_test;
 Column  |  Type   | Extra | Comment  
---------+---------+-------+----------
 user_id | bigint  |       | 用户ID   
 channel | varchar |       | 渠道名称 
 day     | varchar |       | 访问日期 
presto:bi> select * from tmp.multi_distinct_test;
 user_id | channel |    day     
---------+---------+------------
       1 | A       | 2020-01-01 -- 和下一行 数据一模一样
       1 | A       | 2020-01-01 -- 
                    
 
                

                            SQL
                            hive
                            优化
                            distinct


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
    
    
        
            Bootstrap 教程
        
        
            Glenna
            2020-09-10
        
    
    
        946
    


    
        
            PostgreSQL AUTO INCREMENT（自动增长）
        
        
            Helen
            2020-06-25
        
    
    
        749
    


    
        
            vue中上传视频或图片或图片和文字一起到后端的解决方法
        
        
            Anne
            2020-10-24
        
    
    
        741
    


    
        
            利用CSS3实现折角效果实例源码
        
        
            Psyche
            2020-08-11
        
    
    
        632
    


    
        
            SQL中case when用法及使用案例详解
        
        
            Petunia
            2023-07-20
        
    
    
        1330
    


    
        
            sql中的IF条件语句的用法详解
        
        
            Hellens
            2023-07-20
        
    
    
        1065
    


    
        
            使用SQL语句将相同名的多行字段内容拼接(方法详解)
        
        
            Belle
            2023-07-20
        
    
    
        1546
    


    
        
            SQL查询中出现笛卡尔积现象的解决方法
        
        
            Nyako
            2023-07-20
        
    
    
        1884
    


    
        
            SQL DNSlog注入实战
        
        
            Dagny
            2023-07-20
        
    
    
        239
    


    
        
            SQL Server2012附加数据库5120错误(拒绝访问)的解决方法
        
        
            Clementine
            2023-07-20
        
    
    
        248
    


    
        
            oracle中sql%rowcount的作用详解
        
        
            Isleta
            2023-07-20
        
    
    
        497
    


    
        
            SQL Server2022安装提示安装程序在运行作业UpdateResult时失败解决方法
        
        
            Madeleine
            2023-07-20
        
    
    
        1841
    


    
        
            SQL查询服务器下所有数据库及数据库的全部表
        
        
            Isis
            2023-07-20
        
    
    
        1752
    


    
        
            Navicat中如何导入数据库SQL脚本并执行
        
        
            Ula
            2023-07-20
        
    
    
        1782
    


    
        
            C#自定义Attribute值的获取与优化技巧
        
        
            Dabria
            2023-07-20
        
    
    
        373
    


    
        
            Matlab常见最优化方法的原理和深度分析
        
        
            Serena
            2023-07-20
        
    
    
        1570
    


    
        
            Android本地搜索业务优化方案
        
        
            Maha
            2023-07-20
        
    
    
        1045
    


    
        
            React渲染机制及相关优化方案
        
        
            Beth
            2023-07-20
        
    
    
        506
    


    
        
            C语言实现快速排序的方法及优化
        
        
            Emily
            2023-07-20
        
    
    
        634
    


    
        
            C#连接SQL Sever数据库详细图文教程
        
        
            Bonnie
            2023-07-21
        
    
    
        1971


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座

Hive Sql - Multi Distinct（多个distinct在同一个query中） 优化

致谢

Hive Sql - Multi Distinct（多个distinct在同一个query中）优化