数据说明：姓名|网址|访问时间需求：分别计算每个用户在页面的停留时长。写入MySQL。结果数据：用户网址停留时长

Serepta ·

更新时间:2024-09-21

· 617 次阅读

tom|www.baidu.com?page=1|2019-10-28 13:40:20
jim|www.sohu.com?page=1|2019-10-28 13:40:25
susan|www.zhihu.com?page=1|2019-10-28 13:40:28
tom|www.baidu.com?page=2|2019-10-28 13:40:32
tom|www.baidu.com?page=3|2019-10-28 13:40:36
susan|www.zhihu.com?page=2|2019-10-28 13:40:40
jim|www.sohu.com?page=2|2019-10-28 13:40:50

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SQLContext
object Need4 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[1]").setAppName(this.getClass.getSimpleName)
    val sc = new SparkContext(conf)
    val sQLContext = new SQLContext(sc)
    import sQLContext.implicits._
    val sorceFile = sc.textFile("E:\\五道口大数据\\吉祥spark开始\\20200204\\sparkSQL第一天需求\\需求4\\pageaccess.txt")
    val df = sorceFile.map(line => {
      val split = line.split("[|]")
//        val pvtime = split(2).split(":")(2)
      (split(0), split(1),split(2))
    }).toDF("name", "url", "time")
    df.createTempView("user")
    sQLContext.sql("select name,url,time ,lead(time,1,0) over (partition by name order by time asc) endtime," +
      "UNIX_TIMESTAMP(lead(time,1,0) over(partition by name order by time),'yyyy-MM-dd HH:mm:ss')- UNIX_TIMESTAMP(time,'yyyy-MM-dd HH:mm:ss') period " +
      "from user " ).show()
      //.coalesce(1).write.csv("D:\\djz\\20200204\\a")
    /**
      * select user,wz,nvl(sum(period),0) totol_peroid  from(select user,dl,UNIX_TIMESTAMP(lead(dl) over(partition by user order by dl),'yyyy-MM-dd HH:mm:ss')- UNIX_TIMESTAMP(dl,'yyyy-MM-dd HH:mm:ss') period,wz from dop) a  group by wz,user")
      */
    //sQLContext.sql("select name,url,nvl(sum(time)) total_time from (select name,time,UNIX_TIMESTAMP(lead(time) over(partition by name order by time),'yyyy-MM-dd HH:mm:ss')- UNIX_TIMESTAMP(time,'yyyy-MM-dd HH:mm:ss') period,url from user").show()
      sc.stop()
  }
}

作者：weixin_38677730

姓名数据 Mysql

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

HTML 实例

Kamaria 2021-07-24

846

详解css栅格系统在项目中的灵活运用

Ursula 2020-04-01

908

浏览器地址栏中显示自定义小图标

Elaine 2020-04-04

677

用Python进行数据清洗以及值处理

Crystal 2023-07-21

283

Python常用的数据清洗方法详解

Laila 2023-07-21

1301

Python multiprocessing.value实现多进程数据共享的示例

Aine 2023-07-21

1131

深入探究python中Pandas库处理缺失数据和数据聚合

Bliss 2023-07-21

191

Python中Pandas库的数据处理与分析

Lillian 2023-07-21

155

pandas删除重复数据简单方法

Tertia 2023-07-21

311

详解C#如何将枚举以下拉数据源的形式返回给前端

Olive 2023-07-21

797

Docker部署Mysql数据库步骤详解

Maha 2023-07-21

1426

docker 容器中安装mysql服务的方法

Edie 2023-07-21

583

Flutter中跨组件数据传递的方法总结

Angie 2023-07-21

906

Android连接MySQL数据库详细教程

Bonnie 2023-07-21

533

Docker容器连接外部Mysql的几种方案

Ilona 2023-07-22

729

docker简单安装部署mysql并配置远程连接

Xylona 2023-07-22

1899

docker容器连接宿主机redis与mysql的配置方法

Peony 2023-07-22

1975

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座