主流大数据调度工具DolphinScheduler之数据ETL流程

news/2024/8/26 17:13:15 标签: 大数据, hive, 数据库开发, etl

 今天给大家分享主流大数据调度工具DolphinScheduler,以及数据的ETL流程。

一:调度工具DS

主流大数据调度工具DolphinScheduler,

其定位:解决数据处理流程中错综复杂的依赖关系

任务支持类型:支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process。

二,数据ETL流程(调度流程)

今天分享一个把数据从hive推送到人大金仓数据库的案例。

1,源数据--hive

hive表数据如图所示,

在这里一共5条数据,展示的4个字段都是主键,dt为分区。

2,DS主界面

项目管理主界面,包含了很多的工作流,工作流需要自己配置。

3,创建工作流

在这里,我们写一个export的sheet页,主要实现数据从hive推送到数据库。

dept的内容是指的是前置依赖。

4,工作流内容配置

表名是  f_con_fund_deal_reminder

前缀 export 指的是数据推送,一般就是把数据从hive推送到其他数据库。

最重要的是脚本内容:

这里脚本内容是支持shell任务,所以大家一定要懂shell语法。

当然还要再设置参数,这里根据shell内容来,参数可以设置多个。

5,shell脚本开发

在这里底层逻辑采用datex的方式来进行数据的ETL。

5.1,日期配置

涉及时间或者其他参数的传参。

5.2,源表配置

这里的查询语句  query_sql,是可以将其查询出来的数据进行数据的传输(功能强大!!!)。

5.3,目标表配置

tgt_tab_pkey : 是数据库该表的主键。(下次ETL,如果数据发生变更,会把同主键的数据进行变更。)

tgt_tab_column : 是源表查询出来的字段映射到目标表的字段(映射灵活)。

tgt_pre_sql : 在数据ETL之前,可以先对数据库的表先进行操作(牛逼)。

5.4,其他配置

该调度是自然日跑批还是交易日跑批。

通用配置:这部分不需要大家更改。

底层逻辑采用datex的方式来进行数据的ETL,

写在了comment_data_sync.sh里面了。

6,参数的设置/调度运行

是否补数:就是可以跑批任意哪一天的调度。

调度日期:需要自己设置。然后点击运行。

7,在目标库看ETL结果

查询发现,只有4条数据。要的就是这个,因为我们设置主键了。

同主键数据,会随机插入一条数据。这个大家看步骤一。

8,工作流日志

看看工作日志长啥样,里面运行了什么。

发现有刚刚的shell脚本运行过程:

打印最终数据推送的结果:


好啦,今天这篇主流调度工具DS的简单介绍,以及工作流创建,脚本开发,调度流程,日志查看,一整个流程,就分享到这里。

下次再见!


http://www.niftyadmin.cn/n/5558297.html

相关文章

【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【26】【内网穿透】cpolar

持续学习&持续更新中… 守破离 【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【27】【内网穿透】cpolar 内网穿透cpolar内网穿透联调配置练习—使用公网地址访问gulimall.com参考 内网穿透 正常的外网需要访问我们项目的流程是: 买服务器并且有公网固定…

opencv—常用函数学习_“干货“_9

目录 二五、霍夫变换 检测图像中的直线 (HoughLines) 检测图像中的直线段 (HoughLinesP) 检测图像中的圆 (HoughCircles) 解释 二六、傅里叶变化 获取最优的DFT大小 (getOptimalDFTSize) 执行离散傅里叶变换 (dft) 和 逆变换 (idft) 解释 实际应用 图像滤波示例 http…

软设之模板方法模式

设计模式中模板方法模式的意图是:定义一个操作中的算法骨架,而将一些步骤延迟到子类中,使得子类可以不改变一个算法的结构即可重新定义算法的某些特定步骤。 打个比方,比如要制作蛋糕,有准备材料,搅拌材料&#xff0c…

技术速递|Let’s Learn .NET Aspire – 开始您的云原生之旅!

作者:James Montemagno 排版:Alan Wang Let’s Learn .NET 是我们全球性的直播学习活动。在过去 3 年里,来自世界各地的开发人员与团队成员一起学习最新的 .NET 技术,并参加现场研讨会学习如何使用它!最重要的是&#…

昇思25天学习打卡营第16天|Vision Transformer图像分类

本节使用Vision Transfomer完成图像分类 相关知识 Vision Transformer ViT是计算机视觉和自然语言处理两个领域的融合成果。它使用transformer架构来处理图像数据,这种架构原本是用于处理自然语言的。 ViT的主要思想是将图像分割成固定大小的块(patch…

JuiceFS缓存特性

缓存 对于一个由对象存储和数据库组合驱动的文件系统,缓存是本地客户端与远端服务之间高效交互的重要纽带。读写的数据可以提前或者异步载入缓存,再由客户端在后台与远端服务交互执行异步上传或预取数据。相比直接与远端服务交互,采用缓存技…

llama.cpp

文章目录 一、关于 llama.cpp支持的模型:Multimodal models:Bindings:UI:Tools: 二、Demo1、Typical run using LLaMA v2 13B on M2 Ultra2、Demo of running both LLaMA-7B and whisper.cpp on a single M1 Pro MacBook 三、用法1、基本用法2、对话模式3、网络服务…

React Native 自定义 Hook 获取组件位置和大小

在 React Native 中自定义 Hook useLayout 获取 View、Pressable 等组件的位置和大小的信息 import {useState, useCallback} from react import {LayoutChangeEvent, LayoutRectangle} from react-nativeexport function useLayout() {const [layout, setLayout] useState&l…