您好,欢迎来到尚车旅游网。
搜索
您的当前位置:首页Kettle解析两层json

Kettle解析两层json

来源:尚车旅游网

1. 背景

数据以json格式传输到AWS 的S3里面,将数据从S3下到本地,然后对其进行解析,入库。将表结构做成大宽表,对于json里面有的字段就有值,没有的则补为null。大宽表一共70多个字段。

2. 数据格式

从图上看来,数据都是文件,在s3里是以对象存储的,数据的内容是以json存储的,然后以n个小文件组成一个文件夹,又由n多个文件夹组成一个大文件夹

3. 数据预处理

因为kettle只能识别json结尾的文件然后才能进一步解析json文件,所以先做一步数据预处理,将这些文件添加为.json

使用python 在这些文件后面添加.json,以下附上代码

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
'''
@Project :cn.com.softland.IOTHadoop 
@File    :json.py
@IDE     :PyCharm 
@Author  :Cayon_L
@Date    :2021/6/4 15:15 
@User    :liuky 
'''
import os


def batch_rename(dir_path, suffix):
    files = os.listdir(dir_path)
    for i, file in enumerate(files):
        old_name = os.path.join(dir_path, file)
        # new_name = os.path.join(dir_path, file.split(".")[0] + suffix + '.' + file.split(".")[-1])
        new_name = os.path.join(dir_path, file.split(".")[0] + suffix)
        os.rename(old_name, new_name)


dir_path = 'C:\\Users\\liuky\\Desktop\\10\\NIR5012047000201'
suffix = '.json'
batch_rename(dir_path, suffix)

处理后的数据

4. 数据处理

4.1 整体流程

4.2 解析第一层json

众多的json小文件组成了一个文件夹,所以采用了获取文件名批量处理一个文件夹下的json

下面开始解析第一层json

4.3 解析第二层json

这里面的D字段就是第二层json

4.4 提取字段

选择想要的入库字段

4.5 转换

将字段根据iTs分组

4.6 提取入库字段

4.7 入库

最后将结果入库,在此想要提高作业的效率,可以适当地增加入库的数量

5. 查看数据

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sceh.cn 版权所有 湘ICP备2023017654号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务