大数据测试之数据接入部分测试

[复制链接]
作者: 忆君柳下奕 | 时间: 2024-6-4 04:56:17 | 其他|
0 80

2036

主题

2036

帖子

6108

积分

研究生

Rank: 9Rank: 9Rank: 9

积分
6108
发表于 2024-6-4 04:56:17| 显示全部楼层 |阅读模式
刚才我们讲了整个数据流程,我们把整个数据框架打平了之后,我们把整个流程切分了几个环节。首先我们一起来看一下数据接入这部分的测试。
数据接入:业务数据或者文件通过一定的技术手段复制到大数据系统的过程。

首先我们一起看一下数据抽取这部分,这部分测试我们主要关注四个维度。第一个是数据测试,数据测试主要关注数据总量和字段这两块。数据总量是否一致、数据是否存在重复、字段是否存在错位、格式是否一致。
元数据这一块主要是关注两个方面,一个是字段,另一个是建表语句。字段主要关注数量、类型和命名规范。建表语句主要关注注释、类型、存储位置和存储格式是否正确。第三个我们需要关注抽取任务,也就是整个调度任务的测试,首先第一块我们需要关注任务的运行时间,然后参数配置和接入的方式是否正确。最后一个导入测试主要是针对文件的,需要关注导入路径和文件的大小。

下面是从业务口抽取到大数据系统的例子,我们可以看到从MySQL中不同的表中,把所有的数据抽取到一张表里面,但是在业务库中这些表的数据结构都是一模一样的。

这是代码截图,大家可以看一下。

这里我们就引出了一个业务系统一个分表分库的概念:
分库分表是为了解决由于数据量过大而导致数据库性能降低的问题,将原来独立的数据库拆分成若干数据库组成 ,将数据大表拆分成若干数据表组成,使得单一数据库、单一数据表的数据量变小,从而达到提升数据库性能的目的。了解完数据接入这部分,后面的文章会带大家继续了解一下什么是数据转化和清洗,欢迎大家继续关注。
(本系列文章根据《优品软件培育计划》公益直播内容整理,关注微信公众号【道普云测】,回复关键字 【搜狐】,获取免费观看链接。)

来源:
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回列表 返回顶部