数据的分类方式
下面将逐个介绍各种常见分类方式,并简单介绍每种分类的使用场景,以及对每个角色的重要程度。
(1)从字段类型上:文本类(string、char、text等)、数值类(int、float、number等)、时间类(data、timestamp等)
这种分类方式是最基本的,和很多场景有关。其一在系统设计时,需要确定每个字段的类型,以便设计数据库结构。其二,在数据清洗时,文本类数据往往很难清洗,而且很多文本类数据也没有清洗的必要,比如备注或客户评论。数值类和时间类数据是清洗的重点,这类字段在业务上一般都有明确的取值范围,比如年龄必须大于0。对于不合法的取值,通常用默认值填充。其三,在建立维度模型时,数值类中的编码型字段和时间类字段通常作为维度,数值类中的量化属性作为度量。
(2)从数据结构上:结构化数据、半结构化数据、非结构化数据
这种分类方式近几年特别重要,相关的场景包括:其一,结构化数据是传统数据的主体,而半结构化和非结构化数据是大数据的主体。后者的增长速度比前者快很多,大数据的量这么大,主要是因为半结构化和非结构化数据的增长速度太快。其二,在数据平台设计时,结构化数据用传统的关系数据库便可高效处理,而半结构化和非结构化数据必须用Hadoop等大数据平台。其三,在数据分析和挖掘时,不少工具都要求输入结构化数据,因此必须把半结构化数据先转换成结构化数据。
(3)从描述事物的角度:状态类数据、事件类数据、混合类数据
这种分类方式在数据仓库建模是特别重要。数据仓库需要保存各种历史数据,不同类型的历史数据保存方式差别很大。状态类数据保存历史的方式一般有两种:存储快照或者SCD方式。事件类数据一旦发生就已经是历史了,只需直接存储或者按时间分区存储。混合类数据保存历史比较复杂,可以把变化的字段分离出来,按状态类数据保存,剩下不变的则按事件类数据保存,使用时再把两者合并。另一个相关场景就客户画像,客户画像通常用状态类数据,对于和客户相关的事件类数据和混合类数据,也会转换成和状态类数据相同的形态。
(4)从数据处理的角度:原始数据、衍生数据
这种分类方式主要用在管理数据上,对原始数据的管理和衍生数据的管理有一些差别。原始数据通常只要保留一份,衍生数据却不同,管理形式比较灵活,只要有利于提高数据分析和挖掘效率,产生更大的数据价值,任何形式都可以尝试。比如为每个业务条线定制个性化数据集市,提高每个业务条线的数据分析效率,虽然不同集市存在大量冗余的数据,但只要能大幅提高分析效率,用空间换时间也未尝不可。
(5)从数据粒度上:明细数据、汇总数据
这种分类方式的相关场景有两种,一种是在数据仓库设计时,如何对数据进行汇总,按什么方式进行汇总,才能达到使用效率和汇总成本的平衡。另一种是数据分析人员在分析数据时,在明细数据、各种汇总数据之间选择合适的数据,以提高分析效率。
(6)从更新方式上:批量数据、实时数据
这种分类方式也非常重要,目前有越来越多系统采取该方式提供数据。这对数据处理、数据分析和数据应用产生了巨大的影响。一方面能为业务提供近乎实时的数据和报表支持,实现高时效的业务场景。另一方面也极大地增加了数据架构、数据分析和应用的技术难度。

文件的类型
Python中的文件类型包括:文本文件和二进制文件两种类型,但本质上都是以二进制形式存储的。
文本文件:由单一特定编码组成的文件,如UTF-8编码,包括 .txt文件、 .py文件等等
二进制文件:直接由比特0和1组成,没有统一字符编码,包括 .png文件、.avi文件等
programming.txt文件保存:“我相信明天会更好!!!”
文件属性(一)
,由 DeepSeek-R1 满血版支持,
Linux一切皆文件,Linux文件一共分为7类分别是- d c s p l b。
存放的都是文字编码,文本编辑器打开后,会将这些文字编码翻译为文字图形,供人识别
比如经过编译后得到的可执行文件,里面放的是cpu执行的纯二进制机器码,由于文本编辑器只认识文字编码,所以用文本编辑器打开后,显示的内容无法是错乱的,无法识别的。
其实不管存放的是文字编码,还是机器码,在计算机中存储时,其实都是以二进制形式存放的,只不过我们这里可刻意的把机器码这类非文字编码的数据,特意强调为了二进制数据。
目录是一种特殊的文件,专门用于管理其他文件
字符设备文件,就是字符设备驱动程序,在上层的表现形式。
当应用程序调用底层字符设备驱动程序,实现对某个字符设备进行读写时,上层就需要对接底层的字符设备驱动程序,字符设备驱动在上层,会以"字符设备文件"的形式表现出来,我们通过open、read、write去读写字符设备文件,就实现了和底层字符设备驱动程序的交互。
管道文件,用于实现不同进程(程序)之间的通信,管道是OS提供的一种纯代码层面的通信机制。
A进程——>管道文件——>B进程
讲到网络编程时,再来具体介绍
其实就是一种快捷图标,背后指向了另一个文件。
相关资讯
文件类型有几种
在计算机中,文件类型是根据其内容和格式进行分类的。文件类型用于标识和区分不同种类的文件,并指示操作系统和应用程序如何处理它们。而很多的伙伴并不知道文件类型有几种,以下是一些......
下篇:编程语言分类及区别