赵卫东,赵卫东讲师,赵卫东联系方式,赵卫东培训师-【中华讲师网】
大数据及人工智能培训专家、副教授
53
鲜花排名
0
鲜花数量
赵卫东:数据集概述
2017-11-29 3280

Dataset是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。

从历史上看,这个术语起源于大型机领域,在那里它有一个明确界定的意义,非常接近现代的计算机档案。这个主题是不包括在这里。

最简单的情况下,只有一个变量,然后在数据集由一列列的数值组成,往往被描述为一个列表。尽管名称,这样一个单数据集不是一套通常的数学意义,因为某一个指定数值,可能会出现多次。通常的顺序并不重要,然后这样数值的集合可能被视为多重集,而不是(顺序)列表。

值可能是数字,例如真正的数字或整数,例如代表一个人的身高多少厘米,但也可能是象征性的数据(即不包括数字),例如代表一个人的种族问题。更一般的说,价值可以是任何类型描述为某种程度的测量。对于每一个变量,通常所有的值都是同类。但是也可能是“遗漏值”,其中需要指出的某种方式。

在统计数据集通常来自实际观测得到的抽样统计人口,每一行对应于观测的一个组成部分,人口。数据集可能会进一步产生算法为测试目的某些种类的软件。一些现代统计分析软件,如PSPP仍然存在的数据中的经典数据集的方式。

数据集在断开缓存中存储数据。数据集的结构类似于关系数据库的结构;它公开表、行和列的分层对象模型。另外,它包含为数据集定义的约束和关系。


全部评论 (0)

Copyright©2008-2024 版权所有 浙ICP备06026258号-1 浙公网安备 33010802003509号 杭州讲师网络科技有限公司
讲师网 www.jiangshi.org 直接对接10000多名优秀讲师-省时省力省钱
讲师网常年法律顾问:浙江麦迪律师事务所 梁俊景律师 李小平律师