奇酷教育 · 数据分析教材

数据分析常用术语（下）2019-03-29 09:59:18来源：m.qikuedu.com

三、数据分析名词解释

聚合(Aggregation)：搜索、合并、显示数据的过程。

算法(Algorithms)：可以完成某种数据分析的数学公式。

分析法(Analytics)：用于发现数据的内在涵义。

异常检测(Anomaly detection)：在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种：outliers,exceptions,surprises,contaminants.他们通常可提供关键的可执行信息。

匿名化(Anonymization)：使数据匿名，即移除所有与个人隐私相关的数据。

分析型客户关系管理（Analytical CRM/aCRM）：用于支持决策，改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识，和如何与顾客有效接触的知识，进行收集、分析、应用。

行为分析法(Behavioural Analytics)：这种分析法是根据用户的行为如“怎么做”，“为什么这么做”，以及“做了什么”来得出结论，而不是仅仅针对人物和时间的一门分析学科，它着眼于数据中的人性化模式。

批量处理（Batch processing）：尽管从大型计算机时代开始，批量处理就已经出现了。由于处理大型数据集，批量处理对大数据具有额外的意义。批量数据处理是处理一段时间内收集的大量数据的有效方式。

商业智能（Business Intelligence）: 分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程。

分类分析(Classification analysis)：从数据中获得重要的相关性信息的系统化过程;这类数据也被称为元数据(meta data),是描述数据的数据。

云计算(Cloud computing)：构建在网络上的分布式计算系统，数据是存储于机房外的（即云端）。

集群计算（Cluster computing）：这是一个使用多个服务器集合资源的“集群”的计算术语。要想更技术性的话，就会涉及到节点，集群管理层，负载平衡和并行处理等概念。

聚类分析(Clustering analysis)：它是将相似的对象聚合在一起，每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。

冷数据存储(Cold data storage)：在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时。

对比分析(Comparative analysis)：在非常大的数据集中进行模式匹配时，进行一步步的对比和计算过程得到分析结果。

相关性分析(Correlation analysis)：是一种数据分析方法，用于分析变量之间是否存在正相关，或者负相关。

仪表板(Dashboard)：使用算法分析数据，并将结果用图表方式显示于仪表板中。

数据聚合工具(Data aggregation tools)：将分散于众多数据源的数据转化成一个全新数据源的过程。

数据分析师(Data analyst)：从事数据分析、建模、清理、处理的专业人员。

数据库(Database)：一个以某种特定的技术来存储数据集合的仓库。

数据湖（Data lake）：数据湖是原始格式的企业级数据的大型存储库。与此同时我们可以涉及数据仓库，它在概念上是相似的，也是企业级数据的存储库，但在清理、与其他来源集成之后是以结构化格式。数据仓库通常用于常规数据（但不是专有的）。数据湖使得访问企业级数据更加容易，你需要明确你要寻找什么，以及如何处理它并明智地试用它。

暗数据（Dark Data）：基本上指的是，由企业收集和处理的，但并不用于任何意义性目的的数据，因此它是“暗”的，可能永远不会被分析。它可以是社交网络反馈，呼叫中心日志，会议笔记等等。有很多人估计，所有企业数据中的 60-90％可能是“暗数据”，但谁又真正知道呢？

数据挖掘（Data mining)：数据挖掘是通过使用复杂的模式识别技术，从而找到有意义的模式，并得出大量数据的见解。

数据中心(Data centre)：一个实体地点，放置了用来存储数据的服务器。

数据清洗(Data cleansing)：对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。

数据质量（Data Quality）：有关确保数据可靠性和实用价值的过程和技术。高质量的数据应该忠实体现其背后的事务进程，并能满足在运营、决策、规划中的预期用途。

数据订阅(Data feed)：一种数据流，例如Twitter订阅和RSS。

数据集市(Data Mart)：进行数据集买卖的在线交易场所。

数据建模(Data modelling)：使用数据建模技术来分析数据对象，以此洞悉数据的内在涵义。

数据集(Data set)：大量数据的集合。

数据虚拟化(Data virtualization)：数据整合的过程，以此获得更多的数据信息，这个过程通常会引入其他技术，例如数据库，应用程序，文件系统，网页技术，大数据技术等等。

判别分析(Discriminant analysis)：将数据分类，按不同的分类方式，可将数据分配到不同的群组，类别或者目录。是一种统计分析法，可以对数据中某些群组或集群的已知信息进行分析，并从中获取分类规则。

分布式文件系统(Distributed File System)：提供简化的，高可用的方式来存储、分析、处理数据的系统。

文件存贮数据库(Document Store Databases)：又称为文档数据库，为存储、管理、恢复文档数据而专门设计的数据库，这类文档数据也称为半结构化数据。

探索性分析(Exploratory analysis)：在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法。

提取-转换-加载(ETL:Extract,Transform and Load)：是一种用于数据库或者数据仓库的处理过程，天善学院有国内唯一的最全的ETL学习课程。即从各种不同的数据源提取(E)数据，并转换(T)成能满足业务需要的数据，最后将其加载(L)到数据库。

游戏化(Gamification)：在其他非游戏领域中运用游戏的思维和机制，这种方法可以以一种十分友好的方式进行数据的创建和侦测，非常有效。

图形数据库(Graph Databases)：运用图形结构(例如，一组有限的有序对，或者某种实体)来存储数据，这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能，也就是说，数据库中每个元素间都与其他相邻元素直接关联。

网格计算(Grid computing)：将许多分布在不同地点的计算机连接在一起，用以处理某个特定问题，通常是通过云将计算机相连在一起。

Hadoop：一个开源的分布式系统基础框架，可用于开发分布式程序，进行大数据的运算与存储。

Hadoop数据库(HBase)：一个开源的、非关系型、分布式数据库，与Hadoop框架共同使用。

HDFS：Hadoop分布式文件系统(Hadoop Distributed File System)；是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

高性能计算(HPC:High-Performance-Computing)：使用超级计算机来解决极其复杂的计算问题。

内存数据库(IMDB:In-memory)：一种数据库管理系统，与普通数据库管理系统不同之处在于，它用主存来存储数据，而非硬盘。其特点在于能高速地进行数据的处理和存取。

物联网（IoT）：最新的流行语是物联网（IOT）。IOT通过互联网将嵌入式对象（传感器，可穿戴设备，汽车，冰箱等）中的计算设备进行互连，并且能够发送以及接收数据。IOT生成大量数据，提供了大量大数据分析的机会。

键值数据库(Key-Value Databases)：数据的存储方式是使用一个特定的键，指向一个特定的数据记录，这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。

负载均衡(Load balancing)：将工作量分配到多台电脑或服务器上，以获得最优结果和最大的系统利用率。

位置信息(Location data)：GPS信息，即地理位置信息。

日志文件(Log file)：由计算机系统自动生成的文件，记录系统的运行过程。

M2M数据(Machine 2 Machine data)：两台或多台机器间交流与传输的内容。

机器数据(Machine data)：由传感器或算法在机器上产生的数据。

机器学习(Machine learning)：人工智能的一部分，指的是机器能够从它们所完成的任务中进行自我学习，通过长期的累积实现自我改进。

Map Reduce：是处理大规模数据的一种软件框架(Map:映射，Reduce:归纳)。

大规模并行处理(MPP:Massivel yParallel Processing)：同时使用多个处理器(或多台计算机)处理同一个计算任务。

元数据(Meta data)：被称为描述数据的数据，即描述数据数据属性(数据是什么)的信息。

多维数据库(Multi-Dimensional Databases)：用于优化数据联机分析处理(OLAP)程序，优化数据仓库的一种数据库。

多值数据库(MultiValue Databases)：是一种非关系型数据库(NoSQL),一种特殊的多维数据库：能处理3个维度的数据。主要针对非常长的字符串，能够完美地处理HTML和XML中的字串。

自然语言处理(Natural Language Processing)：是计算机科学的一个分支领域，它研究如何实现计算机与人类语言之间的交互。

网络分析(Network analysis)：分析网络或图论中节点间的关系，即分析网络中节点间的连接和强度关系。

NewSQL：一个优雅的、定义良好的数据库系统，比SQL更易学习和使用，比NoSQL更晚提出的新型数据库。

NoSQL：顾名思义，就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性，能处理超大规模和高并发的数据。

对象数据库(Object Databases)：(也称为面象对象数据库)以对象的形式存储数据，用于面向对象编程。它不同于关系型数据库和图形数据库，大部分对象数据库都提供一种查询语言，允许使用声明式编程(declarative programming)访问对象。

基于对象图像分析(Object-based Image Analysis)：数字图像分析方法是对每一个像素的数据进行分析，而基于对象的图像分析方法则只分析相关像素的数据，这些相关像素被称为对象或图像对象。

操作型数据库(Operational Databases)：这类数据库可以完成一个组织机构的常规操作，对商业运营非常重要，一般使用在线事务处理，允许用户访问、收集、检索公司内部的具体信息。

优化分析(Optimization analysis)：在产品设计周期依靠算法来实现的优化过程，在这一过程中，公司可以设计各种各样的产品并测试这些产品是否满足预设值。

本体论(Ontology）：表示知识本体，用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注:数据被提高到哲学的高度，被赋予了世界本体的意义，成为一个独立的客观数据世界)

异常值检测(Outlier detection)：异常值是指严重偏离一个数据集或一个数据组合总平均值的对象，该对象与数据集中的其他它相去甚远，因此，异常值的出现意味着系统发生问题，需要对此另加分析。

联机分析处理（On-Line Analytical Processing，OLAP）：能让用户轻松制作、浏览报告的工具，这些报告总结相关数据，并从多角度分析。

模式识别(Pattern Recognition)：通过算法来识别数据中的模式，并对同一数据源中的新数据作出预测

平台即服务(PaaS:Platform-as-a-Service)：为云计算解决方案提供所有必需的基础平台的一种服务。

预测分析(Predictive analysis)：大数据分析方法中最有价值的一种分析方法，这种方法有助于预测个人未来(近期)的行为，例如某人很可能会买某些商品，可能会访问某些网站，做某些事情或者产生某种行为。通过使用各种不同的数据集，例如历史数据，事务数据，社交数据，或者客户的个人信息数据，来识别风险和机遇。

公共数据(Public data)：由公共基金创建的公共信息或公共数据集。

数字化自我(Quantified Self)：使用应用程序跟踪用户一天的一举一动，从而更好地理解其相关的行为。

R：是一种编程语言，在统计计算方面很出色。如果你不知道 R，你就称不上是数据科学家。R 是数据科学中最受欢迎的语言之一。

再识别(Re-identification)：将多个数据集合并在一起，从匿名化的数据中识别出个人信息。

回归分析(Regression analysis)：确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注：自变量，因变量，二者不可互换)。

实时数据(Real-time data)：指在几毫秒内被创建、处理、存储、分析并显示的数据。

推荐引擎(Recommendation engine)：推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品。

路径分析(Routing analysis)：–针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径，以达到降低燃料费用，提高效率的目的。

半结构化数据(Semi-structured data)：半结构化数据并不具有结构化数据严格的存储结构，但它可以使用标签或其他形式的标记方式以保证数据的层次结构。

结构化数据(Structured data)：可以组织成行列结构，可识别的数据。这类数据通常是一条记录，或者一个文件，或者是被正确标记过的数据中的某一个字段，并且可以被精确地定位到。

情感分析(Sentiment Analysis)：通过算法分析出人们是如何看待某些话题。

信号分析(Signal analysis)：指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。

相似性搜索(Similarity searches)：在数据库中查询最相似的对象，这里所说的数据对象可以是任意类型的数据。

仿真分析(Simulation analysis)：仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量，确保产品性能达到最优。

软件即服务(SaaS:Software-as-a-Service)：基于Web的通过浏览器使用的一种应用软件。

空间分析(Spatial analysis)：空间分析法分析地理信息或拓扑信息这类空间数据，从中得出分布在地理空间中的数据的模式和规律。

SQL：在关系型数据库中，用于检索数据的一种编程语言。

流处理（Stream processing）：流处理旨在对有“连续”要求的实时和流数据进行处理。结合流分析，即在流内不间断地计算数学或统计分析的能力。流处理解决方案旨在对高流量进行实时处理。

时序分析(Time series analysis)：分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的，并且要取自相同时间间隔的连续时间点。

拓扑数据分析(Topological Data Analysis)：拓扑数据分析主要关注三点：复合数据模型、集群的识别、以及数据的统计学意义。

交易数据(Transactional data)：随时间变化的动态数据

透明性(Transparency)：–消费者想要知道他们的数据有什么作用、被作何处理，而组织机构则把这些信息都透明化了。

文本挖掘（Text Mining）：对包含自然语言的数据的分析。对源数据中词语和短语进行统计计算，以便用数学术语表达文本结构，之后用传统数据挖掘技术分析文本结构。

非结构化数据(Un-structured data)：非结构化数据一般被认为是大量纯文本数据，其中还可能包含日期，数字和实例。

价值(Value)：(译者注：大数据4V特点之一)所有可用的数据，能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。

可变性(Variability)：也就是说，数据的含义总是在（快速）变化的。例如，一个词在相同的推文中可以有完全不同的意思。

多样(Variety)：(译者注：大数据4V特点之一)数据总是以各种不同的形式呈现，如结构化数据，半结构化数据，非结构化数据，甚至还有复杂结构化数据

高速(Velocity)：(译者注：大数据4V特点之一)在大数据时代，数据的创建、存储、分析、虚拟化都要求被高速处理。

真实性(Veracity)：组织机构需要确保数据的真实性，才能保证数据分析的正确性。因此，真实性(Veracity)是指数据的正确性。

可视化(Visualization)：只有正确的可视化，原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图，可视化指是的复杂的图表，图表中包含大量的数据信息，但可以被很容易地理解和阅读。

大量(Volume)：(译者注：大数据4V特点之一)指数据量，范围从Megabytes至Brontobytes。

天气数据(Weather data)：是一种重要的开放公共数据来源，如果与其他数据来源合成在一起，可以为相关组织机构提供深入分析的依据。

网络挖掘/网络数据挖掘（Web Mining / Web Data Mining)：使用数据挖掘技术从互联网站点、文档或服务中自动发现和提取信息。

XML数据库(XML Databases)：XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联，开发人员可以对XML数据库的数据进行查询，导出以及按指定的格式序列化。

以上就是数据分析相关术语的盘点，看完别忘点好看

奇酷教育 · 数据分析教材

数据分析常用术语（下）2019-03-29 09:59:18来源：m.qikuedu.com

推荐课程