热门话题推荐更多动态>

优质服务商推荐更多服务商>

财穗加
服务:2件诚信:85分
厦门烨元信息科技有...
服务:3件诚信:90分
海网物联（深圳）科...
服务:4件诚信:80分
恋家室内设计
服务:2件诚信:85分
设宇数字化工作室
服务:2件诚信:85分
福建省经度科技有限...
服务:2件诚信:80分
壹立科技软件研发服...
服务:5件诚信:90分
Red翻译&...
服务:2件诚信:85分
上海回声网络科技有...
服务:3件诚信:90分
效果图设计
服务:2件诚信:90分

大数据处理和访问中的架构：大数据处理的六个阶段是什么？

319

发布：2021-10-13 02:02:25 来自焒眀荢妑頭昻起唻蚂蚜会员 L1

如果没有大数据处理，公司将限制他们访问可以磨练竞争优势并提供关键业务见解的数据。因此，对于所有公司而言，了解处理所有数据的必要性以及如何处理这些数据至关重要。

大数据处理和访问中的架构：大数据处理的六个阶段是什么？_爱车智能_车载导航

什么是 大数据处理 ？

当收集数据并将其转换为可用信息时，将进行数据处理。通常由数据科学家或数据科学家团队执行，正确完成数据处理以免对最终产品或数据输出产生负面影响非常重要。

大数据处理从原始格式的数据开始，然后将其转换为更具可读性的格式（图形，文档等），从而赋予其必要的格式和上下文，以供计算机解释并供整个组织的员工使用。

大数据处理 的六个阶段

1.数据收集

收集数据是数据处理的第一步。数据是从可用资源中提取的，包括数据湖和数据仓库。重要的是，可用的数据源必须值得信赖且结构良好，以使收集的数据（后来用作信息）具有尽可能高的质量。

2.数据准备

收集数据后，便进入数据准备阶段。数据准备（通常称为“预处理”）是为后续数据处理阶段清理和组织原始数据的阶段。在准备过程中，会认真检查原始数据是否有任何错误。此步骤的目的是消除不良数据（冗余，不完整或不正确的数据），并开始创建高质量的数据以实现最佳的商业智能。

3.数据输入

然后，将干净的数据输入到目标位置（例如，像Salesforce这样的CRM或Redshift这样的数据仓库），然后将其转换成它可以理解的语言。数据输入是第一阶段，原始数据开始采用可用信息的形式。

4.加工

在此阶段中，实际上会处理前一阶段输入到计算机的数据以进行解释。处理过程是使用机器学习算法完成的，尽管过程本身可能会略有不同，具体取决于要处理的数据源（数据湖，社交网络，连接的设备等）及其预期用途（检查广告模式，通过连接的设备进行医疗诊断，确定客户需求等）。

5.数据输出/解释

输出/解释阶段是最终数据可用于非数据科学家的阶段。它是经过翻译的，可读的，并且通常以图形，视频，图像，纯文本等形式出现。公司或机构的成员现在可以开始为自己的数据分析项目自助服务数据。

6.数据存储

数据处理的最后阶段是存储。处理完所有数据后，将其存储以备将来使用。尽管某些信息可能会立即投入使用，但其中的大部分信息将在以后发挥作用。另外，正确存储数据对于遵守GDPR之类的数据保护法规也必不可少。正确存储数据后，组织成员可以在需要时快速轻松地访问数据。

大数据处理 的未来

大数据处理的未来在于云。云技术建立在当前电子数据处理方法的便利性之上，并加快了速度和有效性。更快，质量更高的数据意味着每个组织可以利用更多数据，并且可以提取更有价值的见解。

随着大数据迁移到云，公司正在实现巨大的收益。大数据云技术使公司可以将所有平台组合到一个易于适应的系统中。随着软件的更改和更新（就像在大数据世界中经常发生的那样），云技术将新旧技术无缝集成。

云数据处理的好处绝不仅限于大型公司。实际上，小公司可以从自己的公司中获得重大利益。云平台可以很便宜，并且可以随着公司的发展灵活地增长和扩展功能。它使公司能够在没有高昂价格的情况下进行扩展。

从数据处理到分析

大数据正在改变我们所有人的业务方式。如今，保持敏捷和竞争力取决于制定清晰有效的数据处理策略。尽管数据处理的六个步骤不会改变，但云技术推动了技术的巨大进步，这些技术提供了迄今为止最先进，最具成本效益和最快的数据处理方法。

以下是小编收集的数据库开发人员Stephanie Shen的工作经验分享以及如何进行数据处理：

我的职业生涯始于1998年，当时我是一名Oracle数据库开发人员和管理员。在过去的20多年中，令人惊讶的是，IT如何通过关系OLTP（在线事务处理）技术发展为处理不断增长的数据量处理）数据库，数据仓库，ETL（提取，转换和加载）和OLAP（在线分析处理）报告，大数据以及现在的AI，云和物联网。所有这些技术都是通过计算能力的快速增长而实现的，特别是在处理器，内存，存储和网络速度方面。本文的目的是首先概述有关如何处理大量数据的基本原理，其次，我希望可以帮助您对数据空间中的任何新兴技术有更深入的了解的思考过程。顺应当前和未来的技术浪潮，选择合适的架构。

在数据管道中，数据通常经历两个阶段：数据处理和数据访问。对于任何类型的数据，当它进入组织时（在大多数情况下有多个数据源），很可能是不干净的，或者是格式不正确的，或者最终内部或外部的业务用户可以直接报告或分析的格式组织。因此，首先需要进行数据处理，通常包括数据清理，标准化，转换和聚合。然后，最终数据将显示在数据访问层中-随时可以报告并用于所有方面的分析。数据处理有时也称为数据准备，数据集成或ETL。其中，ETL可能是最受欢迎的名称。

数据处理和数据访问具有不同的目标，因此已通过不同的技术实现。大数据的数据处理从一开始就强调“扩展”，这意味着每当数据量增加时，给定可用硬件，处理时间仍应在预期范围之内。整个数据处理时间范围从几分钟到几小时到几天不等，具体取决于数据量和处理逻辑的复杂性。另一方面，数据访问强调的是“快速”响应时间，以秒为单位。在较高的水平上，数据处理的可伸缩性主要是通过并行处理来实现的，而快速的数据访问则是基于访问模式以及服务器上可用内存的增加，通过优化数据结构来实现的。

大数据处理

为了清理，标准化和转换来自不同来源的数据，数据处理需要触摸即将到来的数据中的每条记录。清除记录并最终确定记录后，即可完成工作。这从根本上与数据访问不同-数据访问导致重复的检索和不同用户和/或应用程序对相同信息的访问。当数据量较小时，与数据访问相比，数据处理的速度面临的挑战较小，因此通常发生在最终数据所在的同一数据库内。随着数据量的增长，人们发现必须在数据库之外处理数据处理，以绕开数据库系统造成的所有开销和限制，而数据库系统显然不是最初设计用于大数据处理的。那时是ETL，然后Hadoop开始分别在数据仓库和大数据时代发挥关键作用。

大数据处理的挑战在于，要处理的数据量始终处于硬盘可以容纳的水平，但远远超过给定时间可用的计算内存量。高效数据处理的基本方法是将数据分解成较小的部分并并行处理。换句话说，可伸缩性是通过首先在编程中启用并行处理来实现的，这样，当数据量增加时，并行进程的数量将增加，而每个进程继续处理与以前相似的数据量；第二，随着并行进程数量的增加，添加更多具有更多处理器，内存和磁盘的服务器。

大数据的并行处理首先是通过数据库系统和ETL工具中的数据分区技术实现的。将数据集进行逻辑分区后，可以并行处理每个分区。 Hadoop HDFS（高度分布式文件系统）以最可扩展的方式适应了相同的原理。 HDFS的作用是将数据划分为具有恒定大小的每个数据块的数据块。然后将这些块分发到不同的服务器节点，并由元数据存储将其记录在所谓的“名称”节点中。当数据进程开始时，进程数由每个服务器节点上的数据块数和可用资源（例如，处理器和内存）确定。这意味着只要您有来自多个服务器的足够的处理器和内存，HDFS即可进行大规模并行处理。

目前，Spark已成为内存中进行大规模数据处理的最受欢迎的快速引擎之一。是否有意义？尽管内存确实变得便宜了，但它仍然比硬盘驱动器贵。在大数据空间中，要处理的大数据量始终远远大于可用的内存量。那么Spark如何解决呢？首先，Spark利用了具有多个数据节点的分布式环境中的内存总量。但是，如果有任何组织尝试将大数据放入Spark群集中，则内存量仍然不够，而且可能会非常昂贵。让我们考虑一下Spark适用于哪种类型的处理。数据处理总是从将数据从磁盘读取到内存开始，最后将结果写入磁盘。如果每个记录在写入磁盘之前只需要处理一次（典型的批处理就是这种情况），那么与Hadoop相比，Spark将不会产生优势。另一方面，Spark可以将数据保存在内存中以进行数据转换的多个步骤，而Hadoop无法。这意味着当多次重复处理同一条数据时，Spark具有优势，这正是分析和机器学习所需要的。现在考虑以下问题：由于可能同时运行数十个或数百个此类分析流程，如何以具有成本效益的方式扩展处理规模？显然，仅依靠内存中的处理是不能完全解决的，大数据的分布式存储（例如Hadoop）仍然是补充Spark计算的大数据解决方案中必不可少的部分。

数据处理领域的另一个热门话题是流处理。它在降低处理速度方面具有巨大优势，因为在给定的时间点，只要数据到达，它只需要处理少量数据即可。但是，它在两个方面不像批处理那样通用：第一是输入数据需要进入“流”模式，第二是仍然需要处理需要跨时间段聚合的某些处理逻辑之后分批。

最后，云解决方案提供了机会，可以根据数据量，从而根据并行进程的数量，以更动态的方式扩展分布式处理系统。在企业内部很难做到这一点，因为需要计划，预算和购买新服务器。如果不能很好地规划容量，则大数据处理可能会受到硬件数量的限制，或者额外购买会导致资源浪费而无法使用。云上的处理获得了基础架构弹性的巨大优势，它可以提供更多保证，以更具成本效益的方式实现最佳规模。

大数据处理和访问中的架构：大数据处理的六个阶段是什么？_爱车智能_车载导航

数据处理技术的简要历史

资料存取

与数据处理相比，数据访问具有非常不同的特征，包括：

数据结构高度取决于应用程序或用户如何检索数据

数据检索模式需要很好地理解，因为一些数据可以被大量的用户或应用程序重复检索。

每次应检索的数据量应作为目标，因此应仅包含一部分可用数据。

鉴于上述原则，在过去的20年中，有几个里程碑反映了如何访问不断增长的数据量，同时仍能在几秒钟内返回请求的数据：

数据仓库：避免表联接，这在数据量很大时可能非常昂贵。这里出现“事实表”的概念，其中所有列都放在一起，而没有关系数据库中的数据库规范化原则。

列存储：每列都被存储和索引，因此分别访问。当一行有很多列，而查询一次只检索很少的列时，这比常规关系数据库的基于行的访问提供了更快的响应时间。

NoSQL数据库：消除了联接和关系结构，并针对更快速的数据检索量身定制。

内存数据库：通过将整个数据库或整个表保存在内存中来提供快速的性能。

下表列出了每种数据库类型的一些受欢迎的示例，但并非旨在提供完整列表。请注意，一个数据库可能结合了不止一种技术。例如，Redis以及内存中都是NoSQL数据库。此外，从数据仓库和列存储的数据检索利用并行流程在适用时检索数据。由于可以根据用户和/或应用程序的数据内容，数据结构和检索模式，选择不同类型的数据库，因此数据访问是组织需要快速且不断发展的领域。同时出于不同的目的同时具有不同类型的数据库或工具也应该很常见。

大数据处理和访问中的架构：大数据处理的六个阶段是什么？_爱车智能_车载导航

总结

正如我们所看到的，数据处理和数据访问之间的一个很大的区别是，数据访问最终来自客户和业务的需求，选择正确的技术驱动未来的新产品开发和增强用户体验。另一方面，数据处理是一个公司的核心资产，大规模的处理和产生高质量的数据是公司与数据一起成长的关键因素。当数据量增长时，许多公司的数据处理系统都会受到跟踪，从头重建数据处理平台的成本很高。并行数据处理和可伸缩性的原则需要从一开始就仔细思考和设计。数据处理也与数据管理和数据集成密切相关——所有这3个都是任何数据密集型组织成功的必要条件。此外，每个组织现在都面临着来自开源社区和第三方供应商的大数据解决方案的许多选择。清晰地理解数据处理和数据访问之间的差异，可以使IT和业务领导不仅能够构建可靠的数据体系结构，而且能够做出正确的决策，以稳定的速度扩展和现代化数据体系结构。

特别声明：本文仅供交流学习 , 版权归属原作者，并不代表蚂蚜网赞同其观点和对其真实性负责。若文章无意侵犯到您的知识产权，损害了您的利益，烦请与我们联系vmaya_gz@126.com，我们将在24小时内进行修改或删除。

û41 ñ81 0 15

《人潮汹涌》单日票房赶超《唐探3》，伤害性不大，侮辱性极强
原标题：《人潮汹涌》单日票房赶超《唐探3》，伤害性不大，侮辱性极强18天前谁敢想象首日十亿的《唐探3》会有单日票房被垫底的《人潮汹涌》超
果味小可爱 ⋅3909人浏览 ⋅一个月前
李安获终身荣誉奖，自称自己是“学生”
影妹有话聊2018VOL.214影视娱乐生活，我们无话不聊-今日话题-美国时间10月18日李安获颁美国导演工会年度终身荣誉奖李安形容自己
奶茶暖了冬天 ⋅829人浏览 ⋅一个月前
《冰雪奇缘》日本13连冠《布达佩斯》开画进榜
日本电影院线周末票房排行榜：6月7日-6月8日《冰雪奇缘》日本先行版0'54''6910关闭自动播放相关专辑推荐视频：收起视频正在播放腾
我陪着你走 ⋅1808人浏览 ⋅一个月前
《拆弹专家2》：邱礼涛又“炸”香港了
原标题：《拆弹专家2》：邱礼涛又“炸”香港了选在年末岁尾圣诞档平安夜公映，《拆弹专家2》能否“炸”醒昏昏沉沉了一段时日的中国内地院线，是
漫步〆的美人鱼 ⋅3252人浏览 ⋅一个月前
因失误而印象深刻的镜头，不经意间的举动成就经典！
《毕业生》男主抢婚过后，面对女主角，两人此时流露出十分幸福的恩爱表情，不过恩爱过后也该结束，但此时导演并没有喊卡，于是两人也没有急着起身
忍受你的坏脾气 ⋅4612人浏览 ⋅一个月前
《媚者无疆》全能忠犬影子vs腹黑病娇公子，你pick谁？
哈喽，大家好。小刀又来给大家叨剧了！《媚者无疆》作为暑期热播的大女主剧，女主光芒虽然无比耀眼，但身边的男性角色也是不容错过的！接下来刀妹
巷雨优美回忆 ⋅2628人浏览 ⋅一个月前
《盗墓笔记》电影获准拍摄备案剧本引吐槽
[导读]电影《盗墓笔记》也出现在电影局电影剧本梗概备案上，备案单位为上海电影集团。
阳光温暖空屋 ⋅448人浏览 ⋅一个月前
任嘉伦杨紫《天乩》发布“缘结千年”版剧照，官宣定档7.9
6月29日，由杨紫、任嘉伦、茅子俊、李曼等主演的古装剧《天乩之白蛇传说》今日发布“缘结千年”版人物关系海报，定档7月9日在爱奇艺全网独播
萌妹纸霸气范 ⋅3907人浏览 ⋅一个月前
李连杰两次改国籍，今重病缠身愿捐出100亿归国，成龙表示很难
李连杰，从天资骄人的武术天才运动员到享誉国际的功夫演员，想必，他已经成为李小龙之后又一个武术大家。这么多年来，他享誉盛名，唯一的争议在于
兰花旳执着 ⋅926人浏览 ⋅一个月前
《山河令》剧组被批太穷！一桌“好菜”拍好几集
原标题：《山河令》剧组被批太穷！一桌“好菜”拍好几集1905电影网讯古装武侠剧《山河令》在播出后收获好评，不少观众在谈论主演、的表现同时
焒眀荢妑頭昻起唻 ⋅1158人浏览 ⋅一个月前
内地票房：《宗师》8600万连庄破3亿无悬念
腾讯娱乐讯（文/付超）时间来到2013年第3周，《一代宗师》继续强势吸金，本周再入8600万登顶票房冠军，累计票房来到2.55亿，破3亿
柔情女硬汉 ⋅2053人浏览 ⋅一个月前
《你好，李焕英》延期，也活该贾玲要红！站对了风口，猪也会飞？
原标题：《你好，李焕英》延期，也活该贾玲要红！站对了风口，猪也会飞？截止到当前，贾玲的这部《你好，李焕英》的票房已经成功突破了54亿，并
傻萌小学妹 ⋅1177人浏览 ⋅一个月前
赵文卓终于奉上首部导演作品，但却被称为是低配版的《战狼》
原标题：赵文卓终于奉上首部导演作品，但却被称为是低配版的《战狼》近日，由赵文卓导演的首部电影《反击》突然宣布定档，挤进了春节档，这一部作
北朽暖栀 ⋅1756人浏览 ⋅一个月前
牛年春节78.45亿，《唐探3》《你好，李焕英》贡献超80%
原标题：牛年春节78.45亿，《唐探3》《你好，李焕英》贡献超80%据猫眼数据显示，牛年春节档(2月11日至2月17日)票房78.45亿
果味小可爱 ⋅4355人浏览 ⋅一个月前
《小儿难养》上海开拍小宋佳陈思成变身孩奴
《小儿难养》在荧屏上刮过相亲、婚恋风潮后，更加深入探讨当下年轻人婚后育儿生活的题材又成为影视人追逐的新热点。日前，由《裸婚时代》导演曹盾
阳光温暖空屋 ⋅539人浏览 ⋅一个月前
杨幂迟到向鞠躬导演道歉，网友表示演技不咋样，但是真的很礼貌
原标题：杨幂迟到向鞠躬导演道歉，网友表示演技不咋样，但是真的很礼貌大家好，我是和你们一样爱好娱乐，每天关注娱乐新闻的【秋玉侃娱乐】，跟着
钢琴上的芭蕾 ⋅3969人浏览 ⋅一个月前
又一波新片挤进12月，其中这部可能比《海王》还火！
记得前几天好像刚跟大家细侃了一番，2018年还有哪些新片值得期待，没有想到，文章码完没多久，又有一波新片挤进了12月，感觉今年的贺岁档越
摇划花蜜的午后 ⋅3625人浏览 ⋅一个月前
亚洲第一美女，在本国受人争议，来中国却发展大火！
之前有很多韩国明星来到国内发展，受到了人们的热烈追捧，但是后来人们也是发现了他们的另一面，他们到国内发展的重要原因就是缺钱，而在国内他们
要强的女人 ⋅672人浏览 ⋅一个月前
《兴风作浪3》掀全网爆笑致力东北喜剧电影创新
原标题：《兴风作浪3》掀全网爆笑致力东北喜剧电影创新1905电影网讯由、执导的电影正在热播中。影片由、、董三毛、、王小虎、蔡维利领衔主演
有阳光还感觉冷 ⋅96人浏览 ⋅一个月前
魏璎珞为了救五阿哥中了尸虫之毒，皇上心急如焚，太医束手无策
今晚《延禧攻略》70集预告中魏璎珞中毒不断呕血，皇上心急如此，太医们束手无策。据悉那是缅甸尸虫，以尸体为生，吞噬血肉之后，变得奇毒无比。
浅浅嫣然笑 ⋅2963人浏览 ⋅一个月前