-
关于海量数据处理分析的经验概括
所属栏目:[大数据] 日期:2022-01-03 热度:137
一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都[详细]
-
大数据时代已经到来,你知道吗?
所属栏目:[大数据] 日期:2022-01-03 热度:70
一、大数据出现的背景 进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些[详细]
-
大数据分析的八大走向
所属栏目:[大数据] 日期:2022-01-03 热度:203
Intuit数据工程副主管Loconzolo双脚都已经迈进数据湖里了。Smarter Remarketer首席数据科学家DeanAbbott也为云技术的发展指出了捷径。他们二人一致认为, 大数据与分析学前沿是个活动目标,这一领域包含了储存原始数据的数据湖和云计算。尽管这些技术并未成[详细]
-
大数据应用案例:处理两千亿的能源浪费问题
所属栏目:[大数据] 日期:2022-01-03 热度:192
最好的结果是,卓越简易的技术能够解决艰巨问题。 例如,通用服务管理GSA已经找到了一种将180栋建筑物年能源消耗成本节约1千3百万美元的方法,这要感谢马萨诸塞州内等州开发和检测出的一种专有算法。诸多发现的问题中就有:故障排气风扇。 科尔百货商场已在[详细]
-
大数据最关键的价值是什么?
所属栏目:[大数据] 日期:2022-01-03 热度:146
大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的廉价、迅速、优化这三方面的综合成本是最优的。 当这项技术在自己用的时候,自己将会非常收益,因为成本会降低;当这项技术作用在客户时候,客户同时也会受益。能[详细]
-
数据中心规划设计中值得谨慎的八个问题
所属栏目:[大数据] 日期:2022-01-03 热度:120
规划设计的优劣,是否最佳化,规划的各种功能指标是否能实现,只有在系统运行后才能做客观的评估,很多问题要经过较长时间,甚至是设备或系统的一个生命周期内才能暴露出来。因此,从运维管理的角度分析规划设计中存在的问题有助于规划设计人员从数据中心全[详细]
-
大数据时代带来的大变革 革新人们生活
所属栏目:[大数据] 日期:2022-01-03 热度:65
大数据时代的来临,带给我们众多的冲击,每个人都应当与时俱进、不断提升,放弃残缺的守旧思想,大胆接受新的挑战。 探讨大数据时代将给我们带来哪些变革,首先要搞清楚什么是大数据,其次,要厘清大数据会带来哪些变革,最后,要思考如何应对大数据时代的挑[详细]
-
大数据时代:要么去改变,要么被革新
所属栏目:[大数据] 日期:2022-01-03 热度:121
告诉消费者我懂你,但太懂你会引起不适 过去15年中,我们不停地问这些问题:客户是谁,他们需要什么产品,需要什么样的价格?但是现在事情相反了,我们不仅要知道是什么,更重要的是要知道为什么。我们要关心客户为什么买,为什么在那个时间买。我们对客户的[详细]
-
大数据的时代—— 大数据的四大发展关键
所属栏目:[大数据] 日期:2022-01-03 热度:83
2012年时《纽约时报》的一篇专栏文章「TheAgeofBigData」正式宣告大数据时代的来临,到了2015年,大数据一词已经可以说是耳熟能详,然而在现今互联网跟云端技术的发达,加上智能产品、移动装置的普及下,以下四点将会是大数据的发展重点。 求快求即时:In-Me[详细]
-
革新企业业务方式的10个大数据趋势
所属栏目:[大数据] 日期:2022-01-03 热度:180
大数据虽然发展缓慢但却坚决地在改变着企业做业务的方式。在每个行业都有不同的使用案例,大数据咨询公司Think Big的CEO兼创始人Ron Bodkin说。大数据释放出一种利用数据工作的能力,这种能力长期受到了压制。现在终于有了大量被压抑的需求被释放了出来。 下[详细]
-
大数据变现仍然举步维艰的理由
所属栏目:[大数据] 日期:2022-01-03 热度:84
企业都知道大数据应用的重要性,大数据也渐渐被引入企业的应用平台中,但是大数据的应用结果并没有企业想象中的那么顺利,为什么大数据的变现过程中如此艰难。 第一、大数据的价值还没有受到应该有的关注,大数据的应用公司越来越多,大数据的言论越来越多,[详细]
-
为什么数据化运营如此关键?
所属栏目:[大数据] 日期:2022-01-03 热度:185
企业都知道大数据应用的重要性,大数据也渐渐被引入企业的应用平台中,但是大数据的应用结果并没有企业想象中的那么顺利,为什么大数据的变现过程中如此艰难。 第一、大数据的价值还没有受到应该有的关注,大数据的应用公司越来越多,大数据的言论越来越多,[详细]
-
对于大数据,你必须要清楚
所属栏目:[大数据] 日期:2022-01-03 热度:68
大数据目前的技术和应用都是在数据分析、数据仓库等方面,主要针对OLAP(Online Analytical System),从技术角度来说,包含两条腿:一条腿是批量数据处理(包括MR、MPP等),另一条腿实时数据流处理(Storm、内存数据库等)。在此基础上,部分场景又发现MR[详细]
-
吐血整理盘点19种大数据处理的典型工具
所属栏目:[大数据] 日期:2021-12-22 热度:2957
大数据的生命周期分为数据获取(data acquisition)、数据存储(data storage)、数据分析(data analysis)以及结果(result),并且将前述大数据处理的三代技术中相关的工具映射至数据获[详细]
-
为什么Spark能成为最火的大数据计算引擎?它是怎样工作的?
所属栏目:[大数据] 日期:2021-12-22 热度:101
十年前我们只有Hadoop,大家首先通过HDFS实现海量数据的共享存储,然后使用MapReduce以批处理的方式处理这些海量数据,这一切看起来似乎十分完美。 但众口难调啊,有人觉得MapReduce的编程模型太难使用了,为什么不能使用SQL来分析数据呢?我们数据库领域已经[详细]
-
如何做一个好的大数据平台架构
所属栏目:[大数据] 日期:2021-12-22 热度:177
Lambda架构背后的需求是由于MR架构的延迟问题。MR虽然实现了分布式、可扩展数据处理系统的目的,但是在处理数据时延迟比较严重。实际上如果内存和CPU足够强大,MR也可以实现近实时运算,但实际业务环境并非如此,因此我们需要权衡,选择实时处理和批处理所需[详细]
-
Reactive-MongoDB异步Java Driver解读
所属栏目:[大数据] 日期:2021-12-22 热度:114
从3.0 版本开始,MongoDB 开始提供异步方式的驱动(Java Async Driver),这为应用提供了一种更高性能的选择。 但实质上,使用同步驱动(Java Sync Driver)的项目也不在少数,或许是因为先入为主的原因(同步Driver的文档说明更加的完善),又或者是为了兼容旧的 M[详细]
-
数据仓库Hive vs 准实时分析系统Impala
所属栏目:[大数据] 日期:2021-12-22 热度:54
什么是Hive? Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。Hive支持HSQL,是一种类SQL。 也由于这种机制导致Hive最大的缺点是慢。MapReduce调度本身[详细]
-
大数据Spark运行环境Standalone模式与配置详解
所属栏目:[大数据] 日期:2021-12-22 热度:169
大数据Spark运行环境:Standalone模式与相关配置详解 Standalone模式 这里我们来看看只使用Spark自身节点运行的集群模式,也就是我们所谓的独立部署(Standalone)模式。Spark的Standalone模式体现了经典的master-slave模式。 集群规划: 大数据Spark运行环境:S[详细]
-
终于有人把云计算物联网和大数据讲明白了
所属栏目:[大数据] 日期:2021-12-22 热度:193
根据美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)的定义,云计算是指能够针对共享的可配置计算资源,按需提供方便的、泛在的网络接入的模型。上述计算资源包括网络、服务器、存储、应用和服务等,这些资源能够快速地提供[详细]
-
Kafka消费与心跳机制
所属栏目:[大数据] 日期:2021-12-22 热度:116
最近有同学咨询Kafka的消费和心跳机制,今天笔者将通过这篇博客来逐一介绍这些内容。 .内容 2.1 Kafka消费 首先,我们来看看消费。Kafka提供了非常简单的消费API,使用者只需初始化Kafka的Broker Server地址,然后实例化KafkaConsumer类即可拿到Topic中的数据[详细]
-
为何放弃数据库,Hive和Spark,偏偏选择Flink?
所属栏目:[大数据] 日期:2021-12-22 热度:203
技术选型: 为什么批处理我们却选择了 Flink? 最近接手了一个融合日志的服务. 经过梳理, 我认为当前服务的设计上存在缺陷. 与 Leader 开会讨论后, 决定重新进行技术方案调研, 最终我们选择使用 Flink 重构了该服务. 目前重构后的服务已成功经受了国庆节流量洪[详细]
-
Redis基础剖析基础数据结构及其用法
所属栏目:[大数据] 日期:2021-12-22 热度:128
如果你是一个有经验的后端或者服务器开发,那么一定听说过Redis,其全称叫Remote Dictionary Server。是由C语言编写的基于Key-Value的存储系统。说直白点就是一个内存数据库,既然是内存数据库就会遇到如果服务器意外宕机造成的数据不一致的问题。 这跟很多游[详细]
-
三星 Galaxy S21 系列推送 One UI 4 Beta 5 更新 提高性能
所属栏目:[大数据] 日期:2021-12-22 热度:69
三星 向 Galaxy S21、S21+、S21 Ultra 手机推送了 One UI 4 Beta 5 系统更新。本次更新重点为手机提升了性能,改善了稳定性。 三星 Galaxy S21 本次更新为 ZU1L 版本,更新日志如下: 改善了一些应用程序在打开应用分身时发生崩溃的问题 优化了手机的稳定性,[详细]
-
人工智能技术迅猛发展,AI信任问题如何破除?
所属栏目:[大数据] 日期:2021-12-22 热度:153
说到AI,首先你会想到的是什么?是九段天才棋手柯洁大战AlphaGo?是自动驾驶?还是跟朋友聊到某个话题时手机秒推送的同类广告? 抑或是让父母都认不出来的易容神器? 从1950 年图灵之问到如今产业的蓬勃发展,人工智能技术早已渗透到人们生活的方方面面。但迅[详细]
