AI现状2021
|
以下介绍一个典型的分析数据平台(ADP)。它包括四个主要层次: •仪表板和可视化–分析数据平台(ADP)的外观,可将分析摘要提供给最终用户。 •数据处理–验证、丰富数据并将数据从一种形式转换为另一种形式的数据管道。 •数据仓库–存放组织良好的数据的地方,例如汇总和数据集市等。 •数据湖–用于存放纯原始数据的地方,是数据仓库的基础。 每个层次都有足够的选择,可满足任何需要和要求。这些技术中有一半是在过去5年内出现的。
关于它们的重要一点是,技术的开发旨在相互兼容。例如,典型的低成本小型分析数据平台(ADP)可能包含Apache Spark作为处理组件的基础,AWS S3或类似的数据湖,Clickhouse作为仓库,OLAP用于低延迟查询,而Grafana用于漂亮的仪表板(见图3)。 以往有很多来自开发人员的故事,他们浪费了80%的时间试图用Spark、Hadoop、Kafka或其他方法来克服一些故障。如今,这些技术变得足够可靠,并且在成长阶段学会了如何相互合作。 与捕获内部错误相比,基础设施出现故障的机会要多得多。在大多数情况下,即使是基础设施出现问题也可以容忍,因为大多数的大数据处理框架设计都是容错的。此外,这些技术为计算提供了稳定、强大、简单的抽象,并允许开发人员专注于开发的业务。 各种大数据技术
目前正在发生第二次革命,近年来涌现出许多开源和专有技术——Apache Pino、Delta Lake、Hudi、Presto、Clickhouse、Snowflake、Upsolver、Serverless等等。数千名开发人员的创造力和创意已转化为大胆而卓越的解决方案,并具有巨大的协同作用。 相同的逻辑适用于更高级和更复杂的问题。对于各种问题,回归算法的类型也有很多。最常用的前五名可能是:
2. 分类 机器学习中的分类是基于预分类的训练数据集将项归类的过程。分类被认为是监督学习算法的一种。这些算法利用训练数据的分类结果,计算出新的项落入已定义类别之一的概率。分类算法的一个著名示例是将传入的电子邮件分为垃圾邮件或非垃圾邮件。 分类算法有多种类型,最常用的有:
(编辑:宜春站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


