加入收藏 | 设为首页 | 会员中心 | 我要投稿 宜春站长网 (https://www.0795zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

AI现状2021

发布时间:2021-02-02 16:11:11 所属栏目:评论 来源:互联网
导读:以下介绍一个典型的分析数据平台(ADP)。它包括四个主要层次: 仪表板和可视化分析数据平台(ADP)的外观,可将分析摘要提供给最终用户。 数据处理验证、丰富数据并将数据从一种形式转换为另一种形式的数据管道。 数据仓库存放组织良好的数据的地方,例如汇总和

以下介绍一个典型的分析数据平台(ADP)。它包括四个主要层次:

•仪表板和可视化–分析数据平台(ADP)的外观,可将分析摘要提供给最终用户。

•数据处理–验证、丰富数据并将数据从一种形式转换为另一种形式的数据管道。

•数据仓库–存放组织良好的数据的地方,例如汇总和数据集市等。

•数据湖–用于存放纯原始数据的地方,是数据仓库的基础。

每个层次都有足够的选择,可满足任何需要和要求。这些技术中有一半是在过去5年内出现的。

关于它们的重要一点是,技术的开发旨在相互兼容。例如,典型的低成本小型分析数据平台(ADP)可能包含Apache Spark作为处理组件的基础,AWS S3或类似的数据湖,Clickhouse作为仓库,OLAP用于低延迟查询,而Grafana用于漂亮的仪表板(见图3)。
 

以往有很多来自开发人员的故事,他们浪费了80%的时间试图用Spark、Hadoop、Kafka或其他方法来克服一些故障。如今,这些技术变得足够可靠,并且在成长阶段学会了如何相互合作。

与捕获内部错误相比,基础设施出现故障的机会要多得多。在大多数情况下,即使是基础设施出现问题也可以容忍,因为大多数的大数据处理框架设计都是容错的。此外,这些技术为计算提供了稳定、强大、简单的抽象,并允许开发人员专注于开发的业务。

各种大数据技术

目前正在发生第二次革命,近年来涌现出许多开源和专有技术——Apache Pino、Delta Lake、Hudi、Presto、Clickhouse、Snowflake、Upsolver、Serverless等等。数千名开发人员的创造力和创意已转化为大胆而卓越的解决方案,并具有巨大的协同作用。
 

相同的逻辑适用于更高级和更复杂的问题。对于各种问题,回归算法的类型也有很多。最常用的前五名可能是:

  • 线性回归:最简单的回归技术使用线性方法来描述因变量(预测值)和自变量(用于预测的值)之间的关系。
  • Logistic回归:这种类型的回归用于二进制因变量,被广泛用于分析分类数据。
  • 岭回归:当回归模型变得过于复杂时,岭回归会校正模型系数的大小。
  • Lasso回归:Lasso(最小绝对收缩选择器运算符)回归用于选择变量并对其正则化。
  • 多项式回归:这种类型的算法用于拟合非线性数据。使用时最好的预测不是直线,而是一条试图拟合所有数据点的曲线。

2. 分类

机器学习中的分类是基于预分类的训练数据集将项归类的过程。分类被认为是监督学习算法的一种。这些算法利用训练数据的分类结果,计算出新的项落入已定义类别之一的概率。分类算法的一个著名示例是将传入的电子邮件分为垃圾邮件或非垃圾邮件。

分类算法有多种类型,最常用的有:

  • K近邻:KNN是一种使用训练数据集来查找某些数据集中的k个最接近数据点的算法。
  • 决策树:可将其视为流程图,将每个数据点一次分为两类,然后再分为两类,依此类推。
  • 朴素贝叶斯:此算法使用条件概率规则计算项属于特定类别的概率。
  • 支持向量机(SVM):在此算法中,根据数据的极性程度对数据进行分类,这可能超出X / Y预测范围。
 

(编辑:宜春站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读