加入收藏 | 设为首页 | 会员中心 | 我要投稿 宜春站长网 (https://www.0795zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

让码农倍感痛苦的现代编程语言

发布时间:2021-02-02 16:10:32 所属栏目:评论 来源:互联网
导读:成本效益 第三次革命性变化是由云层造成的。云计算服务成为真正的游戏规则改变者,它们将大数据作为即用型平台(大数据即服务)进行处理,使开发人员可以专注于功能开发,从而减少对云计算基础设施的关注。 图5展示了分析数据平台(ADP)的另一个示例,该示例利

成本效益

第三次革命性变化是由云层造成的。云计算服务成为真正的游戏规则改变者,它们将大数据作为即用型平台(大数据即服务)进行处理,使开发人员可以专注于功能开发,从而减少对云计算基础设施的关注。

图5展示了分析数据平台(ADP)的另一个示例,该示例利用了无服务器技术从存储、处理到表示层的强大功能。当其技术被AWS公共云托管服务取代时,它具有相同的设计思想。
 

3. 集成

集成算法通过将两个或多个其他机器学习算法的预测结合来得到更准确的结果。可以通过投票或平均结果来组合结果。投票通常在分类过程中使用,而平均则在回归过程中使用。

集成算法有3种基本类型:Bagging、Boosting、以及Stacking。

  • Bagging:在Bagging中,算法在大小相同的不同训练集上并行运行,然后使用相同的数据集测试所有算法,并投票确定总体结果。
  • Boosting:在Boosting的情况下,算法按顺序运行,然后使用加权投票选择总体结果。
  • Stacking:顾名思义,Stacking包含两个层次,初级学习器是算法的组合,次级学习器是基于基础层次结果的元算法。

4. 聚类

聚类算法是一组用于对数据点进行分组的无监督算法 同一聚类中的点比不同聚类中的点彼此之间更相似。聚类算法有4种类型:

  • 基于质心的聚类:此聚类算法根据初始条件和异常值将数据组织到类中。基于质心的聚类算法中用的最多的就是k均值。
  • 基于密度的聚类:在这种聚类类型中,该算法将高密度区域连接到聚类中以创建任意形状的分布。
  • 基于分布的聚类:此聚类算法假定数据由概率分布组成,然后将数据聚类为该分布的各种版本。
  • 层次聚类:此算法创建了一个层次数据簇的树,可以通过在正确的级别上切割树来改变簇的数量。

5. 关联

关联算法是无监督算法,用于发现某些项在特定数据集中一起出现的概率,主要用于购物篮分析。最常用的关联算法是Apriori。Apriori算法是交易数据库中常用的挖掘算法。Apriori用于挖掘频繁项集,并从那些项集生成一些关联规则。

例如,如果一个人购买牛奶和面包,那么他也可能会买一些鸡蛋。这可以从各个顾客的先前购买记录得出。然后算法算出这些项被一起购买的频繁程度,根据针对该置信度的特定阈值来形成关联规则。
 

关于分析和结果

我用来对电视节目中的词汇进行分类的单词表,大部分都来自语料库。词汇水平是根据一个词在语料库中被发现的频率来确定的,即这些文本中最常见的词被标注为 1 级。尽管之前的研究已经证明了该列表是可靠的,但对于具有多种含义的单词,它并不那么准确。例如,单词 “draw” 在列表中被标记为第 1 级。之所以会出现这种情况,是因为这个词通常指“拍照”,但如果它的意思是“拿出武器来攻击某人”或“得出结论”,那么它就不属于第一级。

我花了几个星期的时间寻找、清理、处理数据,然后弄清楚得到的结果。然而,研究结果并不完美。关于电影的研究结果可能比电视节目更准确。电影的文字记录是独一无二的,但电视节目播出的剧集不同,这增加了每部电视节目的文字记录数量。这就是为什么我收集了每个节目 3 到 10 集的样本,以获得该电视节目平均每集涵盖的词汇。

总的来说,调查结果揭示了很多适合每个词汇水平的内容,但其中一些还是让我吃惊。比如,《行尸走肉》排在第 62 位,这让我很吃惊。我不是那个电视节目的粉丝,但我不认为一个有僵尸的虚构节目在对话中使用简单的词汇。在查看了文字记录后,我证实了《行尸走肉》中对词汇的需求在整集都有很多起伏。也就是说,有些情节可能比其他情节更难理解。

(编辑:宜春站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读