远程教育网络近乎全部遭受攻击
机器学习算法都是基于某些数据的。最初,该算法通过一些“训练数据”来建立解决特定问题的直觉。一旦算法通过了学习阶段,就可以通过已获得知识解决基于不同数据集的相似问题。 一般而言,机器学习算法分为4类:
以上每种算法都有特定目标。例如,监督学习旨在扩展训练数据的范围,并据此预测未来或新数据。另一方面,无监督算法用于组织和筛选数据以使其有意义。 每个类别都有各种旨在执行特定任务的特定算法。本文将介绍每个数据科学家都必须了解的5种基本算法,内容涵盖机器学习的基础知识。 1. 回归
回归算法是监督算法,用于查找不同变量之间的可能关系,以了解自变量对因变量的影响程度。可以将回归分析视为一个方程,例如,假设有方程y = 2x + z,y是因变量,则x,z是自变量。回归分析就是找出x和z在多大程度上影响y的值。 数据集 为了进行分析,我使用了 3 个主要数据集,它们由文本、Netflix 目录和 Netflix 原创列表组成。我在谷歌上搜索,直到我找到了大量用于分析的转录本。我用目录来匹配 Netflix 上的字幕。你可以在 Kaggle 上找到 Netflix 的目录数据集。从 2019 年开始,Netflix 上就可以看到它的内容,所以可能有些电影或电视节目现在还不能在 Netflix 上看到。最后,我在这里找到了一份截至 2020 年的 Netflix 原创剧集列表,这对分析很有帮助。 方法我用 Python 做了所有这些分析,这是我准备数据的方式: Tokenization:为了分析文字记录中的词汇,我将字符说的所有单词标记化。Python中有许多用于标记化的工具,但是我使用 CountVectorizer,因为它将收集的转录本转换为标记计数的数据格式,从而简化了分析。在分析了 3000 部电影的文章中,我进一步解释了 CountVectorizer 是如何工作的。 词形还原(Lemmatization):在标记化之后,我必须找到每个标记的基本形式。您可以通过使用象 lemmizing 这样的技术来实现这一点,您可以在 NLTK 库中找到这些技术。不过,我使用了类似的单词族列表,而且还根据单词出现的频率给出了每个单词的难度水平。到 2020 年,有 29 个单词家族列表,你可以在这里找到。这些列表是对与语言学和英语作为第二语言学习相关的研究论文进行评估的。 数据清理:我删除了在电影或片段中听不到的单词,比如场景描述和讲话者的名字。我还排除了对话中超过 3.5% 的单词与单词家族列表不匹配的抄本(它们可能是异常值或被破坏的数据)。
所有的代码都可以在 Github 上找到! (编辑:宜春站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |