年薪 40W 是什么水平？

发布时间：2021-02-11 18:48:05 所属栏目：外闻来源：互联网

导读：图 2 和图 3 给出了梯度值增加时 FedAsync 如何收敛。可以看到，当整体陈旧性较小时，FedAsync 收敛速度与 SGD 一样快，比 FedAvg 快。当陈旧性较大时，FedAsync 收敛速度较慢。在最坏的情况下，FedAsync 的收敛速度与 FedAvg 相似。当值非常大时，收敛可能

图 2 和图 3 给出了梯度值增加时 FedAsync 如何收敛。可以看到，当整体陈旧性较小时，FedAsync 收敛速度与 SGD 一样快，比 FedAvg 快。当陈旧性较大时，FedAsync 收敛速度较慢。在最坏的情况下，FedAsync 的收敛速度与 FedAvg 相似。当 α值非常大时，收敛可能不稳定。使用自适应 α，收敛性对较大的 α 是鲁棒的。当最大陈旧性状态为 4 时，FedAsync 和 FedAsync+Hinge （b=4）是相同的。

1.3 论文小结

与经典联邦学习相比，本文提出的异步联邦优化方法具有下述优点：

效率：中央服务器可以随时接收客户机设备的更新。与 FedAvg 不同，陈旧性（延时反馈）的更新不会被删除。当陈旧性很小时，FedAsync 比 FedAvg 收敛的快得多。在最坏的情况下，当陈旧性很大时（延时严重），FedAsync 仍然具有与 FedAvg 相似的性能。

灵活性：如果某些设备不再能够执行训练任务（设备不再空闲、充电中或连接到不可用的网络），可以将其暂时挂起，等待继续训练或稍后将训练模型推送到中央服务器。这也为中央服务器上的进程调度提供了很大的灵活性。与 FedAvg 不同，FedAsync 可以自行安排训练任务，即使设备当前不合格 / 不能够工作，因为中央服务器无需一直等待设备响应，也可以做到令当前不合格 / 不能工作的客户机设备稍后开始训练任务。

可伸缩性：与 FedAvg 相比，FedAsync 可以处理更多并行运行的客户机设备，因为中央服务器和这些设备上的所有更新都是非阻塞的。服务器只需随机化各个客户机设备的响应时间即可避免网络拥塞。

作者在文章中通过理论分析和实验验证的方式证明了 FedAsync 的收敛性。对于强凸问题和非强凸问题，以及一类受限制的非凸问题，FedAsync 具有近似线性收敛到全局最优解的能力。在未来的工作中，作者计划进一步研究如何设计策略来更好的调整混合超参数。

这就走进了死胡同。我们可以测量精确度，可以测量速度，但是无法判定影响力。我们都承认我们需要更先进的科学，但是我们如何断定一种科学比另一种科学更好呢?我们如何衡量研究和现实之间的脱节?我们希望能和人工智能一起前进，但是我们既不知道前进的方向，也不知道已经走了多远。

这不仅仅是人工智能的问题。我们想要更健全的政府，更完善的医疗服务，更优质的教育，但是怎样才能真正量化这些呢?到目前为止，最失败的方法(也是最普遍的方法)是替代度量，比如COCO AP的得分。

我们无法衡量人工智能的进步，但我们可以测量目前的目标检测方法有多精准。目标检测也是AI的一部分，所以，如果能在这方面取得一些进展，我们也可以期待在人工智能方面取得进展。

重要的不是竞赛，而是之后的影响。事实上，2012年ILSVRC的冠军是AlexNet，而2015年的冠军是ResNet。你能说出2013年和2014年的获胜者吗?2016年、2017年和2018年的挑战是什么?你能确保每年都举办ILSVRC吗?

你可能会问：为什么没有更好的基准或更有用的度量标准?我们如何衡量后继影响?

遗憾的是，我们做不到。我们可以使用引用或下载的计数，Reddit的访问量或者GitHub的星号标注。然而，这些度量标准都是有瑕疵的。为了进行公平的比较，我们需要考虑到每一个细节，同时从等式中将所有的偏差进行标准化处理，这太难了。

例如，为了比较Attention和ResNet的影响力，我们需要考虑正确使用这些概念，权衡它们的相对影响，并将时间和影响范围进行标准化处理。很明显，量化这些属性的工作量巨大，可能与所有基准或度量标准一样有缺陷。诸如杂志的影响因素之类的想法甚至没有触及这个问题的表面。

有些目标是无法量化的。谁是最有声望的人?是西方音乐史上最具影响力的作曲家巴赫，还是最具影响力的剧作家莎士比亚?比较他们的作品毫无意义，更不用说他们的领域了。

（编辑：宜春站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

Meta继续重组结构人工	苹果偷偷放松隐私新规
三星电子高层大改血，	创立Apple之后，沃兹尼