不容错过的2017数据科学15大热门GitHub项目

小伙伴都是想知道一些关于不容错过的2017数据科学15大热门GitHub项目和用pyspark编程解决天气的相关话题,下面小编就为大家解。

简介

GitHub现在不再只是一个软件表管理器,而是软件工程师共享自己开发的工具/库的一种方式,甚至这些资源对某些公司来说也很重要。作为一名狂热的数据科学爱好者,我总结了一系列2017年特别出名的知识库!

目录

1学习资源库

1很棒的数据科学

2机器学习/深度学习备忘单

3牛津深度自然语言处理课程讲座

4PyTorch教程

5NIPS2017资源

2开源软件

1TensorFlow

2TuriCreate简化的机器学习库

3开放姿势

4深度演讲

5移动深度学习

6智慧

7深度照片风格转移

8CycleGAN

9序列2序列

10Pix2码

1学习资源

11:很棒的数据科学

此GitHub是数据科学的资源指南。它建立在多年来积累的贡献之上。从指南和信息图表到Twitter、Facebook、Instagram等社交网站上的资源链接,无论您是初学者还是老手,都有许多资源可供查看。

回顾目录内容,以下内容是资源库最深入的代表

12机器学习/深度学习备忘录

该资源库由常用工具和技术组成,以备忘单的形式编译。这些手册的范围从非常简单的工具(如Pandas)到技术(如深度学习)。一旦您对最常用的库进行了分类,您就不再需要通过Google搜索这些工具的最常见提示和技巧。

备忘单包括Pandas、numpy、scikit-learn、matplotlib、ggplot、dplyr、tidyr、pySpark和神经网络。

13牛津深度自然语言处理课程讲座

斯坦福大学的自然语言处理课程一直是想进入自然语言处理领域的人的首选课程。但随着深度学习的出现,NLP取得了巨大的进步,这要归功于深度学习架构的出现。

这个知识库基于牛津大学的NLP讲座,将NLP教育提升到一个新的水平。这些讲座是一门使用RNN的实践课程,涵盖了语言建模、语音识别、文本转语音等。该知识库包含牛津讲座的所有材料,提供实用的讲座材料分发。

14PyTorch-教程

截至目前,PyTorch是Tensorflow的唯一竞争对手,并且在维护其声誉方面做得很好。随着对Python风格编码、动态计算和更快原型开发的需求,越来越多的开发人员选择PyTorch。因此,PyTorch也引起了深度学习界足够的关注。

NIPS2017的15项资源

该知识库是NIPS2017会议上所有受邀讲座、教程和研讨会的资源和幻灯片列表。NIPS是致力于机器学习和计算神经科学的年度会议。近年来数据科学界的大部分开创性研究都是本次研讨会的成果。如果您想保持领先地位,这绝对是最好的资源!

2开源软件

21TensorFlow

TensorFlow正式发布已经2年了,一直保持着“机器学习/深度学习”顶级库的称号。GoogleBrain和TensorFlow背后的社区一直在积极做出贡献,特别是在深度学习领域。

TensorFlow最初是作为使用数据流图进行数值计算的库而构建的。但从目前的情况来看,它可以说是一个完整的构建深度学习模型的库。虽然TensorFlow主要支持Python,但也支持C、C++、Java等语言。

22TuriCreate-简化的机器学习库

TuriCreate可以轻松创建和部署机器学习模型,用于复杂的任务,例如对象检测、活动分类和推荐系统。

TuriCreate是专门为python开发的。TuriCreate提供的功能之一是它可以轻松地将机器学习模型部署到适用于iOS、macOS、watchOS和tvOS应用程序的CoreML。

23开放姿势

OpenPose是一个多人关键点检测库,可帮助您实时检测图像或视频中人物的位置。OpenPose由卡内基梅隆大学感知计算实验室开发,其成功展示了开源软件研究如何轻松应用于工业中。

OpenPose帮助解决的一个用例是活动检测。例如,可以实时捕获演员执行的活动。这些关键点及其动作可以用来制作动画电影。OpenPose有一个可用于访库的C++API,它还有一个用于处理图像或视频的简单命令行界面。

24深度语音

DeepSpeech库是百度研究院开发的语音合成技术的开源技术。它基于TensorFlow,只能与Python一起使用,但也可以与NodeJS绑定,也可以在命令行上使用。

Mozilla是从头开始构建DeepSpeech的主要工作人员之一。Mozilla技术战略副总裁肖恩怀特(SeanWhite)曾评论道“目前满足商业质量的语音识别服务屈指可数,主要由少数大公司提供。这项技术减少了初创公司的数量,研究人员甚至更大的公司都希望在用户选择及其产品和服务的可用功能方面拥有发言权。与志同道合的开发人员、公司和研究人员组成的社区一起,我们应用了复杂的机器学习技术和各种创新构建语音转文本引擎”

25移动深度学习

该库将最先进的数据科学技术引入移动。该知识库由百度研发,旨在在Android、IOS等移动设备上部署低学习模式,具有低复杂度、高速度的特点。存储库本身解释的一个简单用例是对象检测,它可以识别图像中对象的确切位置。

26智慧

Visdom是一个支持在协作者之间广播图表、图像和文本的库。您可以通过编程方式或通过UI组织可视化空间、为实时数据创建仪表板、检查实验结果或调试实验代码。

绘图函数的输入是不同的,尽管大多数输入张量X与包含数据和可选数据变量的张量Y作为输入。它支持所有基本绘图类型来创建由Plotly提供支持的可视化效果。Visdom支持Python中的Torch和Numpy。

27深色照片风格转移

该库基于一篇研究论文,介绍了一种用于摄影风格迁移的深度学习方法,可以处理大量图像内容,同时有效地迁移参考风格。该方法成功地在各种情况下产生令人满意的逼真风格转移,包括一天中的时间、天气、季节和艺术编辑的转移。这段代码是基于torch的。

28CycleGAN

CycleGAN是一个有趣且功能强大的库,展示了最先进技术的未来。例如,下图展示了该库如何调整图像的深度感知。这里的要点是,您不告诉算法要关注图片的哪一部分。

该库目前是用Lua编写的,但也可以从命令行使用。

29Seq2seq

Seq2seq最初是为机器翻译而开发的,但后来被开发用于各种其他任务,包括聚合、对话建模和图像字幕。只要一种格式的输入数据可以编码为另一个题并解码为另一种格式,就可以使用该框架。它使用所有流行的PythonTensorFlow库进行编程。

210像素2码

这是一个非常令人兴奋的项目,它使用深度学习来尝试为给定的GUI自动生成代码。在构建网站或移动界面时,前端工程师经常不得不编写重复的代码,既耗时又低效。这本质上阻止了开发人员花费大部分时间来实现他们正在构建的软件的实际功能和逻辑。Pix2code可以通过自动化该过程来弥补这一点。它基于一种新颖的方法,允许从单个GUI屏幕截图作为输入生成计算机令牌。

Pix2code是用Python编写的,可用于将从手机和Web界面捕获的图像转换为代码。

结论

我希望您能够了解2017年GitHub上发布的一些新的开源工具/技术。我还列出了GitHub上的热门资源。如果您以前见过更有用的知识库,请在下面的评论中告诉我们!

本文由北京邮电大学老师-热爱生活推荐,阿里云云栖社区组织翻译。

文章原标题《2017年你不能错过的15个趋势数据科学GitHub存储库》,

作者SunilRay,商业分析和情报专业人士,在印度保险业拥有丰富的经验。

译者胡硕八刀,审稿人

文章为简化翻译,更详细内容请查看原文

有关不容错过的2017数据科学15大热门GitHub项目和用pyspark编程解决天气的相关信息已解完毕,请各位网友持续关注本站。

除非特别注明,本站所有文字均为原创文章,作者:admin