为了第一次hacking,我学习了python,之后又去不断深入;我用它做机器学习,如果你也深谙此道,跟我一起变的强大;
我的建议是:去自己使用下,这样会提高你的自信
你可以安装Python3和以上所有包裹,只需要在Anaconda Python distribution.Anaconda是非常受欢迎的数据科学和机器学习论坛;
如果你使用python2.7,也不要担心;你可以不用迁移到Python3;另外,如果你使用pip/virtualenv去替代Anaconda,这样也是可以哦!可以参照 conda vs. pip vs. virtualenv
学习怎么使用IPython笔记(5-10分钟).
现在,跟着一个介绍机器学习模型scikit-learn文档(10分钟)。并且使用ipython或者ipython笔记。它真的会提高你的自信。
刚刚发生了什么?
——-
你刚刚用sciki-learn,对手写数字进行了区分,很爽吧?
sciki-learn是一个python版本机器学习类库。机器学习是困难的,你会非常高兴你有这样的工具,可以简单的去解决它;
我非常鼓励你花5分钟,或者更多的时间,去浏览sciki-learn主页,去了解一些名称(分类、回归等),以及他们的使用场景。不要去点击进入里面去看详细内容,你只需要过目就可以了。
让我们对机器学习了解再多一点,一些通用的想法和理念。阅读图解机器学习,这篇文章的作者Stephanie Yee和Tony chu
它不会花费你很长时间的!它介绍的很漂亮,到时要控制住自己的口水哦!
好的。让我们更加理解更深点!
来让我阅读Pedro Domingos写的几个非常有用机器学习建议,写的很有干货而且还简单明了。作者了解很多窍门,而且展示给你。
花些时间去了解它,最好记下笔记。不要担心你现在不是很了解。
整篇论文写了很多要点。但是我要指出其中我认为重要的两点:
不仅仅只是数据:机器学习是一门科学艺术。引用Domingos的话来说:”所需要了解的知识不会那么晦涩。机器学习不是魔术;它不会无中生有,只是从很少的信息,来获取更多你所需要的信息。编程:像大多数的工程,它大多数的工作:我们不得不从很多条框上建立;机器学习更像耕种,让自然环境做大多数的工作,农民播种通过吸收营养来使得其成长。机器学习者更像组合知识来让数据获得方程式;”
更多的数据,比一个聪明的算法更加重要:仔细听,程序猿们!我们喜欢酷的工具,抵制重复建造轮子的诱惑,不要过工程师;你应该专注的是,做最简单的事情,来尽可能使其工作。引用Domingos的话来说:“你已经尽最大可能建立最好的属性,但是分类器还没有达到你的要求。这时候你能做什么?这里有两个选择:设计更好的算法或者获得更多的数据。一个有充足数据稍微差的分类器会打败一个有少量数据的聪明算法”
所以### 知识 ###和### 数据 ###都是非常重要的。集中精力在这些方面上,而非只看重算法本身。在实践中,这就意味着你万不得已时才增加复杂性,否则你应该做简单的事情;不要一上来就用神经网络,只是因为它足够酷炫。提高你模型,通过得到更多的数据和对问题理解的来使用数据。应该花费你的时间在这些方面上。优化算法应该在你得到足够的数据,并且你处理的很好之后的事情。
订阅Talk Machines,这是一个关于机器学习的博客,它很高效让你收获知识。
我建议的听的顺序:
从IPython笔记中挑选一到两个,玩耍一下!
还有更多的地方可以找到非常好的Ipython笔记
教授Andrew Ng的机器学习在线课程 这是一个免费的在线教程,我经常推荐,并且是一个重点 。
创建一个玩具工程,去运用你学习到的知识,是很有帮助的。你可以使用一个杰出的数据集.还有记住,Ipython笔记是你学习的伴侣。
还有,Elements of Statistical Learning(统计学习元素)经常出现,但是它通常作为一个参考的援引,而不是作为一个介绍。它是免费的,可以下载下来或者弄成标签页。
下面是我推荐一些其它在线教程。(机器学习,数据科学和其它相关的主题)