admin 管理员组

文章数量: 1086019


2024年3月20日发(作者:448gpa是什么意思)

Mahout使用入门

感谢:《使用mahout进行数据挖掘》 /blog/804146

一、简介

Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一

些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应

用程序。Apache Mahout项目已经发展到了它的第三个年头,目前已经有了三个公共发

行版本。Mahout包含许多实现,包括集群、分类、推荐过滤、频繁子项挖掘。此外,通

过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

二、下载与准备

程序下载

下载hadoop /apache-mirror/hadoop/common/ 下载适

合版本的包(本文采用稳定版 )

下载mahout /apache-mirror/mahout/

(本文采用)

如需更多功能可能还需下载 maven 和 mahout-collections

数据下载

数据源:/databases/ 里面有大量经典数据提供下载

(本文使用synthetic_control 数据,synthetic_)

三、安装与部署

为了不污染Linux root环境,本文采用在个人Home目录安装程序,程序目录为

$HOME/local。

程序已经下载到$HOME/Downloads,使用tar命令解压:

tar zxvf -C ~/local/

cd ~/local

mv hadoop-0.20.203.0 hadoop

tar zxvf -C ~/local/

cd ~/local

mv mahout-distribution-0.5 mahout

修改.bash_profile / .bashrc

export HADOOP_HOME=$HOME/local/hadoop


本文标签: 使用 下载 实现 经典 目录