博客
关于我
Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境
阅读量:329 次
发布时间:2019-03-04

本文共 3673 字,大约阅读时间需要 12 分钟。

 

一,安装jdk1.8.0.144

下载地址:

Ubuntu配置jdk运行环境

export HADOOP_HOME=/usr/local/hadoopexport CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATHexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
$ mkdir /usr/lib/jvm                           #创建jvm文件夹$ sudo tar zxvf jdk-7u80-linux-x64.tar.gz  -C /usr/lib #/ 解压到/usr/lib/jvm目录下$ cd /usr/lib/jvm                                 #进入该目录$ mv  jdk1.7.0_80 java                         #重命名为java$ sudo apt-get install vim$ vim ~/.bashrc                                 #给JDK配置环境变量

~/.bashrc文件末尾添加以下内容

export JAVA_HOME=/usr/lib/jvm/javaexport JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=${JAVA_HOME}/bin:$PATH
$ source ~/.bashrc                       #使新配置的环境变量生效$ java -version                          #检测是否安装成功,查看java版本

二,配置ssh免密登录

$ sudo apt-get install openssh-server   #安装SSH server$ ssh localhost                         #登陆SSH,第一次登陆输入yes$ exit                                  #退出登录的ssh localhost$ sudo su$ cd ~/.ssh/                            #如果没法进入该目录,执行一次ssh localhost$ ssh-keygen -t rsa  

输入完  $ ssh-keygen -t rsa 语句以后,需要连续敲击三次回车

$ cat ./id_rsa.pub >> ./authorized_keys #加入授权$ ssh localhost                         #此时已不需密码即可登录localhost,并可见下图。如果失败则可以搜索SSH免密码登录来寻求答案

三,安装hadoop-2.6.5

下载地址:

$ sudo tar -zxvf  hadoop-2.6.5.tar.gz -C /usr/local    #解压到/usr/local目录下$ cd /usr/local$ sudo mv  hadoop-2.6.5    hadoop                      #重命名为hadoop$ sudo chown -R hadoop ./hadoop                        #修改文件权限

~/.bashrc文件末尾添加以下内容

export HADOOP_HOME=/usr/local/hadoopexport CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATHexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

同样,执行source ~./bashrc使设置生效,并输入“hadoop version”查看hadoop是否安装成功

往/usr/local/hadoop/etc/hadoop/中的hadoop-env.sh文件加入

export JAVA_HOME=/usr/lib/jvm/java

往/usr/local/hadoop/etc/hadoop/中的core-site.xml文件加入

hadoop.tmp.dir
file:/usr/local/hadoop/tmp
Abase for other temporary directories.
fs.defaultFS
hdfs://localhost:9000

往/usr/local/hadoop/etc/hadoop/中的hdfs-site.xml文件加入

dfs.replication
1
dfs.namenode.name.dir
file:/usr/local/hadoop/tmp/dfs/name
dfs.datanode.data.dir
file:/usr/local/hadoop/tmp/dfs/data

在Hadoop的目录下执行

$ ./bin/hdfs namenode -format$ ./sbin/start-dfs.sh$ jps

此时也有可能出现要求输入localhost密码的情况 ,如果此时明明输入的是正确的密码却仍无法登入,其原因是由于如果不输入用户名的时候默认的是root用户,但是安全期间ssh服务默认没有开root用户的ssh权限

输入代码:

$vim /etc/ssh/sshd_config

检查PermitRootLogin 后面是否为yes,如果不是,则将该行代码 中PermitRootLogin 后面的内容删除,改为yes,保存。之后输入下列代码重启SSH服务:

$ /etc/init.d/sshd restart

成功启动后,可以访问 Web 界面  查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件

后续每次重新启动Hadoop只需以下命令即可

sudo su ssh localhost #连接免密的rootcd /usr/local/hadoop #打开Hadoop目录./sbin/start-dfs.sh  #启动namenode和datanode进程

四,安装Scala

sudo apt-get install scala

~/.bashrc文件末尾添加以下内容,执行source ~./bashrc使设置生效

export SCALA_HOME=/usr/share/scala-2.11

五,安装Spark

下载地址:

tar zxvf spark-2.3.1-bin-hadoop2.7.tgzsudo mkdir /usr/local/sparkmv spark-2.3.1-bin-hadoop2.7/* /usr/local/sparkcd /usr/local/spark/bin./pyspark

在>>>后输入

lines = sc.textFile("/usr/local/spark/README.md")lines.count()   #字数统计lines.first()

如出现输出则说明Spark+Python+Hadoop大数据开发环境已经安装成功

 

你可能感兴趣的文章
Mysql 数据类型一日期
查看>>
MySQL 数据类型和属性
查看>>
mysql 敲错命令 想取消怎么办?
查看>>
Mysql 整形列的字节与存储范围
查看>>
mysql 断电数据损坏,无法启动
查看>>
MySQL 日期时间类型的选择
查看>>
Mysql 时间操作(当天,昨天,7天,30天,半年,全年,季度)
查看>>
MySQL 是如何加锁的?
查看>>
MySQL 是怎样运行的 - InnoDB数据页结构
查看>>
mysql 更新子表_mysql 在update中实现子查询的方式
查看>>
MySQL 有什么优点?
查看>>
mysql 权限整理记录
查看>>
mysql 权限登录问题:ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: YES)
查看>>
MYSQL 查看最大连接数和修改最大连接数
查看>>
MySQL 查看有哪些表
查看>>
mysql 查看锁_阿里/美团/字节面试官必问的Mysql锁机制,你真的明白吗
查看>>
MySql 查询以逗号分隔的字符串的方法(正则)
查看>>
MySQL 查询优化:提速查询效率的13大秘籍(避免使用SELECT 、分页查询的优化、合理使用连接、子查询的优化)(上)
查看>>
mysql 查询数据库所有表的字段信息
查看>>
【Java基础】什么是面向对象?
查看>>