首页 \ 问答 \ redis rdb和aof的区别

redis rdb和aof的区别

更新时间：2023-12-28 16:12

最新回答

在windows上安装与配置spark

本节介绍在windows系统上安装spark的过程。在windows环境下需要安装cygwin模拟linux的命令行环境来安装spark。

（1）安装jdk

相对于linux、windows的jdk安装更加自动化，用户可以下载安装oracle jdk或者openjdk。只安装jre是不够的，用户应该下载整个jdk。

安装过程十分简单，运行二进制可执行文件即可，程序会自动配置环境变量。

（2）安装cygwin

cygwin是在windows平台下模拟linux环境的一个非常有用的工具，只有通过它才可以在windows环境下安装hadoop和spark。具体安装步骤如下。

1）运行安装程序，选择install from internet。

2）选择网络最好的下载源进行下载。

3）进入select packages界面（见图2-2），然后进入net，选择openssl及openssh。因为之后还是会用到ssh无密钥登录的。

另外应该安装“editors category”下面的“vim”。这样就可以在cygwin上方便地修改配置文件。

最后需要配置环境变量，依次选择“我的电脑”→“属性”→“高级系统设置”→“环境变量”命令，更新环境变量中的path设置，在其后添加cygwin的bin目录和cygwin的usr\bin两个目录。

（3）安装sshd并配置免密码登录

1）双击桌面上的cygwin图标，启动cygwin，执行ssh-host-config -y命令，出现如图2-3所示的界面。

2）执行后，提示输入密码，否则会退出该配置，此时输入密码和确认密码，按回车键。最后出现host configuration finished.have fun!表示安装成功。

3）输入net start sshd，启动服务。或者在系统的服务中找到并启动cygwin sshd服务。

注意，如果是windows 8操作系统，启动cygwin时，需要以管理员身份运行（右击图标，选择以管理员身份运行），否则会因为权限问题，提示“发生系统错误5”。

（4）配置ssh免密码登录

1）执行ssh-keygen命令生成密钥文件，如图2-4所示。

2）执行此命令后，在你的cygwin\home\用户名路径下面会生成.ssh文件夹，可以通过命令ls -a /home/用户名 查看，通过ssh -version命令查看版本。

3）执行完ssh-keygen命令后，再执行下面命令，生成authorized_keys文件。

cd ~/.ssh/ 
cp id_dsa.pub authorized_keys 
这样就配置好了sshd服务。

（5）配置hadoop

修改和配置相关文件与linux的配置一致，读者可以参照上文linux中的配置方式，这里不再赘述。

（6）配置spark

修改和配置相关文件与linux的配置一致，读者可以参照上文linux中的配置方式，这里不再赘述。

（7）运行spark

1）spark的启动与关闭

①在spark根目录启动spark。

./sbin/start-all.sh 
②关闭spark。

./sbin/stop-all.sh 
2）hadoop的启动与关闭

①在hadoop根目录启动hadoop。

./sbin/start-all.sh 
②关闭hadoop。

./sbin/stop-all.sh 
3）检测是否安装成功

正常状态下会出现如下内容。

-bash-4.1# jps 
23526 jps 
2127 master 
7396 namenode 
7594 secondarynamenode 
7681 resourcemanager 
1053 datanode 
31935 nodemanager 
1405 worker 
如缺少进程请到logs文件夹下查看相应日志，针对具体问题进行解决。

之前一直纠结怎么在Eclipse下调试用Java编写的spark程序，这里给大家讲一下步骤。实际上，没有几步，但是在网络上面不好找，几乎没有这样的文章或者技术贴。
在Eclipse下调试spark程序时，通常会用两种错误，第一种是hadoop的winUtils.exe有问题，第二种是序列化问题，错误表现是akka连接不上。
工具/原料
winUtils.exe
spark
方法/步骤
设置环境变量：HADOOP_HOME，在windows下调试Eclipse时，并不需要在windows下安装hadoop，只需要配置一下环境变量就好了，然后HADOOP_HOME执行的位置的bin下要有winUtils.exe，设置环境变量的方式不用讲了吧！

在Eclipse项目中添加spark-assembly-1.4.1-hadoop2.4.0.jar，这里添加你需要的版本。
注意，不要使用spark的分散的jar包，这一点主要是maven时需要注意，因为maven时它会下载好多jar，这里会引进第二个问题，序列化问题，应该是scala的问题。

设置环境变量SPARK_CLASSPATH，这个环境变量不是必须的，你看一下你的服务器是不是设置了。
其实这一步和下面的一步本质作用是一样的，都是告诉spark依赖的jar，而告诉spark依赖jar的方法有两种，一种是设置环境变量，另一种是addJar方式。作者是这样认为，如果公用的jar，那么就通过设置环境变量的方式，如果是算法私有的jar，就通过addJar方式。
注意，环境变量SPAKR_CLASSPATH的值是unix方式，就是跟服务器设置的一样，不要用win的方式“;”，为啥呢？作者认为，通过设置环境变量的方式时，在初始化spark上下文时，并没有分发jar到各个worker，所以需要指定jar在服务器的位置。（有问题的话，请留言，嘴拙）

addJar方式，上面讲过了。与环境变量的方式区别在于，驱动程序启动，初始化上下文时，需要分发jar到各个worker，所以针对私有的jar，最好使用addJar方式。

到了这里，应该全部配置完成了，如果我讲述的比较清晰的话，你应该可以随意调试了。
如果存在问题，请指正。如果有疑问，请留言。

END
注意事项
SPAKR_CLASSPATH，如果不知道怎么弄，那么就不要设置了，全用addJar方式

redis rdb和aof的区别

最新回答

相关问答

如何设置Spark执行程序的数量？(How to set amount of Spark executors?)[2023-03-13]

如何更改Spark设置以允许spark.dynamicAllocation.enabled？(How to change Spark setting to allow spark.dynamicAllocation.enabled?)[2022-02-22]

如何设置Apache Spark Executor内存(How to set Apache Spark Executor memory)[2023-09-05]

Apache Spark中的spark.storage.memoryFraction设置(spark.storage.memoryFraction setting in Apache Spark)[2022-07-17]

写入s3时在Spark 2.1.0中设置spark.speculation(Setting spark.speculation in Spark 2.1.0 while writing to s3)[2023-05-18]

Flex 4 Spark List设置滚动位置(Flex 4 Spark List setting scroll position)[2023-02-24]

如何在Spark TextArea中设置边框颜色？(How do I set the border color in a Spark TextArea?)[2021-10-07]

在java上为cassandra设置spark需要一些帮助(Need some help on setting up spark for cassandra on java)[2022-05-26]

如何设置配置使Spark / Yarn工作更快？(How to set configurations to make Spark/Yarn job faster?)[2023-07-19]

Cloudera 5.6 spark memoryFraction设置(Cloudera 5.6 spark memoryFraction settings)[2022-10-18]

相关文章

最新问答