搜索
您的当前位置:首页正文

本地Spark环境读取云上的HDFS文件

来源:尚车旅游网

1. 腾讯云hadoop环境的搭建

参考我之前的文档

有坑:关于本机的ip设置要设置成内网的ip,关于其他机器的ip要设置成公网ip

搭建完成之后访问公网的50070端口

2. 使用spark操作云上的HDFS文件

上传文件 hdfs dfs -put

会遇到问题:

        1. 

ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0) org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-2074914242-172.23.8.102-1618472170982:blk_1073744030_3207 file=/user/hive/warehouse/hdu.db/city_info/city_info.txt at org.apache.hadoop.hdfs.DFSInputStream.chooseDataNode(DFSInputStream.java:976) at org.apache.hadoop.hdfs.DFSInputStream.blockSeekTo(DFSInputStream.java:632)

是因为datanode内部通信有问题,没有使用域名

可以设置使用域名,参考:

因篇幅问题不能全部显示,请点此查看更多更全内容

Top