知识点
相关文章
更多最近更新
更多Mongo-Hadoop 1.1 发布,利用 Hadoop 并行处理 MongoDB 中的大数据
2019-03-28 12:56|来源: 网络
Mongo-Hadoop 1.1 发布了,Mongo-Hadoop可以很容易地使用Mongo数据库库以及.bson格式的mongoDB备份文件,并将此作为Hadoop Map/Reduce任务的数据输入源或者输出目标。Mongo-Hadoop先检测数据并计算数据分割,然后交给Hadoop并行处理,这样非常大的数 据集就可以快速被处理。
更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13
下载地址:
相关问答
更多-
使用pig和mongodb导入数据时添加mongo查询(Adding a mongo query when importing data with pig and mongodb)[2022-07-29]
你可以这样做: set mongo.input.query '{"value.task.creation":{ "$gte": { "$date": 1421366400}, "$lt" : { "$date": 1421539200} } }' data = LOAD 'mongodb://54.93.131.188:27017/foo.units' USING com.mongodb.hadoop.pig.MongoLoader(); DUMP data; You can do ... -
我想知道为什么我不首先尝试这个: OUTPUT_PATH=`mktemp -d` yarn jar /usr/hdp/2.4.0.0-169/hadoop-mapreduce/hadoop-streaming.jar \ -D mapred.job.name="${BUILD_TAG}" \ -D mapred.job.queue.name="sr" \ -input "${INPUT_PATH}" \ -output "${OUTPUT_PATH}" \ -map ...
-
解决方案是使用MongoUpdateStorage: https://github.com/alabid/mongo-hadoop/blob/issues/pig/mongo-update-storage/pig/README.md 奇迹般有效 The solution is to use MongoUpdateStorage: https://github.com/alabid/mongo-hadoop/blob/issues/pig/mongo-update-storage/pig/README.md ...
-
在HDP中的Hive查询中无法使用mongo-hadoop连接器(Not able to use mongo-hadoop connector in Hive query in HDP)[2023-06-01]
您需要映射mongodb集合中的所有项目,而不仅仅是“_id”: CREATE TABLE individuals ( id INT, name STRING, age INT, city STRING, hobby STRING ) STORED BY 'com.mongodb.hadoop.hive.MongoStorageHandler' WITH SERDEPROPERTIES('mongo.columns.mapping'='{"id":"_id","name":"Muliple集合作为hadoop map-reduce工作的mongodb的输入(Muliple collections as input of mongodb for hadoop map-reduce job)[2022-01-18]
谢谢你指出这个问题。 这是一个例子中的错误。 已提交HADOOP-109来解决此问题。 我通过将子拆分器类作为所有输入集合的null来修复该问题。 请参阅此拉取请求 。 为了使其正常工作,请确保将以下参数传递给Hadoop: -D mongo.splitter.class=com.mongodb.hadoop.splitter.MultiMongoCollectionSplitter 以上修复是一种解决方法。 为您提供有关该问题的更多详细信息。 根据设计,子分割器类可以是除MultiMongoCollec ...你有没有安装最新的pymongo_hadoop连接器? 你正在运行的其他软件的版本是什么? Have you got the latest pymongo_hadoop connector installed? What versions of the other software are you running?将工作分配到多个核心:Hadoop或Scala的并行集合?(Distributing work to multiple cores: Hadoop or Scala's parallel collections?)[2022-06-03]
答案取决于以下问题 - 您的Scala代码是否能够充分利用所有可用内核。 顺便提一下,如果你要处理的文档部分之间有很好的内在同步,或者在没有锁争用的情况下进行parralelyze算法的其他方式 - 那么“B”就是这样。如果是这样的话 - 为每个节点配置一个映射器并让你的映射器使用以最好的方式核心。 如果您从parralelization获得的收益不是那么好,并且在处理中添加更多线程(核心)并不能以线性方式提高性能 - 那么“A”可能是更好的方式。 “A”的效率还取决于RAM的大小 - 每个节点需要足够的R ...是的,但这与Mahout没什么关系。 您可以通过选择MongoDB位置的方式指定输入和输出URL。 其余的是Hadoop-Mongo集成和设置问题。 Yes, but it is nothing directly to do with Mahout. You specify your input and output URLs in a way that selects your MongoDB locations. The rest is a matter of Hadoop-Mongo integrat ...hadoop mongodb连接器 - 输出数据不是mongodb而是hdfs(hadoop mongodb connector - output data not as mongodb but hdfs)[2022-12-28]
我认为之前关于SO的回答可以回答你的问题,只需稍加改动: 是否可以读取MongoDB数据,使用Hadoop处理它,并将其输出到RDBS(MySQL)? 主要区别在于您将OutputFormatClass设置为: job.setOutputFormatClass( SequenceFileOutputFormat.class ); 您还需要在要保存数据的HDFS上设置输出路径。 请参阅他们的WordCount示例以获取完整的代码示例,但使用上面的输出格式而不是MongoOutputFormat。 I thi ...通过在提交哈希affad1b7上使用pymongo_spark来解决该特定问题。 我将文件复制到我的项目并在主python脚本上添加了3行代码: import pymongo_spark pymongo_spark.activate() ... # at the end of the script resultRDD.saveToMongoDB(config["mongo.output.uri"]) 你可以在github 提交上看到完整的差异 https://github.com/danielsan/mo ...