Mongo-Hadoop 1.1 发布了，Mongo-Hadoop可以很容易地使用Mongo数据库库以及.bson格式的mongoDB备份文件，并将此作为Hadoop Map/Reduce任务的数据输入源或者输出目标。Mongo-Hadoop先检测数据并计算数据分割，然后交给Hadoop并行处理，这样非常大的数据集就可以快速被处理。

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

下载地址：

相关问答

使用pig和mongodb导入数据时添加mongo查询(Adding a mongo query when importing data with pig and mongodb)[2022-07-29]

你可以这样做： set mongo.input.query '{"value.task.creation":{ "$gte": { "$date": 1421366400}, "$lt" : { "$date": 1421539200} } }' data = LOAD 'mongodb://54.93.131.188:27017/foo.units' USING com.mongodb.hadoop.pig.MongoLoader(); DUMP data; You can do ...
使用mongo-hadoop连接器的Hadoop流失败(Hadoop streaming with mongo-hadoop connector fails)[2022-08-27]

我想知道为什么我不首先尝试这个： OUTPUT_PATH=`mktemp -d` yarn jar /usr/hdp/2.4.0.0-169/hadoop-mapreduce/hadoop-streaming.jar \ -D mapred.job.name="${BUILD_TAG}" \ -D mapred.job.queue.name="sr" \ -input "${INPUT_PATH}" \ -output "${OUTPUT_PATH}" \ -map ...
使用hadoop-mongo和PIG更新Mongo Collection(Update Mongo Collection Using hadoop-mongo & PIG)[2022-05-06]

解决方案是使用MongoUpdateStorage： https://github.com/alabid/mongo-hadoop/blob/issues/pig/mongo-update-storage/pig/README.md 奇迹般有效 The solution is to use MongoUpdateStorage: https://github.com/alabid/mongo-hadoop/blob/issues/pig/mongo-update-storage/pig/README.md ...
在HDP中的Hive查询中无法使用mongo-hadoop连接器(Not able to use mongo-hadoop connector in Hive query in HDP)[2023-06-01]

您需要映射mongodb集合中的所有项目，而不仅仅是“_id”： CREATE TABLE individuals ( id INT, name STRING, age INT, city STRING, hobby STRING ) STORED BY 'com.mongodb.hadoop.hive.MongoStorageHandler' WITH SERDEPROPERTIES('mongo.columns.mapping'='{"id":"_id","name":"
Muliple集合作为hadoop map-reduce工作的mongodb的输入(Muliple collections as input of mongodb for hadoop map-reduce job)[2022-01-18]

谢谢你指出这个问题。这是一个例子中的错误。已提交HADOOP-109来解决此问题。我通过将子拆分器类作为所有输入集合的null来修复该问题。请参阅此拉取请求。为了使其正常工作，请确保将以下参数传递给Hadoop： -D mongo.splitter.class=com.mongodb.hadoop.splitter.MultiMongoCollectionSplitter 以上修复是一种解决方法。为您提供有关该问题的更多详细信息。根据设计，子分割器类可以是除MultiMongoCollec ...
Hadoop使用mongo-hadoop流式传输到python(Hadoop streaming to python using mongo-hadoop)[2023-07-10]

你有没有安装最新的pymongo_hadoop连接器？你正在运行的其他软件的版本是什么？ Have you got the latest pymongo_hadoop connector installed? What versions of the other software are you running?
将工作分配到多个核心：Hadoop或Scala的并行集合？(Distributing work to multiple cores: Hadoop or Scala's parallel collections?)[2022-06-03]

答案取决于以下问题 - 您的Scala代码是否能够充分利用所有可用内核。顺便提一下，如果你要处理的文档部分之间有很好的内在同步，或者在没有锁争用的情况下进行parralelyze算法的其他方式 - 那么“B”就是这样。如果是这样的话 - 为每个节点配置一个映射器并让你的映射器使用以最好的方式核心。如果您从parralelization获得的收益不是那么好，并且在处理中添加更多线程（核心）并不能以线性方式提高性能 - 那么“A”可能是更好的方式。 “A”的效率还取决于RAM的大小 - 每个节点需要足够的R ...
hadoop-mongodb司机和mahout(hadoop-mongodb driver and mahout)[2023-11-21]

是的，但这与Mahout没什么关系。您可以通过选择MongoDB位置的方式指定输入和输出URL。其余的是Hadoop-Mongo集成和设置问题。 Yes, but it is nothing directly to do with Mahout. You specify your input and output URLs in a way that selects your MongoDB locations. The rest is a matter of Hadoop-Mongo integrat ...
hadoop mongodb连接器 - 输出数据不是mongodb而是hdfs(hadoop mongodb connector - output data not as mongodb but hdfs)[2022-12-28]

我认为之前关于SO的回答可以回答你的问题，只需稍加改动：是否可以读取MongoDB数据，使用Hadoop处理它，并将其输出到RDBS（MySQL）？主要区别在于您将OutputFormatClass设置为： job.setOutputFormatClass( SequenceFileOutputFormat.class ); 您还需要在要保存数据的HDFS上设置输出路径。请参阅他们的WordCount示例以获取完整的代码示例，但使用上面的输出格式而不是MongoOutputFormat。 I thi ...
无法序列化类org.apache.hadoop.io.DoubleWritable - MongoDB Hadoop Connector + Spark + Python(Can't serialize class org.apache.hadoop.io.DoubleWritable - MongoDB Hadoop Connector + Spark + Python)[2021-07-27]

通过在提交哈希affad1b7上使用pymongo_spark来解决该特定问题。我将文件复制到我的项目并在主python脚本上添加了3行代码： import pymongo_spark pymongo_spark.activate() ... # at the end of the script resultRDD.saveToMongoDB(config["mongo.output.uri"]) 你可以在github 提交上看到完整的差异 https://github.com/danielsan/mo ...

知识点

相关文章

最近更新

Mongo-Hadoop 1.1 发布，利用 Hadoop 并行处理 MongoDB 中的大数据

相关问答

使用pig和mongodb导入数据时添加mongo查询(Adding a mongo query when importing data with pig and mongodb)[2022-07-29]

使用mongo-hadoop连接器的Hadoop流失败(Hadoop streaming with mongo-hadoop connector fails)[2022-08-27]

使用hadoop-mongo和PIG更新Mongo Collection(Update Mongo Collection Using hadoop-mongo & PIG)[2022-05-06]

在HDP中的Hive查询中无法使用mongo-hadoop连接器(Not able to use mongo-hadoop connector in Hive query in HDP)[2023-06-01]

Muliple集合作为hadoop map-reduce工作的mongodb的输入(Muliple collections as input of mongodb for hadoop map-reduce job)[2022-01-18]

Hadoop使用mongo-hadoop流式传输到python(Hadoop streaming to python using mongo-hadoop)[2023-07-10]

将工作分配到多个核心：Hadoop或Scala的并行集合？(Distributing work to multiple cores: Hadoop or Scala's parallel collections?)[2022-06-03]

hadoop-mongodb司机和mahout(hadoop-mongodb driver and mahout)[2023-11-21]

hadoop mongodb连接器 - 输出数据不是mongodb而是hdfs(hadoop mongodb connector - output data not as mongodb but hdfs)[2022-12-28]

无法序列化类org.apache.hadoop.io.DoubleWritable - MongoDB Hadoop Connector + Spark + Python(Can't serialize class org.apache.hadoop.io.DoubleWritable - MongoDB Hadoop Connector + Spark + Python)[2021-07-27]