用于Excel文件的自定义InputFormat或InputReader(xls)(Custom InputFormat or InputReader for Excel files(xls))
我需要读取存储在Hadoop集群上的excel(xls)文件。 现在我做了一些研究,发现我需要为此创建一个自定义的InputFormat 。 我阅读了很多文章,但从编程的角度来看,它们都没有用。 如果有人可以帮我编写自定义inputformat的示例代码,以便我可以理解“Programming InputFormat”的基础知识,并且可以使用Apache POI库来读取excel文件。 我制作了一个用于阅读文本文件的mapreduce程序。 现在我需要帮助,即使我有些如何设法编写我自己的自定义InputFormat ,我将编写与我已经编写的mapreduce程序相关的代码。
PS: - 将.xls文件转换为.csv文件不是一种选择。
I need to read a excel(xls) file stored on Hadoop cluster. Now I did some research and found out that I need to create a custom InputFormat for that. I read many articles but none of them is helpful from programming point of view. If someone can help me with sample code for writing custom inputformat so that I can understand the basics of "Programming InputFormat" and can use Apache POI library to read the excel file. I had made a mapreduce program for reading text file. Now I need help regarding the fact that even if I some how manage to code my own custom InputFormat where would I write the code in respect to the mapreduce program I have already written.
PS:- converting the .xls file into .csv file is not an option.
原文:https://stackoverflow.com/questions/21133013
最满意答案
所以你的第一个代码看起来很丑陋(并且据我所知,还包含两个复制和粘贴错误,请查看
parse_href_text = ...
和parse_box_text =
)。 正如其他人在评论中提到的那样,使用库来解析网站可能是更好的选择。但是,让我们来看看您的代码并尝试简化它:
所以首先你有不同的
tags
,并且你想要为它们中的每一个删除</tag>
,<tag>
和<tag
。 你可以把它写成一个函数:def remove_tag(text, tag): return text.replace("</{}>".format(tag), '').replace("<{}>".format(tag), '').replace("<{}".format(tag), '')
然后为所有的标签调用这个函数:
tag_list = ['a', 'p', 'div', 'li', 'span', 'img', 'ul', 'ol', 'label', 'h', 'h1', 'h2', 'h3', 'h4', 'h5'] for tag in tag_list: text = remove_tag(text, tag)
然后,删除其他项目:
others = ['href=', '<', '>', '[]', '[', ']', '\n', ' ', '{', '}', '#'] for s in others: text = text.replace(s, '')
把它放在一起:
import re import requests import json from bs4 import BeautifulSoup, NavigableString url = 'http://www.grabexample.com' geturl = requests.get(url) some_text = geturl.text soup = BeautifulSoup(some_text, "html.parser") soup.prettify() all_on_URL = soup.find_all('a') grab_text = soup.get_text(strip=True) def remove_tag(text, tag): return text.replace("</{}>".format(tag), '').replace("<{}>".format(tag), '').replace("<{}".format(tag), '') tag_list = ['a', 'p', 'div', 'li', 'span', 'img', 'ul', 'ol', 'label', 'h', 'h1', 'h2', 'h3', 'h4', 'h5'] for tag in tag_list: grab_text = remove_tag(grab_text, tag) others = ['href=', '<', '>', '[]', '[', ']', '\n', ' ', '{', '}', '#'] for s in others: grab_text = grab_text.replace(s, '') print(grab_text)
So your first code looks pretty ugly (and also contains two copy&paste errors as far as I can tell, look at the lines
parse_href_text = ...
andparse_box_text =
). As others have mentioned in the comments, using a library for parsing the website might be the better choice.But let's take a look at your code and try to simplify it:
so first you've got different
tags
, and you want to delete</tag>
,<tag>
and<tag
for each of them. You can write this as a function:def remove_tag(text, tag): return text.replace("</{}>".format(tag), '').replace("<{}>".format(tag), '').replace("<{}".format(tag), '')
then call this function for all of your tags:
tag_list = ['a', 'p', 'div', 'li', 'span', 'img', 'ul', 'ol', 'label', 'h', 'h1', 'h2', 'h3', 'h4', 'h5'] for tag in tag_list: text = remove_tag(text, tag)
and then, remove the other items:
others = ['href=', '<', '>', '[]', '[', ']', '\n', ' ', '{', '}', '#'] for s in others: text = text.replace(s, '')
Putting it all together:
import re import requests import json from bs4 import BeautifulSoup, NavigableString url = 'http://www.grabexample.com' geturl = requests.get(url) some_text = geturl.text soup = BeautifulSoup(some_text, "html.parser") soup.prettify() all_on_URL = soup.find_all('a') grab_text = soup.get_text(strip=True) def remove_tag(text, tag): return text.replace("</{}>".format(tag), '').replace("<{}>".format(tag), '').replace("<{}".format(tag), '') tag_list = ['a', 'p', 'div', 'li', 'span', 'img', 'ul', 'ol', 'label', 'h', 'h1', 'h2', 'h3', 'h4', 'h5'] for tag in tag_list: grab_text = remove_tag(grab_text, tag) others = ['href=', '<', '>', '[]', '[', ']', '\n', ' ', '{', '}', '#'] for s in others: grab_text = grab_text.replace(s, '') print(grab_text)
相关问答
更多-
由于LINQ使用延迟执行,您可以将Where()扩展更改为您的对象,并随时重新指定它。 var _filteredEvents = _events; if (!queueEmail) _filteredEvents = _filteredEvents.Where(ev => ev.QueueTypeEnumText != QueueType.Email.ToString()); if (!queueTextMessaging) _filteredEvents = _filtered ...
-
这样的事情怎么样: long M = 0; int hash = 1; for(int i = toDecrypt.length() - 1 ; i >= 0; i--) { M += (toDecrypt.charAt( i ) - '0') * hash; hash *= 10; } 如果您只是尝试从文件中读取数字,您是否考虑使用类似Scanner东西? 您可以使用nextInt()函数从文件中获取每个数字。 看起来你的循环只是将String转换为数字,对吗? How about so ...
-
有没有办法将这3个函数简化为1个函数?(Is there a way to simplify these 3 functions into 1 function? [closed])[2023-09-09]
当然 。 将您的div id作为参数传递给函数。 有关演示,请参见http://jsfiddle.net/KsePr/ 。 需要注意的一点是 - 如果您尝试在网页上实施某种投票系统,则需要在服务器端而不是客户端进行投票递增。 Of course . Pass your div id as an argument to the function . See http://jsfiddle.net/KsePr/ for a demo . One word of caution - If you are tryi ... -
您可以使用逗号分隔每个标识符,以将相同的样式应用于多个元素: #inner, #inner-center, #inner-south ... { border-top: none; border-left: none; border-right: none; padding: 0px; } 然后只为每个具有不同样式的元素指定: #inner { border-left : inherit; } You can separate each identifier w ...
-
所以你的第一个代码看起来很丑陋(并且据我所知,还包含两个复制和粘贴错误,请查看parse_href_text = ...和parse_box_text = )。 正如其他人在评论中提到的那样,使用库来解析网站可能是更好的选择。 但是,让我们来看看您的代码并尝试简化它: 所以首先你有不同的tags ,并且你想要为它们中的每一个删除 ,
和 我只是将这些cases限制在Specific()'s ,并且在switch block放置一个简单的if-else: if IsVowel AMethodIShouldCallOnAllVowels(); else AMethodIShouldCallOnAllConsonants(); 也检查出default:但在这种情况下可能没有用)。 I would simply limit the cases to the Specific()'s, and after the switch bl ...有没有办法简化具有多对一关系的Linq查询?(Is there a way to simplify a Linq query with a many to one relationship?)[2022-02-19]
您可以使用let关键字: from a in db.Contacts where a.LastName.Contains(term) let primaryAddress = a.Addresses .Where(a => a.AddressType.Name.Contains("Primary")) .FirstOrDefault() select new { a.Id, value = a.LastName ...几种可能性: •如果你能想出一个公式,那将是最简单的。 •如果值对是任意的,则可以创建查找表(以数组的形式)。 •如果输入数字是(或多或少)连续整数,则可以使用简单数组,其中索引是输入数字,具有该索引号的元素是输出数字。 •如果它更复杂,则必须创建一个二维数组,其中每个元素都是一个输入和输出数组。 •如果您正在寻找if ... else if语句的简单替换,则可以使用switch ...语句,该语句适用于完全任意的值对。 在OP的评论之后更新 : 根据OP的评论,输入数字是连续的,这意味着上面的第三点将是选 ...您可以设置rule() - 自定义URL处理: app.config(function($urlRouterProvider){ // Here's an example of how you might allow case insensitive urls $urlRouterProvider.rule(function ($injector, $location) { var path = $location.path(), normalized = path.toLo ...有没有办法删除JavaFx中的vBox中的所有内容?(Is there a way to remove all the contents in vBox in JavaFx?)[2023-08-04]
哦! 我刚想通了。 我可以使用vBox.getChildren()。clear(); 有用! Oh! I just figured it out. I can use vBox.getChildren().clear(); It works!相关文章
更多- 在Hadoop的streaming中使用自定义的inputformat和outputformat
- Hadoop 自定义InputFormat实现自定义Split
- Hadoop streaming中指定自定义的inputformat java类
- Hadoop : 新版API 自定义InputFormat 把整个文件作为一条记录处理
- MapReduce高级编程之自定义InputFormat
- JXLS根据excel模板生成EXCEL并下载
- POI 操作 Excel的主要API
- 自定义Hadoop Map/Reduce输入文件切割InputFormat
- 使用POI操作Excel和Word
- Hadoop Java程序-files功能测试
最新问答
更多- 获取MVC 4使用的DisplayMode后缀(Get the DisplayMode Suffix being used by MVC 4)
- 如何通过引用返回对象?(How is returning an object by reference possible?)
- 矩阵如何存储在内存中?(How are matrices stored in memory?)
- 每个请求的Java新会话?(Java New Session For Each Request?)
- css:浮动div中重叠的标题h1(css: overlapping headlines h1 in floated divs)
- 无论图像如何,Caffe预测同一类(Caffe predicts same class regardless of image)
- xcode语法颜色编码解释?(xcode syntax color coding explained?)
- 在Access 2010 Runtime中使用Office 2000校对工具(Use Office 2000 proofing tools in Access 2010 Runtime)
- 从单独的Web主机将图像传输到服务器上(Getting images onto server from separate web host)
- 从旧版本复制文件并保留它们(旧/新版本)(Copy a file from old revision and keep both of them (old / new revision))
- 西安哪有PLC可控制编程的培训
- 在Entity Framework中选择基类(Select base class in Entity Framework)
- 在Android中出现错误“数据集和渲染器应该不为null,并且应该具有相同数量的系列”(Error “Dataset and renderer should be not null and should have the same number of series” in Android)
- 电脑二级VF有什么用
- Datamapper Ruby如何添加Hook方法(Datamapper Ruby How to add Hook Method)
- 金华英语角.
- 手机软件如何制作
- 用于Android webview中图像保存的上下文菜单(Context Menu for Image Saving in an Android webview)
- 注意:未定义的偏移量:PHP(Notice: Undefined offset: PHP)
- 如何读R中的大数据集[复制](How to read large dataset in R [duplicate])
- Unity 5 Heighmap与地形宽度/地形长度的分辨率关系?(Unity 5 Heighmap Resolution relationship to terrain width / terrain length?)
- 如何通知PipedOutputStream线程写入最后一个字节的PipedInputStream线程?(How to notify PipedInputStream thread that PipedOutputStream thread has written last byte?)
- python的访问器方法有哪些
- DeviceNetworkInformation:哪个是哪个?(DeviceNetworkInformation: Which is which?)
- 在Ruby中对组合进行排序(Sorting a combination in Ruby)
- 网站开发的流程?
- 使用Zend Framework 2中的JOIN sql检索数据(Retrieve data using JOIN sql in Zend Framework 2)
- 条带格式类型格式模式编号无法正常工作(Stripes format type format pattern number not working properly)
- 透明度错误IE11(Transparency bug IE11)
- linux的基本操作命令。。。