在pyspark中列出到DataFrame(List to DataFrame in pyspark)
有人可以告诉我如何将包含字符串的列表转换为pyspark中的Dataframe。 我使用python 3.6与spark 2.2.1。 我刚刚开始学习spark环境,我的数据如下所示
my_data =[['apple','ball','ballon'],['cat','camel','james'],['none','focus','cake']]
现在,我想创建一个Dataframe,如下所示
--------------------------------- |ID | words | --------------------------------- 1 | ['apple','ball','ballon'] | 2 | ['cat','camel','james'] |
我甚至想添加数据中没有关联的ID列
Can someone tell me how to convert a list containing strings to a Dataframe in pyspark. I am using python 3.6 with spark 2.2.1. I am just started learning spark environment and my data looks like below
my_data =[['apple','ball','ballon'],['cat','camel','james'],['none','focus','cake']]
Now, i want to create a Dataframe as follows
--------------------------------- |ID | words | --------------------------------- 1 | ['apple','ball','ballon'] | 2 | ['cat','camel','james'] |
I even want to add ID column which is not associated in the data
原文:https://stackoverflow.com/questions/48290759
更新时间:2023-01-26 11:01
最满意答案
愿这可以帮助你:
dataa <- data.frame(abs(rnorm(mean = 30, sd = 40, n= 100))) names(dataa) <- c("v1") dataa %>% mutate(v2 = as.numeric( (cumsum(as.numeric(dataa$v1>70)) <= 0) & (cumsum(as.numeric(dataa$v1<25)) >= 1)))
May this could help you :
dataa <- data.frame(abs(rnorm(mean = 30, sd = 40, n= 100))) names(dataa) <- c("v1") dataa %>% mutate(v2 = as.numeric( (cumsum(as.numeric(dataa$v1>70)) <= 0) & (cumsum(as.numeric(dataa$v1<25)) >= 1)))
相关问答
更多-
TCP/IP模型是一个________。[2023-10-02]
a -
下列中不属于面向对象的编程语言的是?[2022-05-30]
a -
在数组中找到符合特定条件的项目(Perl)?(Find the item in an array that meets a specific criteria if there is one (Perl)?)[2024-02-16]
是的, grep就是你要找的东西: my @results = grep {match_test($_)} @list; grep返回@list的子集,其中match_test返回true。 在大多数其他功能语言中, grep被称为filter 。 如果你只想要第一个匹配, first使用List :: Util 。 use List::Util qw/first/; if (my $result = first {match_test($_)} @list) { # use $result f ... -
至于正在寻找的正则表达式我相信 ^bbbb[0-9a-f]{28}$ 应该正确验证您的要求。 至于是否有比使用re模块更简单的方法,我会说没有真正实现你正在寻找的结果。 虽然在python中使用in关键字的方式与您期望使用contains方法处理字符串的方式一样,但实际上您想知道字符串是否格式正确。 因此,最简单的解决方案是使用正则表达式,因此使用re模块。 As for the regex you're looking for I believe that ^bbbb[0-9a-f]{28}$ sho ...
-
愿这可以帮助你: dataa <- data.frame(abs(rnorm(mean = 30, sd = 40, n= 100))) names(dataa) <- c("v1") dataa %>% mutate(v2 = as.numeric( (cumsum(as.numeric(dataa$v1>70)) <= 0) & (cumsum(as.numeric(dataa$v1<25)) >= 1))) May this could help you : dataa <- data.frame( ...
-
笔记 players.team.map(&:hash).find{ |x| x[ 'eligibility_settings?' ] == true} Players.team.map(&:hash).['hash.seligibiltiy_settings'].detect { true } 是players还是Players ? 为什么是复数? 如果你可以给team打电话map ,那可能应该是复数形式 你为什么转换为散列? eligibility_settings? 不是你的哈希键。 eligibil ...
-
如果所有值都更高,则打印(print if all value are higher)[2022-03-23]
我希望你的意思是你添加到问题中的r标签。 tab <- read.table("file") splt <- strsplit(as.character(tab[[2]]), ",") rows <- unlist(lapply(splt, function(a) all(as.numeric(a) > 50))) tab[rows,] 这会将您的文件读取为以空格分隔的表,将第二列拆分为单个值(生成字符向量列表),然后根据所有值是否> 50计算每个此类行的逻辑值。结果组合成一个逻辑向量,然后用于对数据进行 ... -
例如.... $ grep -Po '(?<=DataIp=\")[^\"]+' file 10.1.1.1 我们寻找在DataIp="之后DataIp="任何事情,并打印所有内容,直到找到" 。 请注意,双引号需要转义: \" 。 用sed : $ sed 's/.*DataIp=\"\([^\"]*\)\".*/\1/g' file 10.1.1.1 我们在DataIp之后抓住了这个词然后打印出来。 考虑到我们想要抓住“第一个字"的一般情况,我们也可以这样做...... 用awk : $ awk - ...
-
像这样( 小提琴 ): function isBigEnough(element) { return element >= 2; } alert([1, 2, 3, 0, 3].filter(isBigEnough)[0]); 或者使用评论中提到的匿名函数的简短方法( 小提琴 ): alert([1,2,3,0,3].filter(function(e){return e>=2;})[0]); 文档 Like this (Fiddle): function isBigEnough(element) ...
-
如何检查数组中的所有值是否高于特定数量?(How to check if all values in an array are higher than a specific amount?)[2022-11-24]
而不是检查所有元素是否大于特定数字,只检查一个数字是否小于特定数字,如果有其他数字return false则return false public static boolean isGameOver(int limit, int[] data){ for(int k = 0; k < data.length; k++){ if (data[k] < limit) return false; } return true; } I ...