自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rosefun96的博客

深度学习、算法交流q群596506387。

原创 距离度量:欧氏距离,余弦距离,KL散度,马氏距离(含python代码实现)

1. 欧氏距离 绝对距离。 2. 余弦距离 角度。 归一化后的欧式距离和余弦距离关系: 参考: 欧氏距离和余弦相似度的区别是什么?

2020-07-29 14:23:42 235 0

原创 pySpark DataFrame上/下采样的方法

方法一: df_class_0 = df_train[df_train['label'] == 0] df_class_1 = df_train[df_train['label'] == 1] df_class_1_over = df_class_1.sam...

2020-07-13 21:36:29 812 0

原创 pySpark Dataframe stddev()和stddev_pop区别

stddev: 返回样本的标准偏差 stddev_pop: 返回样本的方差 参考: 简书

2020-07-13 01:16:09 385 0

原创 pySpark repartition和coalesce的区别

搜尋結果 網路上的精選摘要 In Spark or PySpark repartition is used to increase or decrease the RDD, DataFrame, Dataset partitions whereas the Spark coalesce is us...

2020-07-12 17:57:58 481 0

原创 python中的时间戳和time, datetime模块

import time timestamp = time.time() #1594475666.4027507 #转换成localtime time_local = time.localtime(timestamp) #转换成新的时间格式(2020-07-11 21:54:26) time.str...

2020-07-11 22:02:35 127 0

原创 pySpark kill掉集群的任务

连接上集群,执行 yarn application -kill application_1511930647873_6100 参考: Stack Overflow

2020-07-11 16:26:38 153 0

原创 pySpark 关于SparkContext和SQLContext等模块

1. pyspark.sql模块 是Spark SQL and DataFrames重要的类。 pyspark.sql.SparkSession :是DataFrame and SQL 的主入口,比如可以createDataFrame. pyspark.sql.DataFrame :分布式的数据集...

2020-07-10 19:55:36 300 0

原创 Linux文件 gz解压

gzip -d test.gz

2020-07-09 20:15:01 93 0

原创 vim 粘贴慢

在 shell 下: $ :read !pbpaste 参考: link

2020-07-08 23:55:18 130 0

原创 pySpark DataFrame简介

1. 列名类型 pyspark.sql.types module DataType NullType StringType BinaryType BooleanType DateType TimestampType DecimalType DoubleType FloatType ByteType...

2020-07-06 21:03:09 207 0

原创 LeetCode44. 通配符匹配(python,动态规划) 通用解法

1. 题目 给定一个字符串 (s) 和一个字符模式 § ,实现一个支持 ‘?’ 和 ‘*’ 的通配符匹配。 ‘?’ 可以匹配任何单个字符。 ‘*’ 可以匹配任意字符串(包括空字符串)。 两个字符串完全匹配才算匹配成功。 说明: s 可能为空,且只包含从 a-z 的小写字母。 p 可能为空,且只包含...

2020-07-05 17:37:03 183 0

原创 Spark实现xgboost多分类(python)

1. spark-xgboost Java包 主要需要xgboost4j-spark-0.90.jar, xgboost4j-0.90.jar, 以及 调用代码 sparkxgb.zip. GitHub上面有xgboost java 实现的包,链接:xgboost; 但我省事,用了zhihu xg...

2020-07-02 12:56:06 803 1

原创 LeetCode718. 最长重复子数组(python)

1. 问题 给两个整数数组 A 和 B ,返回两个数组中公共的、长度最长的子数组的长度。 示例 1: 输入: A: [1,2,3,2,1] B: [3,2,1,4,7] 输出: 3 解释: 长度最长的公共子数组是 [3, 2, 1]。 说明: 1 <= len(A), len(B) <...

2020-07-01 01:14:55 176 0

提示
确定要删除当前文章?
取消 删除