摩杜云开发者社区-摩杜云

文章 | pandas从dataframe中选择部分行、列

首先构建dataframe： importpandasaspd df:pd.DataFrame=pd.DataFrame([ [1,4,5,4,6], [70,3,3,8,2], [5,0,5,4,6] ],columns=['one','two','three','four','five']) 选取多列选取’one’与’three’两行： df[['one','three']] 选取’one’与’four’四列： df.loc[:,'one':'four'] 选取多行选取1与2行（这里的1与2是index） df.loc[[1,2],:] 选择1：3行 df.loc[[1:...

TEZNKK3IfmPf 2023年11月14日 25 0 0 pandas dataframe

文章 | Python Pandas将多个dataframe写入Excel文件

importpandasaspd if__name__'__main__': result_file="monitor_data.xlsx" pre_month_data=pd.read_csv(f"./pre_month_data",delimiter="\t") pre_week_data=pd.read_csv(f"./pre_week_data",delimiter="\t") all_data=pd.read_csv(f"./all_data",delimiter="\t") pre_data=pd.concat([pre_month_data,pre_week_d...

AnyLlCIhvKpr 2023年11月12日 38 0 0 pandas dataframe python

文章 | 构造可用next迭代dataframe的行、列的方法

可以通过构造可迭代的函数来实现。循环dataframe的每一行，然后使用yield迭代器返回数据，在外部使用next()来获取函数的结果示例代码 importpandasaspd importnumpyasnp df=pd.DataFrame(np.random.random(size=(10,3))) defiter_df(): for_i,seriesindf.iterrows():循环每一行 yield_i,series iter_tool=iter_df() foriinrange(3): row_i,row_value=next(iter_tool) print(ro...

TEZNKK3IfmPf 2023年11月14日 16 0 0 pandas dataframe python

文章 | dataframe填充到指定的行数

辅助函数写法如下： defreach_target_line(dataframe:pd.DataFrame,target_line,fill_mark=0): ifdataframe.shape[0]>=target_line: returndataframe[:target_line] else: fill_df=pd.DataFrame(np.zeros(shape=(target_linedataframe.shape[0],dataframe.shape[1])), columns=dataframe.columns) fill_df.loc[:,:]=fill_mark r...

TEZNKK3IfmPf 2023年11月14日 31 0 0 dataframe python

文章 | dataframe读取列表中对应的列

一般使用： importpandasaspd need_list=['需要的列名称'] pd.DataFrame(dataframe,columns=need_list)

TEZNKK3IfmPf 2023年11月14日 43 0 0 pandas dataframe

文章 | pandas to_sql保存数据到数据库后，添加自增长的主键ID(PRIMARY KEY)

构造dataframe importpandasaspd importnumpyasnp df=pd.DataFrame(data=np.random.randint(0,20,size=(1000,3))) df.columns=['col_1','col_2','col_3'] 构造数据库 fromsqlalchemyimportcreate_engine db_name="test_db"要保存的数据库名 table_name="my_item_table"要保存的表名 engine=create_engine("mysql+pymysql://用户名:密码@127.0...

AnyLlCIhvKpr 2023年11月12日 13 0 0 pandas dataframe sql

文章 | pandas dataframe随机采样

使用如下数据： importpandasaspd importnumpyasnp df=pd.DataFrame(data=np.random.randint(0,20,size=(1000,10))) 设置随机种子： np.random.seed(10) 方法1： sample_df=df.sample(50) 方法2： sample_df2=df.loc[np.random.choice(df.index,50)]

TEZNKK3IfmPf 2023年11月14日 41 0 0 pandas dataframe

文章 | 按照两个dataframe的index合并数据

核心方法 importpandasaspd pd.merge(dataframe1,dataframe2,left_index=True,right_index=True) 修改合并的方式，可以更改merge函数中的一个属性how： left：只使用左框架中的键，类似于SQL左外部连接；保留密钥顺序。 right：只使用右框架中的键，类似于SQL右外部联接；保留密钥顺序。 outer：使用来自两个帧的键的并集，类似于SQL完全外部连接；按字典顺序对键排序。 inner：使用两个帧的键的交集，类似于SQL内部连接；保留左键的顺序。 cross：从两个帧创建笛卡尔积，保留左键的顺序。案...

TEZNKK3IfmPf 2023年11月14日 23 0 0 dataframe index

文章 | pandas Dataframe统计缺失值占比

工具函数： defcollect_na_value(dataframe): returndataframe.isna().sum()/dataframe.shape[0]100 案例 importpandasaspd defcollect_na_value(dataframe): returndataframe.isna().sum()/dataframe.shape[0]100 if__name__'__main__': df=pd.DataFrame(data=[[1,2,3], [2,3,None], [None,1,None], [1,2,3], [1,2,3],]) p...

TEZNKK3IfmPf 2023年11月14日 16 0 0 dataframe python

文章 | pandas聚合dataframe某一列的值中的所有元素

数据：   one two 0 a;b 4.2 1 b;c 0.03 2 a 0 使用merge_column()函数即可： importpandasaspd defmerge_column(dataframe,column,seq=';')->set: merge_sentence=set() all_sentences=dataframe[column].values.tolist() forsinall_sentences: ifnotpd.isna(s): foriins.split(seq): merge_sentence.add(...

TEZNKK3IfmPf 2023年11月14日 54 0 0 pandas dataframe

文章 | pandas Dataframe读取数据表是自定义列名

方法一首先将header设置为0后，使用names指定列名 csv_df=pd.read_csv('test.csv',header=0,names=['col1','col2','col3']) 方法二 csv_df=pd.read_csv('test.csv',header=0) csv_df.columns=['col1','col2','col3']

TEZNKK3IfmPf 2023年11月14日 21 0 0 pandas dataframe python

文章 | series、dataframe转为tensor格式数据

只需要调用torch.tensor(pd.Dataframe.values)或是torch.tensor(pd.Series.values)即可例子 importpandasaspd importnumpyasnp importtorch defget_tensor_from_pd(dataframe_series): returntorch.tensor(data=dataframe_series.values) if__name__'__main__': df=pd.DataFrame([[1,2,0], [4,5,1], [3,4,0],],columns=['x1','x...

TEZNKK3IfmPf 2023年11月14日 21 0 0 dataframe

文章 | pytorch从dataframe中提取信息，变为可训练的tensor

文章目录提取方法步骤1.构造dataframe 步骤2.从dataframe中提取信息步骤3.转变格式案例代码   要从dataframe格式的数据中提取数据，然后传入到torch的模型中的方法如下：提取方法步骤1.构造dataframe df=pd.DataFrame(create_float((100,5)))生成50行3列的dataframe df['label']=create_float((100,1)) 步骤2.从dataframe中提取信息 y=df['label']label值 x=df.drop(['label'],axis=1) x...

TEZNKK3IfmPf 2023年11月14日 31 0 0 dataframe pytorch

文章 | 从Dataframe训练数据，构造可迭代训练的batch数据

最主要的方法是： data_loader=Data.DataLoader( dataset=Data.TensorDataset(x,y),封装进Data.TensorDataset(tensor数据1,tensor数据2,...)类的数据，可以为任意维度 batch_size=BATCH_SIZE,每个batch的大小，即每次取数据的大小 shuffle=True,要不要打乱数据(打乱比较好) num_workers=2,多进程（multiprocess）来读数据 ) 案例 importtorch importtorch.utils.dataasData importpandasasp...

TEZNKK3IfmPf 2023年11月14日 14 0 0 dataframe batch

文章 | Pandas高级教程之:Dataframe的重排和旋转

简介使用Pandas的pivot方法可以将DF进行旋转变换，本文将会详细讲解pivot的秘密。使用Pivot pivot用来重组DF，使用指定的index，columns和values来对现有的DF进行重构。看一个Pivot的例子：通过pivot变化，新的DF使用foo中的值作为index，使用bar的值作为columns，zoo作为对应的value。再看一个时间变化的例子： In[1]:df Out[1]: datevariablevalue 02000-01-03A0.469112 12000-01-04A-0.282863 22000-01-05A-1.509059 32000-...

TEZNKK3IfmPf 2023年11月14日 15 0 0 pandas dataframe

文章 | Pandas高级教程之:Dataframe的合并

  简介 Pandas提供了很多合并Series和Dataframe的强大的功能，通过这些功能可以方便的进行数据分析。本文将会详细讲解如何使用Pandas来合并Series和Dataframe。使用concat concat是最常用的合并DF的方法，先看下concat的定义： pd.concat(objs,axis=0,join='outer',ignore_index=False,keys=None, levels=None,names=None,verify_integrity=False,copy=True) 看一下我们经常会用到的几个参数： objs是Series或者S...

TEZNKK3IfmPf 2023年11月14日 20 0 0 pandas dataframe

文章 | pandas数据清洗（缺失值、异常值和重复值处理）

1.缺失值处理处理方式：直接删除填充缺失值真值转换法不处理 （数据分析和建模应用中很多模型对于缺失值有容忍度或灵活的处理方法，因此在预处理阶段可以不做处理。常见的能够自动处理缺失值的模型包括：KNN、决策树和随机森林、神经网络和朴素贝叶斯） pandas中用到的的api： dataframe.isnull()判断是否有缺失值 dataframe.dropna()删除缺失值 dataframe.fillna()填充缺失值示例代码： importnumpyasnp importpandasaspd fromsklearn.imputeimportSimpleImp...

TEZNKK3IfmPf 2023年11月12日 17 0 0 pandas dataframe python