其他技术区
dataframe 标签描述

首先构建dataframe: importpandasaspd df:pd.DataFrame=pd.DataFrame([ [1,4,5,4,6], [70,3,3,8,2], [5,0,5,4,6] ],columns=['one','two','three','four','five']) 选取多列 选取’one’与’three’两行: df[['one','three']] 选取’one’与’four’四列: df.loc[:,'one':'four'] 选取多行 选取1与2行(这里的1与2是index) df.loc[[1,2],:] 选择1:3行 df.loc[[1:...

  TEZNKK3IfmPf   2023年11月14日   25   0   0 pandasdataframe

importpandasaspd if__name__'__main__': result_file="monitor_data.xlsx" pre_month_data=pd.read_csv(f"./pre_month_data",delimiter="\t") pre_week_data=pd.read_csv(f"./pre_week_data",delimiter="\t") all_data=pd.read_csv(f"./all_data",delimiter="\t") pre_data=pd.concat([pre_month_data,pre_week_d...

  AnyLlCIhvKpr   2023年11月12日   38   0   0 pandasdataframepython

可以通过构造可迭代的函数来实现。循环dataframe的每一行,然后使用yield迭代器返回数据,在外部使用next()来获取函数的结果 示例代码 importpandasaspd importnumpyasnp df=pd.DataFrame(np.random.random(size=(10,3))) defiter_df(): for_i,seriesindf.iterrows():循环每一行 yield_i,series iter_tool=iter_df() foriinrange(3): row_i,row_value=next(iter_tool) print(ro...

  TEZNKK3IfmPf   2023年11月14日   16   0   0 pandasdataframepython

辅助函数写法如下: defreach_target_line(dataframe:pd.DataFrame,target_line,fill_mark=0): ifdataframe.shape[0]>=target_line: returndataframe[:target_line] else: fill_df=pd.DataFrame(np.zeros(shape=(target_linedataframe.shape[0],dataframe.shape[1])), columns=dataframe.columns) fill_df.loc[:,:]=fill_mark r...

  TEZNKK3IfmPf   2023年11月14日   31   0   0 dataframepython

一般使用: importpandasaspd need_list=['需要的列名称'] pd.DataFrame(dataframe,columns=need_list)

  TEZNKK3IfmPf   2023年11月14日   43   0   0 pandasdataframe

构造dataframe importpandasaspd importnumpyasnp df=pd.DataFrame(data=np.random.randint(0,20,size=(1000,3))) df.columns=['col_1','col_2','col_3'] 构造数据库 fromsqlalchemyimportcreate_engine db_name="test_db"要保存的数据库名 table_name="my_item_table"要保存的表名 engine=create_engine("mysql+pymysql://用户名:密码@127.0...

  AnyLlCIhvKpr   2023年11月12日   13   0   0 pandasdataframesql

使用如下数据: importpandasaspd importnumpyasnp df=pd.DataFrame(data=np.random.randint(0,20,size=(1000,10))) 设置随机种子: np.random.seed(10) 方法1: sample_df=df.sample(50) 方法2: sample_df2=df.loc[np.random.choice(df.index,50)]

  TEZNKK3IfmPf   2023年11月14日   41   0   0 pandasdataframe

核心方法 importpandasaspd pd.merge(dataframe1,dataframe2,left_index=True,right_index=True) 修改合并的方式,可以更改merge函数中的一个属性how: left:只使用左框架中的键,类似于SQL左外部连接;保留密钥顺序。 right:只使用右框架中的键,类似于SQL右外部联接;保留密钥顺序。 outer:使用来自两个帧的键的并集,类似于SQL完全外部连接;按字典顺序对键排序。 inner:使用两个帧的键的交集,类似于SQL内部连接;保留左键的顺序。 cross:从两个帧创建笛卡尔积,保留左键的顺序。 案...

  TEZNKK3IfmPf   2023年11月14日   23   0   0 dataframeindex

工具函数: defcollect_na_value(dataframe): returndataframe.isna().sum()/dataframe.shape[0]100 案例 importpandasaspd defcollect_na_value(dataframe): returndataframe.isna().sum()/dataframe.shape[0]100 if__name__'__main__': df=pd.DataFrame(data=[[1,2,3], [2,3,None], [None,1,None], [1,2,3], [1,2,3],]) p...

  TEZNKK3IfmPf   2023年11月14日   16   0   0 dataframepython

数据:   one two 0 a;b 4.2 1 b;c 0.03 2 a 0 使用merge_column()函数即可: importpandasaspd defmerge_column(dataframe,column,seq=';')->set: merge_sentence=set() all_sentences=dataframe[column].values.tolist() forsinall_sentences: ifnotpd.isna(s): foriins.split(seq): merge_sentence.add(...

  TEZNKK3IfmPf   2023年11月14日   54   0   0 pandasdataframe

方法一 首先将header设置为0后,使用names指定列名 csv_df=pd.read_csv('test.csv',header=0,names=['col1','col2','col3']) 方法二 csv_df=pd.read_csv('test.csv',header=0) csv_df.columns=['col1','col2','col3']

  TEZNKK3IfmPf   2023年11月14日   21   0   0 pandasdataframepython

只需要调用torch.tensor(pd.Dataframe.values)或是torch.tensor(pd.Series.values)即可 例子 importpandasaspd importnumpyasnp importtorch defget_tensor_from_pd(dataframe_series): returntorch.tensor(data=dataframe_series.values) if__name__'__main__': df=pd.DataFrame([[1,2,0], [4,5,1], [3,4,0],],columns=['x1','x...

  TEZNKK3IfmPf   2023年11月14日   21   0   0 dataframe

文章目录 提取方法 步骤1.构造dataframe 步骤2.从dataframe中提取信息 步骤3.转变格式 案例代码   要从dataframe格式的数据中提取数据,然后传入到torch的模型中的方法如下: 提取方法 步骤1.构造dataframe df=pd.DataFrame(create_float((100,5)))生成50行3列的dataframe df['label']=create_float((100,1)) 步骤2.从dataframe中提取信息 y=df['label']label值 x=df.drop(['label'],axis=1) x...

  TEZNKK3IfmPf   2023年11月14日   31   0   0 dataframepytorch

最主要的方法是: data_loader=Data.DataLoader( dataset=Data.TensorDataset(x,y),封装进Data.TensorDataset(tensor数据1,tensor数据2,...)类的数据,可以为任意维度 batch_size=BATCH_SIZE,每个batch的大小,即每次取数据的大小 shuffle=True,要不要打乱数据(打乱比较好) num_workers=2,多进程(multiprocess)来读数据 ) 案例 importtorch importtorch.utils.dataasData importpandasasp...

  TEZNKK3IfmPf   2023年11月14日   14   0   0 dataframebatch

简介 使用Pandas的pivot方法可以将DF进行旋转变换,本文将会详细讲解pivot的秘密。使用Pivot pivot用来重组DF,使用指定的index,columns和values来对现有的DF进行重构。 看一个Pivot的例子: 通过pivot变化,新的DF使用foo中的值作为index,使用bar的值作为columns,zoo作为对应的value。 再看一个时间变化的例子: In[1]:df Out[1]: datevariablevalue 02000-01-03A0.469112 12000-01-04A-0.282863 22000-01-05A-1.509059 32000-...

  TEZNKK3IfmPf   2023年11月14日   15   0   0 pandasdataframe

  简介 Pandas提供了很多合并Series和Dataframe的强大的功能,通过这些功能可以方便的进行数据分析。本文将会详细讲解如何使用Pandas来合并Series和Dataframe。使用concat concat是最常用的合并DF的方法,先看下concat的定义: pd.concat(objs,axis=0,join='outer',ignore_index=False,keys=None, levels=None,names=None,verify_integrity=False,copy=True) 看一下我们经常会用到的几个参数: objs是Series或者S...

  TEZNKK3IfmPf   2023年11月14日   20   0   0 pandasdataframe

1.缺失值处理 处理方式: 直接删除 填充缺失值 真值转换法 不处理 (数据分析和建模应用中很多模型对于缺失值有容忍度或灵活的处理方法,因此在预处理阶段可以不做处理。常见的能够自动处理缺失值的模型包括:KNN、决策树和随机森林、神经网络和朴素贝叶斯) pandas中用到的的api: dataframe.isnull()判断是否有缺失值 dataframe.dropna()删除缺失值 dataframe.fillna()填充缺失值 示例代码: importnumpyasnp importpandasaspd fromsklearn.imputeimportSimpleImp...

  TEZNKK3IfmPf   2023年11月12日   17   0   0 pandasdataframepython