<i id="b3tp5"></i>
      <noframes id="b3tp5"><address id="b3tp5"><nobr id="b3tp5"></nobr></address>
      <noframes id="b3tp5"><address id="b3tp5"><nobr id="b3tp5"></nobr></address>

      <noframes id="b3tp5">

          <noframes id="b3tp5"><address id="b3tp5"><address id="b3tp5"><listing id="b3tp5"></listing></address></address>
            <address id="b3tp5"></address>

            2019-07-16瀏覽量:569

            干貨來襲,教你用dplyr包輕松處理數據!

            dplyr包主要用于dataframe數據格式的數據處理,可大幅提高數據處理速度,同時提供了與其它數據庫的接口。

             

             

            dplyr包更是擁有R語言必學之包的美譽,今天小銳就為大家介紹dplyr包在數據處理中常用的六個函數:

            filter 篩選

            arrange 排列

            select 選擇

            mutate 變形

            summarise 匯總

            group_by 分組

             

             首先安裝并加載dplyr包

             

            install.packages("dplyr")

            library(dplyr)

             

            加載鳶尾花數據集

             

            data<-iris

             

             

            篩選:filter()

             

            根據給定的邏輯判斷,篩選符合條件的子集。

            data1<-filter(data,Sepal.Length>7)  #篩選Sepal.Length(花萼長度)大于7的數據

             

             

            data2<-filter(data,Species=="versicolor")  #篩選物種為“versicolor”的數據

             

             

            data3<-filter(data,Species!="versicolor" & Petal.Length>4.5)  #篩選物種不為“versicolor”且Petal.Length(花瓣長度)大于4.5的數據

             

             

            排列:arrange()

             

            按給定的列名對行進行排序。

            data4<-arrange(data,Sepal.Length)  #按Sepal.Length進行排序,默認為升序

             

             

            排列:arrange()

             

            按給定的列名對行進行排序。

            data4<-arrange(data,Sepal.Length)  #按Sepal.Length進行排序,默認為升序

             

             

            排列:arrange()

             

            按給定的列名對行進行排序。

            data4<-arrange(data,Sepal.Length)  #按Sepal.Length進行排序,默認為升序

             

             

            選擇:select()

             

            用列名做參數選擇子數據集。

            data6<-select(data,Sepal.Width:Petal.Width)  #選擇Sepal.Width(花萼寬度)到Petal.Width(花瓣寬度)的列

             

             

            data7<-select(data,starts_with("P"))  #結合starts_with函數,選擇變量名以P開頭的列

             

             

            變形:mutate()

             

            對現有的列進行運算,并作為新列添加。

            data8<-mutate(data,S.L=10*Sepal.Length)  #增加S.L列為Sepal.Length列的10倍

             

             

            data9<-mutate(data,L.W=Sepal.Length/Sepal.Width)  #增加L.W列為Sepal.Length除以Sepal.Width的數值

             

             

            匯總:summarise()

             

            對數據框調用其它函數進行匯總操作,返回一維的結果。

            data10<-summarise(data,mean(Sepal.Length))  #求Sepal.Length的平均值

             

             

            分組:group_by()

             

            添加了group_by()分組信息后就可對數據執行分組操作,常與summarise() 結合使用。

            data11<-summarise(group_by(data,Species),mean(Sepal.Length))  #對數據按Species分組,計算Sepal.Length平均值

             

             

            今天關于R語言數據處理dplyr包的六個函數就介紹到這里,關注銳翌基因,干貨持續推送!

            更多R語言相關課程,在銳翌暑期培訓班喲

            下一篇

            版權所有 上海銳翌生物科技有限公司 滬ICP備16022951號

            87彩店