panda DataFrame 열에 있는 NaN 값은 어떻게 계산합니까?

programing

panda DataFrame 열에 있는 NaN 값은 어떻게 계산합니까?

kingscode 2022. 10. 8. 17:24

panda DataFrame 열에 있는 NaN 값은 어떻게 계산합니까?

는 NaN각 열에 표시됩니다.

메서드(또는 에일리어스)를 사용합니다.isnull()또한 이전 버전인 판다와 호환되며 NaN 값을 계산하기 위해 합계를 구합니다.다음 중 하나:

>>> s = pd.Series([1,2,3, np.nan, np.nan])

>>> s.isna().sum()   # or s.isnull().sum() for older pandas versions
2

여러 열에 대해서도 다음과 같이 작동합니다.

>>> df = pd.DataFrame({'a':[1,2,np.nan], 'b':[np.nan,1,np.nan]})

>>> df.isna().sum()
a    1
b    2
dtype: int64

를 들어, '이렇게 하다'라고 가정해 봅시다.df이치노

그리고나서,

df.isnull().sum(axis = 0)

그러면 각 열에 NaN 값이 표시됩니다.

필요한 경우 각 행의 NaN 값을 지정합니다.

df.isnull().sum(axis = 1)

nan 이외의 값의 카운트로부터 합계 길이를 뺄 수 있습니다.

count_nan = len(df) - df.count()

데이터에 시간을 재야 합니다. , ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★isnull★★★★★★★★★★★★★★★★★★.

가장 많이 투표된 답변을 바탕으로 각 열의 결측값과 결측값의 %를 미리 볼 수 있는 데이터 프레임을 제공하는 함수를 쉽게 정의할 수 있습니다.

def missing_values_table(df):
    mis_val = df.isnull().sum()
    mis_val_percent = 100 * df.isnull().sum() / len(df)
    mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
    mis_val_table_ren_columns = mis_val_table.rename(
    columns = {0 : 'Missing Values', 1 : '% of Total Values'})
    mis_val_table_ren_columns = mis_val_table_ren_columns[
        mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
    '% of Total Values', ascending=False).round(1)
    print ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n"      
        "There are " + str(mis_val_table_ren_columns.shape[0]) +
            " columns that have missing values.")
    return mis_val_table_ren_columns

panda 0.14.1 이후 value_counts 메서드에서 키워드 인수를 사용하는 것이 좋습니다.

import pandas as pd
df = pd.DataFrame({'a':[1,2,np.nan], 'b':[np.nan,1,np.nan]})
for col in df:
    print df[col].value_counts(dropna=False)

2     1
 1     1
NaN    1
dtype: int64
NaN    2
 1     1
dtype: int64

팬더 컬럼의 나노 값을 세는 것이 빠른 방법이라면

import pandas as pd
## df1 as an example data frame 
## col1 name of column for which you want to calculate the nan values
sum(pd.isnull(df1['col1']))

아래는 모든 Nan 열을 내림차순으로 인쇄합니다.

df.isnull().sum().sort_values(ascending = False)

또는

아래는 첫 번째 15Nan 열을 내림차순으로 인쇄합니다.

df.isnull().sum().sort_values(ascending = False).head(15)

df.isnull().sum()는 결측값의 열별 합계를 제공합니다.

경우 할 수 있습니다.df.column.isnull().sum()

df.isnull().sum() 
      //type: <class 'pandas.core.series.Series'>

또는

df.column_name.isnull().sum()
     //type: <type 'numpy.int64'>

만약 당신이 Jupyter 노트북을 사용하고 있다면, 어떻습니까?

 %%timeit
 df.isnull().any().any()

또는

 %timeit 
 df.isnull().values.sum()

또는 데이터 내에 NaNs가 있습니까? 있다면 어디에 있습니까?

 df.isnull().any()

import numpy as np
import pandas as pd

raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'], 
        'last_name': ['Miller', np.nan, np.nan, 'Milner', 'Cooze'], 
        'age': [22, np.nan, 23, 24, 25], 
        'sex': ['m', np.nan, 'f', 'm', 'f'], 
        'Test1_Score': [4, np.nan, 0, 0, 0],
        'Test2_Score': [25, np.nan, np.nan, 0, 0]}
results = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'Test1_Score', 'Test2_Score'])

results 
'''
  first_name last_name   age  sex  Test1_Score  Test2_Score
0      Jason    Miller  22.0    m          4.0         25.0
1        NaN       NaN   NaN  NaN          NaN          NaN
2       Tina       NaN  23.0    f          0.0          NaN
3       Jake    Milner  24.0    m          0.0          0.0
4        Amy     Cooze  25.0    f          0.0          0.0
'''

Dataframe에서 출력을 제공하는 다음 기능을 사용할 수 있습니다.

제로 값
결측값
총값의 %
결측값의 합계 0
결측치 0의 합계(%)
데이터형

팔로우 기능을 복사하여 붙여넣기만 하면 팬더 Dataframe을 전달하여 호출할 수 있습니다.

def missing_zero_values_table(df):
        zero_val = (df == 0.00).astype(int).sum(axis=0)
        mis_val = df.isnull().sum()
        mis_val_percent = 100 * df.isnull().sum() / len(df)
        mz_table = pd.concat([zero_val, mis_val, mis_val_percent], axis=1)
        mz_table = mz_table.rename(
        columns = {0 : 'Zero Values', 1 : 'Missing Values', 2 : '% of Total Values'})
        mz_table['Total Zero Missing Values'] = mz_table['Zero Values'] + mz_table['Missing Values']
        mz_table['% Total Zero Missing Values'] = 100 * mz_table['Total Zero Missing Values'] / len(df)
        mz_table['Data Type'] = df.dtypes
        mz_table = mz_table[
            mz_table.iloc[:,1] != 0].sort_values(
        '% of Total Values', ascending=False).round(1)
        print ("Your selected dataframe has " + str(df.shape[1]) + " columns and " + str(df.shape[0]) + " Rows.\n"      
            "There are " + str(mz_table.shape[0]) +
              " columns that have missing values.")
#         mz_table.to_excel('D:/sampledata/missing_and_zero_values.xlsx', freeze_panes=(1,0), index = False)
        return mz_table

missing_zero_values_table(results)

산출량

Your selected dataframe has 6 columns and 5 Rows.
There are 6 columns that have missing values.

             Zero Values  Missing Values  % of Total Values  Total Zero Missing Values  % Total Zero Missing Values Data Type
last_name              0               2               40.0                          2                         40.0    object
Test2_Score            2               2               40.0                          4                         80.0   float64
first_name             0               1               20.0                          1                         20.0    object
age                    0               1               20.0                          1                         20.0   float64
sex                    0               1               20.0                          1                         20.0    object
Test1_Score            3               1               20.0                          4                         80.0   float64

단순하게 유지하려면 다음 함수를 사용하여 결측값을 %로 얻을 수 있습니다.

def missing(dff):
    print (round((dff.isnull().sum() * 100/ len(dff)),2).sort_values(ascending=False))


missing(results)
'''
Test2_Score    40.0
last_name      40.0
Test1_Score    20.0
sex            20.0
age            20.0
first_name     20.0
dtype: float64
'''

특정 열 개수는 아래를 사용하십시오.

dataframe.columnName.isnull().sum()

0을 카운트하려면:

df[df == 0].count(axis=0)

NaN을 카운트하려면:

df.isnull().sum()

또는

df.isna().sum()

이게 도움이 됐으면 좋겠는데

import pandas as pd
import numpy as np
df = pd.DataFrame({'a':[1,2,np.nan], 'b':[np.nan,1,np.nan],'c':[np.nan,2,np.nan], 'd':[np.nan,np.nan,np.nan]})

df.isnull().sum()/len(df) * 100

Thres = 40
(df.isnull().sum()/len(df) * 100 ) < Thres

value_counts 메서드를 사용하여 np.nan 값을 인쇄할 수 있습니다.

s.value_counts(dropna = False)[np.nan]

아직 제안되지 않은 다른 간단한 옵션은 NaN을 카운트하는 것만으로 NaN을 사용하여 행 수를 반환하는 모양을 추가하는 것이다.

df[df['col_name'].isnull()]['col_name'].shape

첫 번째 부품 수NaN여러 가지 방법이 있어요

1 법 1count 「」이 입니다.count합니다.NaN which which which which different different 와는 다른size

print(len(df) - df.count())

2 법 2 2isnullisna로 sum

print(df.isnull().sum())
#print(df.isna().sum())

3 법 3describeinfo " null"값 "not null" 이 됩니다.

print(df.describe())
#print(df.info())

법법로부터의 numpy

print(np.count_nonzero(np.isnan(df.values),axis=0))

질문의 두 번째 부분은, 만약 우리가 한 칸씩 열을 떨어뜨리고 싶다면, 우리는 다음과 같이 시도할 수 있다.dropna

thresh, optional non-NA 값이 많이 필요합니다.

Thresh = n # no null value require, you can also get the by int(x% * len(df))
df = df.dropna(thresh = Thresh, axis = 1)

df1.isnull().sum()

이거면 효과가 있을 거야.

입니다.Nullwise : values 컬 wise :wise :

df.isna().sum()

다양한 NaN 가치 요약 방법을 자세히 설명한 2017년 7월의 멋진 Dzone 기사가 있습니다.여기 보세요.

인용한 기사는 (1) 각 컬럼에 대해 NaN 카운트를 카운트하여 표시하는 방법, (2) NaN이 있는 특정 행을 선택하여 선택적으로 폐기 또는 귀속할 수 있는 방법을 보여줌으로써 추가적인 가치를 제공한다.

여기 이 접근방식의 유용성을 보여주는 간단한 예가 있습니다.몇 개의 컬럼만이 그 유용성은 분명하지 않지만 대규모 데이터 프레임에 도움이 된다는 것을 알 수 있었습니다.

import pandas as pd
import numpy as np

# example DataFrame
df = pd.DataFrame({'a':[1,2,np.nan], 'b':[np.nan,1,np.nan]})

# Check whether there are null values in columns
null_columns = df.columns[df.isnull().any()]
print(df[null_columns].isnull().sum())

# One can follow along further per the cited article

groupby에 의해 추출된 서로 다른 그룹 간에 non-NA(없음) 및 none(없음) 카운트를 취득할 필요가 있는 경우:

gdf = df.groupby(['ColumnToGroupBy'])

def countna(x):
    return (x.isna()).sum()

gdf.agg(['count', countna, 'size'])

그러면 비NA, NA의 수 및 그룹별 엔트리의 총 수가 반환됩니다.

다음 방법으로 시험해 볼 수 있습니다.

In [1]: s = pd.DataFrame('a'=[1,2,5, np.nan, np.nan,3],'b'=[1,3, np.nan, np.nan,3,np.nan])

In [4]: s.isna().sum()   
Out[4]: out = {'a'=2, 'b'=3} # the number of NaN values for each column

필요한 경우 난의 총합:

In [5]: s.isna().sum().sum()
Out[6]: out = 5  #the inline sum of Out[4]

주어진 답변과 몇 가지 개선을 바탕으로 이것이 나의 접근법이다.

def PercentageMissin(Dataset):
    """this function will return the percentage of missing values in a dataset """
    if isinstance(Dataset,pd.DataFrame):
        adict={} #a dictionary conatin keys columns names and values percentage of missin value in the columns
        for col in Dataset.columns:
            adict[col]=(np.count_nonzero(Dataset[col].isnull())*100)/len(Dataset[col])
        return pd.DataFrame(adict,index=['% of missing'],columns=adict.keys())
    else:
        raise TypeError("can only be used with panda dataframe")

이 루프를 사용하여 각 열의 결측값을 계산합니다.

# check missing values
import numpy as np, pandas as pd
for col in df:
      print(col +': '+ np.str(df[col].isna().sum()))

df.iteritems()를 사용하여 데이터 프레임을 루프할 수 있습니다.for 루프 내에서 조건을 설정하여 각 컬럼의 NaN 값 백분율을 계산하고 NaN 값이 설정된 임계값을 초과하는 값을 드롭합니다.

for col, val in df.iteritems():
    if (df[col].isnull().sum() / len(val) * 100) > 30:
        df.drop(columns=col, inplace=True)

코드로 @summit에서 제안한 솔루션을 사용.

동일한 변형이 있을 수 있습니다.

colNullCnt = []
for z in range(len(df1.cols)):
    colNullCnt.append([df1.cols[z], sum(pd.isnull(trainPd[df1.cols[z]]))])

이 방법의 장점은 이후 df의 각 열에 대한 결과를 반환한다는 것입니다.

import pandas as pd
import numpy as np

# example DataFrame
df = pd.DataFrame({'a':[1,2,np.nan], 'b':[np.nan,1,np.nan]})

# count the NaNs in a column
num_nan_a = df.loc[ (pd.isna(df['a'])) , 'a' ].shape[0]
num_nan_b = df.loc[ (pd.isna(df['b'])) , 'b' ].shape[0]

# summarize the num_nan_b
print(df)
print(' ')
print(f"There are {num_nan_a} NaNs in column a")
print(f"There are {num_nan_b} NaNs in column b")

출력으로 제공:

     a    b
0  1.0  NaN
1  2.0  1.0
2  NaN  NaN

There are 1 NaNs in column a
There are 2 NaNs in column b

검토라는 데이터 프레임에서 가격으로 알려진 열의 결측값 수(NaN)를 얻으려고 합니다.

#import the dataframe
import pandas as pd

reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)

n_missing_prices를 변수로 사용하여 결측값을 가져오려면 단순 do

n_missing_prices = sum(reviews.price.isnull())
print(n_missing_prices)

여기서 sum이 중요한 방법이고, sum이 이 컨텍스트에서 사용하는 올바른 방법이라는 것을 깨닫기 전에 count를 사용하려고 했습니다.

팬더 데이터 프레임으로 .info를 생성하는 짧은 함수(Python 3)를 작성했습니다.이러한 함수는 다음과 같습니다.

df1 = pd.DataFrame({'a':[1,2,np.nan], 'b':[np.nan,1,np.nan]}) 
def info_as_df (df):
    null_counts = df.isna().sum()
    info_df = pd.DataFrame(list(zip(null_counts.index,null_counts.values))\
                                         , columns = ['Column', 'Nulls_Count'])
    data_types = df.dtypes
    info_df['Dtype'] = data_types.values
    return info_df
print(df1.info())
print(info_as_df(df1))

그 결과:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   a       2 non-null      float64
 1   b       1 non-null      float64
dtypes: float64(2)
memory usage: 176.0 bytes
None
  Column  Nulls_Count    Dtype
0      a            1  float64
1      b            2  float64

완성도를 높이기 위한 또 다른 방법은np.count_nonzero.isna()를 사용합니다.

np.count_nonzero(df.isna())

%timeit np.count_nonzero(df.isna())
512 ms ± 24.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

1000005행 × 16열 데이터 프레임을 사용한 상위 답변과 비교:

%timeit df.isna().sum()
492 ms ± 55.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df.isnull().sum(axis = 0)
478 ms ± 34.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit count_nan = len(df) - df.count()
484 ms ± 47.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

데이터:

raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'], 
        'last_name': ['Miller', np.nan, np.nan, 'Milner', 'Cooze'], 
        'age': [22, np.nan, 23, 24, 25], 
        'sex': ['m', np.nan, 'f', 'm', 'f'], 
        'Test1_Score': [4, np.nan, 0, 0, 0],
        'Test2_Score': [25, np.nan, np.nan, 0, 0]}
results = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'Test1_Score', 'Test2_Score'])

# big dataframe for %timeit 
big_df = pd.DataFrame(np.random.randint(0, 100, size=(1000000, 10)), columns=list('ABCDEFGHIJ'))
df = pd.concat([big_df,results]) # 1000005 rows × 16 columns

언급URL : https://stackoverflow.com/questions/26266362/how-do-i-count-the-nan-values-in-a-column-in-pandas-dataframe

저작자표시 (새창열림)

'programing' 카테고리의 다른 글

그렇지 않으면 PHP 문에서 AND/OR 사용 (0)	2022.10.09
PHP를 사용하여 사이트 간 요청 위조(CSRF) 토큰을 올바르게 추가하는 방법 (0)	2022.10.08
Hover를 사용한 부트스트랩 드롭다운 (0)	2022.10.08
WordPress에서 사용하는 해시 유형은 무엇입니까? (0)	2022.10.08
마리아DB의 utf8은 아직 utf8mb3인가요? (0)	2022.10.08

현재글panda DataFrame 열에 있는 NaN 값은 어떻게 계산합니까?

각종 프로그래밍 정보를 다루는 블로그입니다.

spring3, Spring, C#, jquery, c++, javascript, java,

Today :
Yesterday :

kingscode

panda DataFrame 열에 있는 NaN 값은 어떻게 계산합니까?

panda DataFrame 열에 있는 NaN 값은 어떻게 계산합니까?

'programing' 카테고리의 다른 글

'programing'의 다른글

티스토리툴바

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

panda DataFrame 열에 있는 NaN 값은 어떻게 계산합니까?

panda DataFrame 열에 있는 NaN 값은 어떻게 계산합니까?

'programing' 카테고리의 다른 글

'programing'의 다른글

관련글

티스토리툴바