Pandasで「UnicodeDecodeError」エラーが出た時の対処法

blue click pen near white document papers on top of brown wooden table Python
Photo by PhotoMIX Company on Pexels.com

最近、任天堂スイッチの桃鉄を買ってテンションが上がっているshinです。

今回は今勉強中である、Pythonを使ったデータ分析のpandasを使った時に発生したエラーが発生したので、対処法の備忘録として残しておきます。

環境

  • Windows10
  • jupyter notebook
  • pandas 1.1.5

やったこと

pandasでやったことはごく普通のCSVファイルの読み込みです。
コードは以下です。

df = pd.read_csv("notebooks/data/test.csv")
df

エラー内容

エラー内容としては次のエラーが発生していました。

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x94 in position 0: invalid start byte

ユニコードデコードエラーと出ているので、ユニコードが問題なんだなと思い、大体こんな時は日本語が読み込めていないんだなと思い。

グーグル先生に、「UnicodeDecodeError pandas 日本語」と検索すれば、先人たちの知恵が詰まってますので、その知恵を拝借します。

とりあえず日本語を読み込みたい場合は、「encoding=”shift-jis”」を、read_csvの引数に設定すればいいみたいです。

対処法

というわけで先ほどの、コードに「encoding=”shift-jis”」を追加します。

df = pd.read_csv("notebooks/data/coconara.csv", encoding="shift-jis")
df

これで実行すると、無事日本語で表示されました。

ググると何でも解決できるから助かります。
今回は以下のサイトを参考にさせていただきました。ありがとうございます。

以上です。ありがとうございました。

勉強中の参考書はこちらです。

コメント

タイトルとURLをコピーしました