鈥榟 鈥淒等csv乱码怎么解决???

鈥榟 鈥淒等csv乱码怎么解决???

打开csv文件我就慌了,我做文本分析,最后居然要处理的文本里这么多乱码,关键是某些单词的部分由于乱码而确实,如hom,少了个e,这还怎么分析。

我首先一顿百度猛如虎,查找了如下几个办法,感觉最让人看到希望的是这一条:

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

'''

@Author : {Jack Zhao}

@Time : 2019/11/11 13:26

@Contact : {zc_dlmu@163.com}

@Desc : 测试

'''

from io import StringIO

import pandas as pd

# Read the csv file into a StringIO object

sio = StringIO()

with open('../data/test.csv', 'r', encoding='unicode-escape') as f:

for line in f:

print(line)

line = line.encode('latin1').decode('utf8')

print(line)

sio.write(line)

sio.seek(0) # Reset file pointer to the beginning

# Call read_csv, passing the StringIO object

df = pd.read_csv(sio, encoding="utf8")

没有任何卵用

下面第二次尝试:

x = b"it\\xe2\\x80\\x99s time to eat"

x = x.decode('unicode-escape').encode('latin1').decode('utf8')

print(x) # it’s time to eat

并没有什么卵用

上述说的都是Unicode字符编码的问题,但我不是很懂,反正没效果就对了。

解决办法:

Notepad++打开csv文件-》Ctrl+A全选,修改为ANSI编码-》再修改为UTF-8 BOM编码/UTF-8编码-》另存为

转变结果如下图:

这样就不会影响分析了(注意home变的完整了)。

然后操作https://blog.csdn.net/weixin_40539952/article/details/102994822

相关故事

什么像什么一样造句1
www.38365-365.com

什么像什么一样造句1

英特尔® 酷睿™ i7-7700HQ 处理器
mobile365体育手机版入口

英特尔® 酷睿™ i7-7700HQ 处理器

通典 : 禮十五 : 禳祈
mobile365体育手机版入口

通典 : 禮十五 : 禳祈