众所周知,Python脚本不能在没有安装Python的机器上运行。
这个时候如果将脚本打包成exe文件,目前比较常见的打包exe方法都是通过Pyinstaller
来实现的,本文也将使用这种常规方法。如果对这块已经很熟悉的小伙伴,可以直接下滑到本文下半部分。
本文将讨论文本预处理的基本步骤,旨在将文本信息从人类语言转换为机器可读格式以便用于后续处理。此外,本文还将进一步讨论文本预处理过程所需要的工具。
正则表达式(Regular Expression)通常被用来检索、替换那些符合某个模式(规则)的文本。
此处的Regular即是规则、规律的意思,Regular Expression即“描述某种规则的表达式”之意。
本文收集了一些常见的正则表达式用法,方便大家查询取用,并在最后附了详细的正则表达式语法手册。
案例包括:「邮箱、身份证号、手机号码、固定电话、域名、IP地址、日期、邮编、密码、中文字符、数字、字符串」
最近发现一个新的库 WeasyPrint , 经过一番测试效果非常不错,无论是从官方网站的介绍还是提供的文档,看得出作者应该是花了不少心思来做这件事。
最重要的是,安装简单,使用方便。不像pdfkit调用的都是 wkhtmltopdf 提供的指令,而 WeasyPrint 是一个原生的Python项目,所以特别适合做 Python 定制开发,当然,它也需要依赖其它第三方库。
Pandas 是使用最广泛的数据分析和操作库之一。它提供了许多功能和方法来清理、处理、操作和分析数据。
本文我将列出 40 个示例,不仅包括常用函数和操作技巧,还包括一些功能强大却非常低调的技巧,这些示例让你轻松玩转 Python。
GoPUP 支持Python 3.7+,旨在使获取数据尽可能方便,主要用于学术研究目的,大概有100+的免费数据接口。
GoPUP 项目所采集的数据皆来自公开的数据源,不涉及任何个人隐私数据和非公开数据。 同时本项目提供的数据接口及相关数据仅用于学术研究,任何个人、机构及团体使用本项目的数据接口及相关数据请注意商业风险。
主要有指数数据、宏观经济数据、新经济数据、微博KOL数据、信息数据、生活数据、疫情数据等。
学习 Python 的话,仅掌握标准库是远不够的,有很多好用的第三方库我们也需要用到的,比如,由鼎鼎大名的 K 神开发的爬虫必不可少的 requests 库,一般都是必装的库吧。安装第三方库当然还是用 pip 命令安装最方便了。
但是,新手使用pip有各种问题,安装速度慢,pip不存在等等,接下来就来解决
今天扼要总结一个处理csv文件乱码问题,可能你有类似经历,用excel打开一个csv文件,中文全部显示乱码。然后,手动用notepad++打开,修改编码为utf-8并保存后,再用excel打开显示正常。