博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python文本数据分析与挖掘,外版畅销书中文版火爆上市
阅读量:2160 次
发布时间:2019-05-01

本文共 2405 字,大约阅读时间需要 8 分钟。

出版社:中国青年出版社—北京中青雄狮数码传媒科技有限公司

大数据时代,用Python快速分析挖掘更有价值的信息!

一个以大数据与人工智能技术为核心的新的工业革命时代已经来临,大数据在企业决策中扮演着越来越重要的角色,数据经过高效的智能数据分析与挖掘等人工智能技术处理后,可以产生巨大价值,创造智能,方便生活。现在“统计分析和数据挖掘”已跻身最受欢迎的求职技能行列,数据分析师的薪酬待遇也远远超过平均薪资水平。

《Python文本数据分析与挖掘》数据分析师初学者必备,书中用简单明快的例子演示应用效果,并配有视频展示,下载资料包即可获取视频和二维码,不会让你感觉枯燥摸不到头脑。

本书特点

特点1:

引进外版机器学习领域畅销书!专注于如何快速应用!

特点2 :

作者的实战经验总结!100%干货分享,导入篇→基础篇→实践篇,循序渐进。

特点3:

案例都配对应视频讲解,随时随地学习无压力!下载资料包即可获取视频和案例二维码!

特点4:

提供在线交流群,与志同道合小伙伴一起加油!

内容简介

《Python文本数据分析与挖掘》将自然语言处理技术统计处理技术视为工具,不会涉及到其繁琐的原理、数学定理等。书中利用操作简便的Python程序包来处理文本数据,探索文本挖掘可以帮我们做到的事情,而非用尖端的技术进行程序设计。书中用简单明快的例子演示应用效果,并配有视频展示,下载资料包即可获取视频和案例二维码!

本书通过5个章节介绍相关知识,第1章介绍文本挖掘的整体印象;在第2章中概括介绍了本书后面用到的Python的必要知识;第3章中介绍文本处理相关的基本概念和观点;第4章中利用Python学习作为基础处理的频率分析方法和其能得到的结果;最后,在第5章中介绍文本挖掘需要用到的各种具体方法以及在Python中的处理步骤。

作者简介

【日】山内长承:1975年毕业于东京大学工学部电子工学专业。1977年完成工学专业课程硕士课程。1978年进入斯坦福大学电气工学专业,1984年退出博士课程,进入日本艾比·艾姆东京基础研究所工作。2000年加入到东邦大学理学部情报科学科,任东邦大学理学部情报科学科教授。

精彩文摘

1.1 什么是文本挖掘

文本挖掘是指从文本数据中把信息挖掘出来,如同从大量沙土中找出被掩埋的宝贵钻石,文本挖掘是从大量文本数据中找出被掩埋的“有意义的信息”。

通过使用自然语言处理技术和统计学工具,从大量的文本数据中提取出压缩后有意义的信息。在这里,我们分别使用“文本数据”和“信息”这两个词。先说文本数据,比如各种各样的文件、在社交平台上发布的信息、关于产品或服务的问卷调查结果,这些数据的产生都有原本的目的。也就是说,我们是为了写文件、为了在社交平台上发布信息、为了评价产品或服务等目的,才去写作各种文本,而这些文本就是我们输入的“数据”。文本挖掘,就是从这些数据入手,比如从社交平台中提取出最近的流行趋势,从问卷调查中提取出对某种商品或服务的整体评价和出现的问题(图1-1)。而上面说的从社交平台上提取的流行趋势、通过问卷得到的评价和问题,和原来的文本数据相比,被大幅度地压缩了。我们把压缩后得到的东西称为“信息”。

2.4.3 图表、图形绘制库Matplotlib

Matplotlib主要是绘制二维图表、图形、图像的库。Matplotlib不仅可以绘制画面,还可以直接在文件中输出画面。Matplotlib有很多功能,其中辅助函数pyplot是可以绘制简单图表的程序包,本书也会使用这个功能来绘制图表,下面我们先来看一下绘制点的简单制图程序(例2.3)。

Matplotlib除了可以绘制点,还可以绘制直线图、折线图、柱状图等图形。接下来我们来看一下使用Matplotlib绘制的折线图(例2.4)。

执行程序后可以看到图2-5中的折线图效果。

在之后的数据分析中,我们也可以通过柱形图分析有效信息。使用Matplotlib绘制柱形图的方法如例2.5所示。

可以看到如图2-6所示的效果。

内页展示

目录

前言

第1章 文本挖掘的概要

1.1 什么是文本挖掘

1.2 应用实例

第2章 Python概要和实验准备

2.1 什么是Python

2.2 编写、运行程序的环境

2.3 Python的语法规则

2.4 可用于文本挖掘的程序包

2.5 数据的准备

第3章 文本分割和数据分析的方法

3.1 文本的构成元素

3.2 统计分析、数据挖掘的基本方法

3.3 文本挖掘特有的方法

第4章 频率统计的实际应用

4.1 文字单位的出现频率分析

4.2 单词的出现频率分析

第5章 文本挖掘的各种处理示例

5.1 连续·N-gram的分析和利用

5.2 词的重要性和TF-IDF分析

5.3 基于KWIC的检索

5.4 基于单词属性的积极消极分析

5.5 基于WordNet的同义词检索

5.6 句法分析和关联分析的实际操作

5.7 语义分析和Word2Vec

附录 Python编程环境的简单安装

A.1 什么是开发环境

A.2 在Windows10上的安装

A.3 开始使用Jupyter Notebook

A.4 作业结果的保存和Jupyter Notebook的结束

今日福利

赠送 本书籍,书籍由出版社赞助,书籍列表附后,书籍任选。

通过在本文留言参与,留言的主题如下:

  1. 聊聊你对Python数据分析的理解?

  2. 推荐一本书你读过的,觉得不错的书籍,并用一句话来描述你推荐的原因。

参与方式:在公众号Python数据之道的本篇文章底部点击「在看」+「留言」,优质留言才可上墙!留言点赞数量最多的「前5位」读者将获得书籍,截止时间「5月22号20点」,最终获赠者通过留言联系我。

PS:禁止恶意刷赞!发现后将进入黑名单,取消上墙资格。

可选书籍列表

点击“阅读原文”前往购买链接。

转载地址:http://fjzzb.baihongyu.com/

你可能感兴趣的文章
借船过河:一个据说能看穿你的人性和欲望的心理测试
查看>>
AndroidStudio 导入三方库使用
查看>>
Ubuntu解决gcc编译报错/usr/bin/ld: cannot find -lstdc++
查看>>
解决Ubuntu14.04 - 16.10版本 cheese摄像头灯亮却黑屏问题
查看>>
解决Ubuntu 64bit下使用交叉编译链提示error while loading shared libraries: libz.so.1
查看>>
Android Studio color和font设置
查看>>
Python 格式化打印json数据(展开状态)
查看>>
Centos7 安装curl(openssl)和libxml2
查看>>
Centos7 离线安装RabbitMQ,并配置集群
查看>>
Centos7 or Other Linux RPM包查询下载
查看>>
运行springboot项目出现:Type javax.xml.bind.JAXBContext not present
查看>>
Java中多线程向mysql插入同一条数据冲突问题
查看>>
Idea Maven项目使用jar包,添加到本地库使用
查看>>
FastDFS集群架构配置搭建(转载)
查看>>
HTM+CSS实现立方体图片旋转展示效果
查看>>
FFmpeg 命令操作音视频
查看>>
问题:Opencv(3.1.0/3.4)找不到 /opencv2/gpu/gpu.hpp 问题
查看>>
目的:使用CUDA环境变量CUDA_VISIBLE_DEVICES来限定CUDA程序所能使用的GPU设备
查看>>
问题:Mysql中字段类型为text的值, java使用selectByExample查询为null
查看>>
程序员--学习之路--技巧
查看>>