第二讲 数据采集与操作.pdf
《第二讲 数据采集与操作.pdf》由会员分享,可在线阅读,更多相关《第二讲 数据采集与操作.pdf(63页珍藏版)》请在文库网上搜索。
1、互联网新技术在线教育领航者 ChinaHadoop互联网新技术在线教育领航者 LOGO -互联网新技术在线教育领航者 Python BeautifulSoup Scrapy Logistic 互联网新技术在线教育领航者 Python BeautifulSoup Scrapy Logistic 互联网新技术在线教育领航者 txt csv json xml xls, xlsx HDF GIS .dbf .csv 互联网新技术在线教育领航者 txt EOL (End Of Line) n file_obj = open(filename, access_mode) access_mode: r w
2、file_obj.read() file_obj.readline() file_obj.readlines() file_obj.write() file_obj.writelines() 01_txt_file_process.ipynb互联网新技术在线教育领航者 txt ( ) file_obj.close() with with open(filename) as f_obj: # 01_txt_file_process.ipynb互联网新技术在线教育领航者 CSV (Comma-Separated Values) numpy np.loadtxt(), pandas df_obj =
3、 pd.read_csv() DataFrame df_obj.to_csv() 02_csv_file_process.ipynb互联网新技术在线教育领航者 Pandas NumPy pandas Series DataFrame 02_csv_file_process.ipynb互联网新技术在线教育领航者 JSON (JavaScript Object Notation) key1:val1, key2,:val2 val1, val2, , valn 03_json_file_process.ipynb互联网新技术在线教育领航者 JSON (JavaScript Object Notat
4、ion) ( ) json.load(file_obj) dict json - csv json.dumps() ensure_ascii=False 03_json_file_process.ipynb互联网新技术在线教育领航者 XLS/XLSX (Excel ) pandas df_obj = pd.read_excel() DataFrame df_obj.to_excel() pandas CSV互联网新技术在线教育领航者 Python BeautifulSoup Scrapy Logistic 互联网新技术在线教育领航者 Python SQLite SQLite C/S SQL 0
5、4_sqlite_basic.ipynb互联网新技术在线教育领航者 Python SQLite conn = sqlite3.connect(db_name) db_name db_name conn.cursor() SQL SQL 04_sqlite_basic.ipynb互联网新技术在线教育领航者 Python SQLite ( ) CRUD cursor.execute(sql_str) cursor.executemany(sql_str) fetchone() fetchall() mit() conn.close() 04_sqlite_basic.ipynb互联网新技术在线教育
6、领航者 Python Mysql https:/ PostgreSQL Django PostgreSQL Psycopg http:/initd.org/psycopg/docs/ MongoDB https:/ Python Oracle http:/ 091105.html互联网新技术在线教育领航者 Python BeautifulSoup Scrapy Logistic 互联网新技术在线教育领航者 (join) join (cross join) (inner join) (outer join) cross join 05_sqlite_join.ipynb互联网新技术在线教育领航者
7、 ( ) inner join outer join left join (A,B) A B null right join (A,B) B A null sqlite3 A B 互联网新技术在线教育领航者 ( )互联网新技术在线教育领航者 Python BeautifulSoup Scrapy Logistic 互联网新技术在线教育领航者 互联网新技术在线教育领航者 URL URL URL URL URL URL URL 互联网新技术在线教育领航者 URL 互联网新技术在线教育领航者 URL Python set how? Redis 互联网新技术在线教育领航者 URL URL ( ) ur
8、llib Python requests URL response = urllib.request.urlopen(url) response.getcode() response.read() 06_crawl_basic.ipynb互联网新技术在线教育领航者 URL ( ) Request request = urllib.request.Request(url) request.add_head() request.add_data() response = urllib.urlopen(request) 06_crawl_basic.ipynb互联网新技术在线教育领航者 URL (
9、) Cookie http.cookiejar cookie_jar = http.cookiejar.CookieJar() opener = urllib.request.build_opener() urllib.request.install_opener(opener) response = urllib.request.urlopen(url) 06_crawl_basic.ipynb互联网新技术在线教育领航者 html.parser BeautifulSoup lxml互联网新技术在线教育领航者 ( ) DOM (Document Object Model) 互联网新技术在线教育
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 数据 采集 操作