Nếu bạn cần các công cụ dòng lệnh trích xuất văn bản từ các tệp Word, Antiword (tệp .doc) và docx2txt (.docx) là các chương trình hữu ích để bạn sử dụng.
Trong hướng dẫn này, chúng tôi sẽ xem xét bốn ứng dụng này và cách bạn có thể sử dụng chúng. Chúng tôi sẽ hướng dẫn cài đặt chúng trên một số bản phân phối Linux phổ biến nhất, bao gồm Debian, Ubuntu, Fedora, OpenSUSE, CentOS và Arch Linux. Chúng tôi cũng sẽ giúp cài đặt phông chữ Microsoft TrueType lõi trên hệ thống Linux của bạn.
LibreOffice là bộ năng suất văn phòng miễn phí, mã nguồn mở, được duy trì tích cực và được cập nhật thường xuyên, tương thích với các ứng dụng Microsoft Office, bao gồm cả Microsoft Word. Bạn có thể lưu tài liệu LibreOffice Writer của mình ở định dạng .doc hoặc .docx, sau đó mở chính xác trong Microsoft Word.
Cài đặt LibreScript
LibreScript có thể được cài đặt bằng trình quản lý gói của bạn. Để cài đặt nó, hãy mở một thiết bị đầu cuối và sử dụng lệnh sau phù hợp với hệ điều hành của bạn:
Debian 8, Ubuntu 15
sudo apt-get update && sudo apt-get cài đặt libreoffice
Fedora 23
sudo dnf cập nhật && sudo dnf cài đặt libreoffice
Mở 10
sudo zypper refresh && sudo zypper cài đặt libreoffice
CentOS 7
sudo yum cập nhật && sudo yum cài đặt libreoffice
Arch Linux 2016
sudo pacman -Sy libreoffice-tươi
Khi LibreScript được cài đặt, nó sẽ xuất hiện trong menu Ứng dụng của GUI. Bạn cũng có thể chạy nó từ một thiết bị đầu cuối bằng lệnh:
phản đối
AbiWord
AbiWord là một trình xử lý văn bản nguồn mở và miễn phí khác. Nó có một giao diện đơn giản, sạch sẽ và đã được phát triển trong gần hai mươi năm. Giống như LibreOffice, nó có thể mở, chỉnh sửa và lưu các tệp Microsoft Word .doc và .docx. Không giống như LibreOffice, Abiword không phải là một bộ văn phòng hoàn chỉnh, vì vậy nó có dung lượng nhỏ hơn và tiêu tốn ít tài nguyên hệ thống hơn.
Cài đặt AbiWord
Debian 8, Ubuntu 15
sudo apt-get nâng cấp && sudo apt-get cài đặt abiword
Fedora 23
sudo dnf cập nhật && sudo dnf cài đặt abiword
Mở 10
sudo zypper refresh && sudo zypper cài đặt abiword
CentOS 7
sudo yum cập nhật && sudo yum cài đặt abiword
Arch Linux 2016
pacman -Sy abiword
Phản từ
Antiword là một công cụ dòng lệnh có thể chuyển đổi nội dung của tệp .doc thành văn bản thuần túy.
Lưu ý: Antiword chỉ chuyển đổi tập tin .doc. Nếu bạn cần chuyển đổi tệp .docx, hãy xem docx2txt trong phần tiếp theo.
Sử dụng từ khóa
Chạy từ khóa với tên của tệp Word .doc sẽ xuất văn bản thuần túy của tệp thành đầu ra tiêu chuẩn.
Antiword thực hiện một công việc tuyệt vời là định dạng bảng. Nó cũng có các tùy chọn để bao gồm hình ảnh dưới dạng đối tượng PostScript và xuất ra PDF.
Bạn có thể chuyển hướng đầu ra thành một tệp văn bản:
chống từ file.doc> file.txt
hoặc, nếu bạn muốn mở nó trực tiếp trong trình soạn thảo văn bản, bạn có thể chuyển văn bản sang vim:
tập tin chống từ.doc | vim -
hoặc pico:
tập tin chống từ.doc | pico -
Cài đặt từ khóa
Debian 8, Ubuntu 15
sudo apt-get update && sudo apt-get cài đặt từ khóa
Fedora 23
sudo dnf cập nhật && sudo dnf cài đặt từ khóa
Mở 10
sudo zypper refresh && sudo zypper cài đặt từ khóa
CentOS 7
sudo yum cập nhật && sudo yum cài đặt từ khóa
Tài liệu
sudo pacman -Sy phản từ
Docx2txt là một công cụ dòng lệnh chuyển đổi các tệp .docx thành văn bản thuần túy. (Nó không chuyển đổi tập tin .doc.)
Để in nội dung của tệp .docx ra màn hình đầu cuối hoặc chuyển hướng đầu ra sang tệp, hãy gọi docx2txt và chỉ định dấu gạch ngang làm tên tệp đầu ra. Trong ví dụ này, chú ý dấu gạch ngang ở cuối lệnh:
Để chuyển đổi tệp .docx và xuất thành tệp văn bản, hãy sử dụng biểu mẫu lệnh:
docx2txt file.docx file.txt
hoặc là:
docx2txt file.docx -> file.txt
Để mở văn bản .docx trong vim, hãy sử dụng mẫu lệnh:
tập tin docx2txt.docx - | vim -
Để mở nó trong nano:
tập tin docx2txt.docx - | nano -
Để cài đặt doc2txt, hãy làm theo các hướng dẫn cho phiên bản Linux của bạn bên dưới:
Debian 8
sudo apt-get update && sudo apt-get install docx2txt
Ubuntu 15
sudo apt-get update && sudo apt-get install docx2txt
Fedora 23
Các kho lưu trữ của Fedora không cung cấp gói cho docx2txt, nhưng bạn có thể cài đặt thủ công:
Tải xuống nguồn từ SourceForge tại //sourceforge.net/projects/docx2txt/. Trích xuất kho lưu trữ:
tar xzvf docx2txt-1.4.tgz
Bạn cần đảm bảo rằng perl, giải nén và make được cài đặt trên hệ thống của bạn, vì vậy hãy cài đặt hoặc nâng cấp các gói đó ngay bây giờ:
sudo dnf cập nhật && sudo dnf cài đặt perl giải nén
Sau đó, chạy make như người dùng root để cài đặt:
sudo làm
Docx2txt hiện được cài đặt dưới dạng docx2txt.sh . Ví dụ: để chuyển đổi tệp word-document.docx thành tệp văn bản, bạn có thể chạy:
docx2txt.sh từ-document.docx
Tệp văn bản đã chuyển đổi sẽ tự động được lưu dưới dạng word-document.txt .
Mở 10
Các kho lưu trữ SUSE không cung cấp gói cho docx2txt, nhưng bạn có thể tải xuống từ SourceForge tại //sourceforge.net/projects/docx2txt/. Trích xuất kho lưu trữ:
tar xzvf docx2txt-1.4.tgz
Bạn cần đảm bảo rằng perl, giải nén và make được cài đặt trên hệ thống của bạn, vì vậy hãy cài đặt hoặc nâng cấp các gói đó ngay bây giờ:
sudo zypper cập nhật && sudo zypper cài đặt perl giải nén
Sau đó, chạy make as root để cài đặt:
sudo làm
Docx2txt hiện được cài đặt dưới dạng docx2txt.sh . Ví dụ: để chuyển đổi tệp word-document.docx thành tệp văn bản, bạn có thể chạy:
docx2txt.sh từ-document.docx
Tệp văn bản đã chuyển đổi sẽ tự động được lưu dưới dạng word-document.txt .
CentOS 7
Các kho lưu trữ của CentOS không cung cấp gói cho docx2txt, nhưng bạn có thể tải xuống từ SourceForge tại //sourceforge.net/projects/docx2txt/. Trích xuất kho lưu trữ:
tar xzvf docx2txt-1.4.tgz
Bạn cần đảm bảo rằng perl, giải nén và make được cài đặt trên hệ thống của bạn, vì vậy hãy cài đặt hoặc nâng cấp các gói đó ngay bây giờ:
sudo yum cập nhật && sudo yum cài đặt perl giải nén
Sau đó, chạy make as root để cài đặt:
sudo làm
Docx2txt hiện được cài đặt dưới dạng docx2txt.sh . Ví dụ: để chuyển đổi tệp word-document.docx thành tệp văn bản, bạn có thể chạy:
docx2txt.sh từ-document.docx
Tệp văn bản đã chuyển đổi sẽ tự động được lưu dưới dạng word-document.txt .
Arch Linux 2016
sudo pacman -Sy docx2txt
Cài đặt phông chữ tương thích Microsoft
Các phông chữ Microsoft cốt lõi có sẵn trên Linux và bạn nên cài đặt chúng nếu bạn sẽ làm việc với các tệp Microsoft Word - đặc biệt là nếu chúng được tạo trên hệ thống Windows. Các phông chữ cốt lõi bao gồm:
- Monale Andale
- Arial
- Đen Arial
- Calabri
- Cambria
- Hài hước
- Chuyển phát nhanh
- Va chạm
- Thời đại
- Trebuchet
- Verdana
- Webdings
Để cài đặt chúng, hãy làm theo các bước sau:
Debian 8, Ubuntu 15
sudo apt-get update && sudo apt-get install ttf-mscorefonts-Installer
Fedora 23
Tải xuống gói RPM của trình cài đặt msttcore từ SourceForge.
Cài đặt các gói cần thiết để cài đặt:
sudo dnf update && sudo dnf cài đặt curl cabextract xorg-x11-font-utils fontconfig
Sau đó cài đặt gói RPM cục bộ:
sudo dnf cài đặt msttcore-font-Installer-2.6-1.noarch.rpm
Mở 10
Tải xuống gói RPM của trình cài đặt msttcore từ SourceForge.
Cài đặt các gói cần thiết để cài đặt:
sudo zypper cập nhật && sudo zypper cài đặt curl cabextract xorg-x11-font-utils fontconfig
Sau đó cài đặt gói RPM cục bộ:
sudo zypper cài đặt msttcore-font-Installer-2.6-1.noarch.rpm
CentOS 7
Tải xuống gói RPM của trình cài đặt msttcore từ SourceForge.
Cài đặt các gói cần thiết để cài đặt:
sudo yum cập nhật && sudo yum cài đặt curl cabextract xorg-x11-font-utils fontconfig
Sau đó cài đặt gói RPM cục bộ:
sudo yum cài đặt msttcore-font-Installer-2.6-1.noarch.rpm
Arch Linux 2016
Tải xuống gói RPM của trình cài đặt msttcore từ SourceForge.
Cài đặt các gói cần thiết để cài đặt:
pacman -Sy rpmextract x11-font-utils fontconfig
Trích xuất nội dung của gói RPM cục bộ:
rpmextract.sh msttcore-font-Installer-2.6-1.noarch.rpm
Lệnh này trích xuất nội dung thô của tệp RPM và tạo hai thư mục, vv và usr tương ứng với các thư mục / etc và / usr của bạn . Các tệp phông chữ được đặt trong usr / share / font / msttcore .